seclan のほえほえルーム

Unicode: UTF-9 への変換方法

2007/01/20 [土]

PDP-10 などの計算機では、マシンワードが 36bit なので、主に 8bit が単位の既存の UTF-8、UTF-16、UTF-32 では、36 の約数ではないので、無駄なビットが出てしまい、効率がよくありません。そこで 36bit の約数である 9bit 単位の nonet ごとに処理するのが適切になります。それを口実に、2005 年のジョーク RFC (RFC4042) として提案されたのが UTF-9 と UTF-18 です。ここでは、UTF-9 についての変換方法を説明します。

UTF-9 への変換方法は次の通りです。ただし U を UCS または Unicode のコードポイントを表すことにします。また B_xx という表現は左にある U の xx ビット目の値をあらわしています。数字の中の _ は見やすくするために便宜上挿入した記号です。

変換方法

次の表を用いて、U をバイナリ表現に変換します。

U の範囲 (16進)	変換された表現(バイナリ)
0000_0000-0000_00FF	０ B₀₇B₀₆B₀₅B₀₄B₀₃B₀₂B₀₁B₀₀
0000_0100-0000_FFFF	１ B₁₅B₁₄B₁₃B₁₂B₁₁B₁₀B₀₉B₀₈　　０ B₀₇B₀₆B₀₅B₀₄B₀₃B₀₂B₀₁B₀₀
0001_0000-00FF_FFFF	１ B₂₃B₂₂B₂₁B₂₀B₁₉B₁₈B₁₇B₁₆　　１ B₁₅B₁₄B₁₃B₁₂B₁₁B₁₀B₀₉B₀₈　　０ B₀₇B₀₆B₀₅B₀₄B₀₃B₀₂B₀₁B₀₀
0100_0000-7FFF_FFFF	１ B₃₁B₃₀B₂₉B₂₈B₂₇B₂₆B₂₅B₂₄　　１ B₂₃B₂₂B₂₁B₂₀B₁₉B₁₈B₁₇B₁₆　　１ B₁₅B₁₄B₁₃B₁₂B₁₁B₁₀B₀₉B₀₈　　０ B₀₇B₀₆B₀₅B₀₄B₀₃B₀₂B₀₁B₀₀

バイナリを、変換値とします。

変換例

漢字 (0x226F　0x575B)　→　
00100010_01101111　01010111_01011011　→　変換　→　
1_00100010_0_01101111　1_01010111_0_01011011　→　
0122006F0157005B

by seclan

関連

最近の話題

配信

©1999-2026 seclan. All rights reserved.

7.58 msec