seclan のほえほえルーム

JIS X 0213 と EUC の関係

2000/10/25 [水]

　UNIX での日本語文字コードを扱うために使用されている従来の EUC は次のようなものでした。

第1バイト	第2バイト	第3バイト	コード体系
0xxx xxxx			ASCII
1xxx xxxx	1xxx xxxx		JIS X 0208 (第一・二水準)
1000 1110	1xxx xxxx		JIS X 0201 カタカナ
1000 1111	1xxx xxxx	1xxx xxxx	JIS X 0212 (補助漢字)

　xxx xxxx の部分はそれぞれ対応する文字コードが入ります。例えば、JIS X 0208 は JIS コードとして 7bit 毎の 2 バイトのコードとして表現できるので、それぞれのバイトを xxx xxxx に当てはめます。つまり、JIS コードから EUC コードに変換するときには、JIS コードのそれぞれのバイトに 0x80 を加えればよいということです。例えば、JIS コードで 0x2123 は EUC では 0xa1a3 になります。
　さて、この機構で JIS X 0213 を扱うために、日本語用の EUC は次のように運用することになったようです。

第1バイト	第2バイト	第3バイト	コード体系
0xxx xxxx			ASCII
1xxx xxxx	1xxx xxxx		JIS X 0213 1面
1000 1110	1xxx xxxx		JIS X 0201 カタカナ
1000 1111	1xxx xxxx	1xxx xxxx	JIS X 0213 2面 (+ JIS X 0212)

　従来 JIS X 0208 だった部分に、JIS X 0213 の 1 面を割り当て、JIS X 0212 の部分に JIS X 0213 の 2面を割り当てます。1 面の部分は JIS X 0208 のほぼ上位互換なので互換性の問題はほとんどないのですが、問題は JIS X 0212 の部分です。実は、この部分は、JIS X 0212 の漢字と重ならないように、うまく JIS X 0213 の漢字が配置されています。つまり、JIS X 0213 の 2 面は JIS X 0212 の漢字部分と重ならない、1, 3-5, 8, 12-15, 78-94 区にしか漢字が配置されていません。そのようなことから、なんとか JIS X 0212 と混在して使用することができます (しかし、このあおりを食って JIS/SJIS の変換ルーチンが複雑化しました)。

by seclan

seclan のほえほえルーム

JIS X 0213 と EUC の関係

関連

最近の話題

月別

配信