seclan のほえほえルーム

| |

UCS (Universal Character Set) と UTF (UCS Transformation Format)

・
2000/08/04 []

 Unicode 関連の文章には、よく UCS や UTF という言葉が出てきます。UCS は Universal Character Set の略で、ISO/IEC 10646 の規格で定義されている文字コード集合をあらわしています。ISO/IEC 10646 の面 0 が Unicode と同一であるのはよく知られている話です。UCS-2 や UCS-4 というのは、この UCS をそれぞれ 2 オクテット、4 オクテットでの符号化する方式を言っています。
 UTF というのは、UCS (または Unicode) Transformation Format の略です。UCS 自体は 4 オクテットの大きさを持っていますが、それを特定の大きさに変換する方法を示しています。これには、UTF-2 (UTF-8 の昔の名前), UTF-7 (RFC-2152), UTF-8, UTF-16, UTF-32 といったものがあり、UTF-X の各 X はビット数を表しています。つまり、UTF-8 なら UCS を 8 ビット単位に変形する方法、UTF-7 なら 7 ビット単位に変形する方法を示しています。


by seclan

関連


| |

 

配信

5.71 msec