seclan のほえほえルーム

| |

UNICODE: BOM (Byte Order Mark)

・
2000/04/27 []

 UNICODE は ASCII 文字のように 8bit = 1 Byte 固定長の文字コードではないため、ファイルに保存しようとするときには、その符号化の方法がいくつか考えられます。特に 16bit = 1 Byte と考えるとエンディアンも考慮する必要があります。そんな時、UNICODE ポイント U+FEFF にある Zero Width Non-breaking Space が役に立ちます。この文字は幅ゼロの文字のためこの記号をファイルの先頭に記述することで文字の符号化方式を判定しようというのです。そのようなことから、この記号は Byte Order Mark、略して BOM と呼ばれることもあります。具体的にはファイルの先頭が次のようになっている場合、右のようなエンコーディング方式とエンディアンとして考えます。

BOM (Byte Order Mark) によるファイル形式判別
B0B1B2B3Encoding NameEndian
0000FEFFUTF-32Big Endian
FFFE0000UTF-32Little Endian
FEFF  UTF-16Big Endian
FFFE  UTF-16Little Endian
EFBBBF UTF-8 

 


by seclan

関連


| |

 

配信

4.77 msec