go編碼-unicode/utf8細節(jié)

UTF-8帶BOM和不帶BOM
UTF-8(8-bit Unicode Transformation Format)不需要 BOM,盡管 Unicode 標準允許在 UTF-8 中使用 BOM。
所以不含 BOM 的 UTF-8 才是標準形式,在 UTF-8 文件中放置 BOM 主要是微軟的習慣(順便提一下:把帶有 BOM 的小端序 UTF-16 稱作「Unicode」而又不詳細說明,這也是微軟的習慣)。
BOM(byte order mark)是為 UTF-16 和 UTF-32 準備的,用于標記字節(jié)序(byte order mark)。微軟在 UTF-8 中使用 BOM 是因為這樣可以把 UTF-8 和 ASCII 等編碼明確區(qū)分開,但這樣的文件在 Windows 之外的操作系統(tǒng)里會帶來問題。



Unicode通用多字節(jié)字符集
使命: 為字符(char)編號(code point)
The Universal Multiple-Octet Coded Character Set, more simply known as the UCS, is intended to provide a single coded character set for the encoding of the written forms of all the languages of the world and of a wide range of additional symbols that may be used in conjunction with such languages.
標簽: