最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

gb18030-2022 標(biāo)準(zhǔn)

2023-06-27 12:32 作者:Grace已存在  | 我要投稿

原文:https://ken-lunde.medium.com/the-gb-18030-2022-standard-3d0ebaeb4132

作者:Dr Ken Lunde

翻譯: Grace已存在


我(Dr Ken Lunde)的職業(yè)生涯中有相當(dāng)一部分時(shí)間花在跟蹤區(qū)域字符集標(biāo)準(zhǔn)上,其中特別關(guān)注東亞的字符集標(biāo)準(zhǔn)。當(dāng)有重要標(biāo)準(zhǔn)發(fā)布或更新時(shí),我會(huì)親自研究實(shí)際意義上發(fā)生的變化,并向開(kāi)發(fā)人員社區(qū)傳播信息。這就是這篇文章的目的。?

歷史與概述?

中國(guó)于2000年首次發(fā)布GB 18030標(biāo)準(zhǔn)為GB 18030-2000 (信息技術(shù) 信息交換用漢字編碼字符集 基本集的擴(kuò)充Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set),并在5年之后修訂為 GB 18030-2005 (信息技術(shù) 中文編碼字符集 Information Technology — Chinese coded character set)。

GB 18030-2022 cover

請(qǐng)注意,這里標(biāo)準(zhǔn)的名稱發(fā)生了改變。17年之后,中國(guó)以同樣的名稱發(fā)布了GB18030-2022。 ?GB18020-2022標(biāo)準(zhǔn)之前的版本只是根據(jù)代碼點(diǎn)范圍指定了所需的指令集。 現(xiàn)在的2022 年版本在第 9 節(jié)中指定了三個(gè)實(shí)施級(jí)別。 需要注意的主要變化是:實(shí)現(xiàn)級(jí)別 1 需要 9FA6..9FB3 和 9FBC..9FEF 范圍內(nèi)的以下 66 個(gè)表意文字,而 2005 版本中不需要這些表意文字(中間范圍內(nèi)的表意文字 9FB4..9FBB, 是 2005 版本中所需曲目的一部分,當(dāng)然,仍然是必需的):?

0x82358F33 U+9FA6 ?
0x82358F34 U+9FA7 ?
0x82358F35 U+9FA8 ?
0x82358F36 U+9FA9 ?
0x82358F37 U+9FAA ?
0x82358F38 U+9FAB ?
0x82358F39 U+9FAC ?
0x82359030 U+9FAD ?
0x82359031 U+9FAE ?
0x82359032 U+9FAF ?
0x82359033 U+9FB0 ?
0x82359034 U+9FB1 ?
0x82359035 U+9FB2 ?
0x82359036 U+9FB3 ?
0x82359135 U+9FBC ?
0x82359136 U+9FBD ?
0x82359137 U+9FBE ?
0x82359138 U+9FBF ?
0x82359139 U+9FC0 ?
0x82359230 U+9FC1 ?
0x82359231 U+9FC2 ?
0x82359232 U+9FC3 ?
0x82359233 U+9FC4 ?
0x82359234 U+9FC5 ?
0x82359235 U+9FC6 ?
0x82359236 U+9FC7 ?
0x82359237 U+9FC8 ?
0x82359238 U+9FC9 ?
0x82359239 U+9FCA ?
0x82359330 U+9FCB ?
0x82359331 U+9FCC ?
0x82359332 U+9FCD ?
0x82359333 U+9FCE ?
0x82359334 U+9FCF ?
0x82359335 U+9FD0 ?
0x82359336 U+9FD1 ?
0x82359337 U+9FD2 ?
0x82359338 U+9FD3 ?
0x82359339 U+9FD4 ?
0x82359430 U+9FD5 ?
0x82359431 U+9FD6 ?
0x82359432 U+9FD7 ?
0x82359433 U+9FD8 ?
0x82359434 U+9FD9 ?
0x82359435 U+9FDA ?
0x82359436 U+9FDB ?
0x82359437 U+9FDC ?
0x82359438 U+9FDD ?
0x82359439 U+9FDE ?
0x82359530 U+9FDF ?
0x82359531 U+9FE0 ?
0x82359532 U+9FE1 ?
0x82359533 U+9FE2 ?
0x82359534 U+9FE3 ?
0x82359535 U+9FE4 ?
0x82359536 U+9FE5 ?
0x82359537 U+9FE6 ?
0x82359538 U+9FE7 ?
0x82359539 U+9FE8 ?
0x82359630 U+9FE9 ?
0x82359631 U+9FEA ?
0x82359632 U+9FEB ?
0x82359633 U+9FEC ?
0x82359634 U+9FED ?
0x82359635 U+9FEE ?
0x82359636 U+9FEF ??


這些是 Unicode 版本 4.1 (14)、5.1 (8)、5.2 (8)、6.1 (1)、8.0 (9)、10.0 (21) 和 11.0 (5) 中添加的 URO。 四字節(jié)對(duì)應(yīng)在 GB 18030 代碼點(diǎn)顯示在第一列中,以便與本文的其余部分保持一致。 實(shí)現(xiàn)級(jí)別 1 還規(guī)定:實(shí)現(xiàn)可以選擇支持一種或多種非中文(也稱為地區(qū)性或少數(shù)民族)文字,其四字節(jié) GB 18030 編碼范圍、字符數(shù)和 Unicode 塊名稱如 GB 18030-2022 的表 3 所示。 下面用 Unicode 塊名稱重現(xiàn):?

0x81318132–0x81319934 42 Arabic
0x8430BA32–0x8430FE35 59 Arabic Presentation Forms-A
0x84318730–0x84319530 84 Arabic Presentation Forms-B
0x8132E834–0x8132FD31 193 Tibetan
0x8134D238–0x8134E337 149 Mongolian
0x9034C538–0x9034C730 13 Mongolian Supplement
0x8134F434–0x8134F830 35 Tai Le
0x8134F932–0x81358437 83 New Tai Lue
0x81358B32–0x81359935 127 Tai Tham
0x82359833–0x82369435 1215 Yi Syllables
0x82369535–0x82369A32 48 Lisu
0x81339D36–0x8133B635 69 Hangul Jamo
0x8139A933–0x8139B734 51 Hangul Compatibility Jamo
0x8237CF35–0x8336BE36 3431 Hangul Syllables
0x9232C636–0x9232D635 133 Miao
0x81398B32–0x8139A135 214 Kangxi Radicals
0x8139EE39–0x82358738 6530 CJK Unified Ideographs Extension A
0x82358F33–0x82359636 66 CJK Unified Ideographs (URO)
0x95328236–0x9835F336 42711 CJK Unified Ideographs Extension B
0x9835F738–0x98399E36 4149 CJK Unified Ideographs Extension C
0x98399F38–0x9839B539 222 CJK Unified Ideographs Extension D
0x9839B632–0x9933FE33 5762 CJK Unified Ideographs Extension E
0x99348138–0x9939F730 7473 CJK Unified Ideographs Extension F?

換句話說(shuō),支持非中文文字仍然是可選的。 從該表中我們還可以看到,GB 18030-2022 可識(shí)別以下非中文文字:阿拉伯文、藏文、蒙古文、太勒文、新傣略文、大譚文、彝文、傈僳文、朝鮮文(韓文)和苗文。 熟悉 CJK 統(tǒng)一表意文字塊的人可能會(huì)想知道,為什么包含 6,582 個(gè)表意文字(至少在 Unicode 版本 13.0 之前)的擴(kuò)展 A 在上表中僅顯示 6530 個(gè)。 缺失的 52 個(gè)表意文字實(shí)際上是從 GB 18030 編碼的兩字節(jié)區(qū)域映射的(在 GB 18030 標(biāo)準(zhǔn)的所有三個(gè)版本中),如下所示:?

0xFE56 U+3447 ?

0xFE55 U+3473 ?
0xFE5A U+359E ?
0xFE5C U+360E ?
0xFE5B U+361A ?
0xFE60 U+3918 ?
0xFE5F U+396E ?
0xFE62 U+39CF ?
0xFE65 U+39D0 ?
0xFE63 U+39DF ?
0xFE64 U+3A73 ?
0xFE68 U+3B4E ?
0xFE69 U+3C6E ?
0xFE6A U+3CE0 ?
0xFE6F U+4056 ?
0xFE70 U+415F ?
0xFE72 U+4337 ?
0xFE78 U+43AC ?
0xFE77 U+43B1 ?
0xFE7A U+43DD ?
0xFE7B U+44D6 ?
0xFE7D U+464C ?
0xFE7C U+4661 ?
0xFE80 U+4723 ?
0xFE81 U+4729 ?
0xFE82 U+477C ?
0xFE83 U+478D ?
0xFE85 U+4947 ?
0xFE86 U+497A ?
0xFE87 U+497D ?
0xFE88 U+4982 ?
0xFE89 U+4983 ?
0xFE8A U+4985 ?
0xFE8B U+4986 ?
0xFE8D U+499B ?
0xFE8C U+499F ?
0xFE8F U+49B6 ?
0xFE8E U+49B7 ?
0xFE96 U+4C77 ?
0xFE93 U+4C9F ?
0xFE94 U+4CA0 ?
0xFE95 U+4CA1 ?
0xFE97 U+4CA2 ?
0xFE92 U+4CA3 ?
0xFE98 U+4D13 ?
0xFE99 U+4D14 ?
0xFE9A U+4D15 ?
0xFE9B U+4D16 ?
0xFE9C U+4D17 ?
0xFE9D U+4D18 ?
0xFE9E U+4D19 ?
0xFE9F U+4DAE ??

我將在本文的最后一部分討論實(shí)現(xiàn)級(jí)別 2。 實(shí)現(xiàn)級(jí)別 3 被描述為所有附加的 CJK 統(tǒng)一表意文字更貼切,意味著擴(kuò)展 B 到 F 的整體,以及康熙部首塊中的 214 個(gè)字符。 在對(duì)代表性字形的更正方面,我八年前在這篇中日韓類型博客文章中記錄的一個(gè)擴(kuò)展A中的U+4548?,在GB 18030-2022中得到了更正。 以下為GB 18030-2022代碼表摘錄:

GB 18030-2022 code chart excerpt for 0x8233AF32 (U+4548 ?)

盡管從技術(shù)上來(lái)說(shuō),GB 18030-2022 本身并不是一個(gè)更正,但它是第一個(gè)以更正確的雙交叉線形式代表字形 U+FFE5 ¥ FULLWIDTH YEN SIGN的GB 字符集標(biāo)準(zhǔn)。 所有以前包含該字符的 GB 字符集標(biāo)準(zhǔn)都只包括單橫線形式,但實(shí)際上這種形式并不存在。 以下為GB 18030-2022代碼表摘錄:

GB 18030-2022 code chart excerpt for 0xA3A4 (U+FFE5 ¥)

沒(méi)有專用區(qū)要求?

除 24 個(gè)字符外,GB 18030-2005 中所有必需的字符在 Unicode 標(biāo)準(zhǔn)中都有等效字符。 以前需要使用 PUA(專用區(qū)域)代碼點(diǎn)表示的字符可以分為兩類。 第一組涉及 18 個(gè)字符的映射更改。 以下列表提供了兩字節(jié)或四字節(jié) GB 18030 代碼點(diǎn)、它們到 GB 18030-2005 中的 Unicode 標(biāo)準(zhǔn)的映射、它們到 GB 18030-2022 中的 Unicode 標(biāo)準(zhǔn)的映射,以及顯示的字符(如果有) 在 GB 18030-2022 代碼表中(第 11、81、160 和 242 頁(yè)):?


0xA6D9 U+E78D U+FE10 ?

0xA6DA U+E78E U+FE12 ?
0xA6DB U+E78F U+FE11 ?
0xA6DC U+E790 U+FE13 ?
0xA6DD U+E791 U+FE14 ?
0xA6DE U+E792 U+FE15 ?
0xA6DF U+E793 U+FE16 ?
0xA6EC U+E794 U+FE17 ?
0xA6ED U+E795 U+FE18 ?
0xA6F3 U+E796 U+FE19 ?
0xFE59 U+E81E U+9FB4 ?
0xFE61 U+E826 U+9FB5 ?
0xFE66 U+E82B U+9FB6 ?
0xFE67 U+E82C U+9FB7 ?
0xFE6D U+E832 U+9FB8 ?
0xFE7E U+E843 U+9FB9 ?
0xFE90 U+E854 U+9FBA ?
0xFEA0 U+E864 U+9FBB ?
0x82359037 U+9FB4 U+E81E (none)
0x82359038 U+9FB5 U+E826 (none)
0x82359039 U+9FB6 U+E82B (none)
0x82359130 U+9FB7 U+E82C (none)
0x82359131 U+9FB8 U+E832 (none)
0x82359132 U+9FB9 U+E843 (none)
0x82359133 U+9FBA U+E854 (none)
0x82359134 U+9FBB U+E864 (none)
0x84318236 U+FE10 U+E78D (none)
0x84318237 U+FE11 U+E78F (none)
0x84318238 U+FE12 U+E78E (none)
0x84318239 U+FE13 U+E790 (none)
0x84318330 U+FE14 U+E791 (none)
0x84318331 U+FE15 U+E792 (none)
0x84318332 U+FE16 U+E793 (none)
0x84318333 U+FE17 U+E794 (none)
0x84318334 U+FE18 U+E795 (none)
0x84318335 U+FE19 U+E796 (none)?


第二組僅涉及優(yōu)先選擇擴(kuò)展 B 映射而不是 PUA 映射。 以下列表提供了兩字節(jié)或四字節(jié) GB 18030 代碼點(diǎn)、它們與 GB 18030-2005 和 GB 18030-2022 中的 Unicode 標(biāo)準(zhǔn)的映射,以及 GB 18030-2022 代碼中顯示的表意文字(如果有) 圖表(第 81、245、246、271、295 和 325 頁(yè)):? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0xFE51 U+E816 (none)
0xFE52 U+E817 (none)
0xFE53 U+E818 (none)
0xFE6C U+E831 (none)
0xFE76 U+E83B (none)
0xFE91 U+E855 (none)
0x95329031 U+20087 ??
0x95329033 U+20089 ??
0x95329730 U+200CC ??
0x9536B937 U+215D7 ??
0x9630BA35 U+2298F ??
0x9635B630 U+241FE ???


沒(méi)有 CJK 兼容表意文字

一些必需的字符,確切地說(shuō)是 21 個(gè)表意文字,位于 CJK 兼容性表意文字塊中。 其中12個(gè)實(shí)際上是中日韓統(tǒng)一表意文字,根據(jù)GB 18030-2022仍然是必需的。 然而,實(shí)際的 CJK 兼容表意文字的 9 個(gè)不再需要,并且 GB 18030-2022 代碼表中不再顯示字符(第 80 和 81 頁(yè))。 以下列表提供了兩字節(jié) GB 18030 代碼點(diǎn)、它們與 GB 18030-2000、GB 18030-2005 和 GB 18030-2022 中 Unicode 標(biāo)準(zhǔn)的映射、表意文字本身以及括號(hào)中的規(guī)范等效的 CJK 統(tǒng)一表意文字 :?

0xFD9C U+F92C 郎 (U+90CE 郎)
0xFD9D U+F979 凉 (U+51C9 涼)
0xFD9E U+F995 秊 (U+79CA 秊)
0xFD9F U+F9E7 裏 (U+88CF 裏)
0xFDA0 U+F9F1 隣 (U+96A3 隣)
0xFE40 U+FA0C 兀 (U+5140 兀)
0xFE41 U+FA0D 嗀 (U+55C0 嗀)
0xFE47 U+FA18 礼 (U+793C 禮)
0xFE49 U+FA20 蘒 (U+8612 蘒)?

當(dāng)然,字體實(shí)現(xiàn)不需要?jiǎng)h除這九個(gè) CJK 兼容表意文字。 根本不再需要包含它們。 我懷疑大多數(shù)字體實(shí)現(xiàn)都會(huì)為了向后兼容性而保留字形及其映射。?

TGH 2013 要求?

GB 18030 標(biāo)準(zhǔn)的所需部分將會(huì)逐漸增加,2022 年的更新也不例外。 本文的第一部分提到了實(shí)現(xiàn)級(jí)別 1 現(xiàn)在所需的 66 個(gè)表意文字。 就實(shí)施二級(jí)的要求而言,中國(guó)于2013年發(fā)布了通用規(guī)范漢字表(Tōngyòng Guīfàn Hànzìbiǎo;又名TGH 2013),其中列出了8,105個(gè)表意文字,中文稱為“漢字”。 這些表意文字分為三個(gè)不同的級(jí)別,分別由 3,500、3,000 和 1,605 個(gè)表意文字組成。?

通用規(guī)范漢字表 (Tōngyòng Guīfàn Hànzìbiǎo) cover?

如果我們考慮實(shí)施級(jí)別 1(包括范圍 4E00..9FEF),則能覆蓋 TGH 2013 中 8,105 個(gè)表意文字中的 7,909 個(gè)。剩下的是擴(kuò)展 B (36)、擴(kuò)展 C (44) 中的 196 個(gè)表意文字 、擴(kuò)展 D (8) 和擴(kuò)展 E (108) 塊如下所示(它們的四字節(jié) GB 18030 代碼點(diǎn)、它們到 GB 18030-2005 和 GB 18030-2022 中的 Unicode 標(biāo)準(zhǔn)的映射以及表意文字本身 ):

Extension B — 36 ideographs — Unicode Version 3.1 (2001)

0x9532A632 ?U+20164 ?? 0x9533AA30 ?U+20676 ?? 0x9534CE36 ?U+20CD0 ?? 0x9535FE34 ?U+2139A ?? 0x95368C35 ?U+21413 ?? 0x9632F737 ?U+235CB ?? 0x9634A937 ?U+23C97 ?? 0x9634A938 ?U+23C98 ?? 0x9634D133 ?U+23E23 ?? 0x96378333 ?U+249DB ?? 0x96379335 ?U+24A7D ?? 0x96379B31 ?U+24AC9 ?? 0x9639A936 ?U+25532 ?? 0x9639AE34 ?U+25562 ?? 0x9639B534 ?U+255A8 ?? 0x9731A435 ?U+25ED7 ?? 0x9731F837 ?U+26221 ?? 0x9732B837 ?U+2648D ?? 0x9732E936 ?U+26676 ?? 0x97338538 ?U+2677C ?? 0x9733E930 ?U+26B5C ?? 0x9733FC37 ?U+26C21 ?? 0x97388237 ?U+27FF9 ?? 0x9738EA36 ?U+28408 ?? 0x9739AB30 ?U+28678 ?? 0x9739AD39 ?U+28695 ?? 0x9739CF30 ?U+287E0 ?? 0x9830A833 ?U+28B49 ?? 0x9830C137 ?U+28C47 ?? 0x9830C235 ?U+28C4F ?? 0x9830C237 ?U+28C51 ?? 0x9830C330 ?U+28C54 ?? 0x9830FD31 ?U+28E99 ?? 0x9834B536 ?U+29F7E ?? 0x9834B631 ?U+29F83 ?? 0x9834B730 ?U+29F8C ??


Extension C — 44 ideographs — Unicode Version 5.2 (2009)

0x98368F39 ?U+2A7DD ?? 0x9836AC35 ?U+2A8FB ?? 0x9836AF33 ?U+2A917 ?? 0x9836CB34 ?U+2AA30 ?? 0x9836CC30 ?U+2AA36 ?? 0x9836CF34 ?U+2AA58 ?? 0x9837D838 ?U+2AFA2 ?? 0x98388137 ?U+2B127 ?? 0x98388138 ?U+2B128 ?? 0x98388333 ?U+2B137 ?? 0x98388334 ?U+2B138 ?? 0x98389535 ?U+2B1ED ?? 0x9838B130 ?U+2B300 ?? 0x9838BA39 ?U+2B363 ?? 0x9838BC31 ?U+2B36F ?? 0x9838BC34 ?U+2B372 ?? 0x9838BD35 ?U+2B37D ?? 0x9838CB30 ?U+2B404 ?? 0x9838CC32 ?U+2B410 ?? 0x9838CC35 ?U+2B413 ?? 0x9838D433 ?U+2B461 ?? 0x9838E137 ?U+2B4E7 ?? 0x9838E235 ?U+2B4EF ?? 0x9838E332 ?U+2B4F6 ?? 0x9838E335 ?U+2B4F9 ?? 0x9838E535 ?U+2B50D ?? 0x9838E536 ?U+2B50E ?? 0x9838E936 ?U+2B536 ?? 0x9838F536 ?U+2B5AE ?? 0x9838F537 ?U+2B5AF ?? 0x9838F631 ?U+2B5B3 ?? 0x9838FB33 ?U+2B5E7 ?? 0x9838FC36 ?U+2B5F4 ?? 0x98398236 ?U+2B61C ?? 0x98398237 ?U+2B61D ?? 0x98398336 ?U+2B626 ?? 0x98398337 ?U+2B627 ?? 0x98398338 ?U+2B628 ?? 0x98398430 ?U+2B62A ??

0x98398432 ?U+2B62C ?? 0x98398E37 ?U+2B695 ?? 0x98398E38 ?U+2B696 ?? 0x98399131 ?U+2B6AD ?? 0x98399735 ?U+2B6ED ??


Extension D — 8 ideographs — Unicode Version 6.0 (2010)

0x9839AA33 ?U+2B7A9 ?? 0x9839AD31 ?U+2B7C5 ?? 0x9839B034 ?U+2B7E6 ?? 0x9839B233 ?U+2B7F9 ?? 0x9839B236 ?U+2B7FC ?? 0x9839B336 ?U+2B806 ?? 0x9839B430 ?U+2B80A ?? 0x9839B538 ?U+2B81C ??


Extension E — 108 ideographs — Unicode Version 8.0 (2015)

0x9839C534 ?U+2B8B8 ?? 0x9839FA31 ?U+2BAC7 ?? 0x99308B33 ?U+2BB5F ?? 0x99308B36 ?U+2BB62 ?? 0x99308E32 ?U+2BB7C ?? 0x99308E39 ?U+2BB83 ?? 0x99309E31 ?U+2BC1B ?? 0x9930C039 ?U+2BD77 ?? 0x9930C235 ?U+2BD87 ?? 0x9930CD37 ?U+2BDF7 ?? 0x9930D237 ?U+2BE29 ?? 0x99318739 ?U+2C029 ?? 0x99318830 ?U+2C02A ?? 0x99319437 ?U+2C0A9 ?? 0x99319830 ?U+2C0CA ?? 0x9931B237 ?U+2C1D5 ?? 0x9931B331 ?U+2C1D9 ?? 0x9931B633 ?U+2C1F9 ?? 0x9931C334 ?U+2C27C ?? 0x9931C436 ?U+2C288 ?? 0x9931C734 ?U+2C2A4 ?? 0x9931D239 ?U+2C317 ?? 0x9931D937 ?U+2C35B ?? 0x9931DA33 ?U+2C361 ?? 0x9931DA36 ?U+2C364 ?? 0x9931F738 ?U+2C488 ?? 0x9931F930 ?U+2C494 ?? 0x9931F933 ?U+2C497 ?? 0x99328C34 ?U+2C542 ?? 0x9932A133 ?U+2C613 ?? 0x9932A138 ?U+2C618 ?? 0x9932A237 ?U+2C621 ?? 0x9932A335 ?U+2C629 ?? 0x9932A337 ?U+2C62B ?? 0x9932A338 ?U+2C62C ?? 0x9932A339 ?U+2C62D ?? 0x9932A431 ?U+2C62F ?? 0x9932A630 ?U+2C642 ?? 0x9932A638 ?U+2C64A ?? 0x9932A639 ?U+2C64B ?? 0x9932BD34 ?U+2C72C ?? 0x9932BD37 ?U+2C72F ?? 0x9932C839 ?U+2C79F ?? 0x9932CC33 ?U+2C7C1 ?? 0x9932D233 ?U+2C7FD ?? 0x9932E833 ?U+2C8D9 ?? 0x9932E838 ?U+2C8DE ?? 0x9932E931 ?U+2C8E1 ?? 0x9932EA39 ?U+2C8F3 ?? 0x9932EC39 ?U+2C907 ?? 0x9932ED32 ?U+2C90A ?? 0x9932EF31 ?U+2C91D ?? 0x99338830 ?U+2CA02 ?? 0x99338932 ?U+2CA0E ?? 0x99339433 ?U+2CA7D ?? 0x99339837 ?U+2CAA9 ?? 0x9933A535 ?U+2CB29 ?? 0x9933A539 ?U+2CB2D ?? 0x9933A630 ?U+2CB2E ?? 0x9933A633 ?U+2CB31 ?? 0x9933A730 ?U+2CB38 ?? 0x9933A731 ?U+2CB39 ?? 0x9933A733 ?U+2CB3B ?? 0x9933A737 ?U+2CB3F ?? 0x9933A739 ?U+2CB41 ?? 0x9933A838 ?U+2CB4A ?? 0x9933A932 ?U+2CB4E ?? 0x9933AA34 ?U+2CB5A ?? 0x9933AA35 ?U+2CB5B ?? 0x9933AB34 ?U+2CB64 ?? 0x9933AB39 ?U+2CB69 ?? 0x9933AC32 ?U+2CB6C ?? 0x9933AC35 ?U+2CB6F ?? 0x9933AC39 ?U+2CB73 ?? 0x9933AD32 ?U+2CB76 ?? 0x9933AD34 ?U+2CB78 ?? 0x9933AD38 ?U+2CB7C ?? 0x9933B331 ?U+2CBB1 ?? 0x9933B435 ?U+2CBBF ?? 0x9933B436 ?U+2CBC0 ?? 0x9933B630 ?U+2CBCE ?? 0x9933C336 ?U+2CC56 ?? 0x9933C435 ?U+2CC5F ?? 0x9933D335 ?U+2CCF5 ?? 0x9933D336 ?U+2CCF6 ?? 0x9933D433 ?U+2CCFD ?? 0x9933D435 ?U+2CCFF ?? 0x9933D438 ?U+2CD02 ?? 0x9933D439 ?U+2CD03 ?? 0x9933D536 ?U+2CD0A ?? 0x9933E235 ?U+2CD8B ?? 0x9933E237 ?U+2CD8D ?? 0x9933E239 ?U+2CD8F ?? 0x9933E330 ?U+2CD90 ?? 0x9933E435 ?U+2CD9F ?? 0x9933E436 ?U+2CDA0 ?? 0x9933E534 ?U+2CDA8 ?? 0x9933E539 ?U+2CDAD ?? 0x9933E630 ?U+2CDAE ?? 0x9933E939 ?U+2CDD5 ?? 0x9933F036 ?U+2CE18 ?? 0x9933F038 ?U+2CE1A ?? 0x9933F137 ?U+2CE23 ?? 0x9933F230 ?U+2CE26 ?? 0x9933F234 ?U+2CE2A ?? 0x9933FA36 ?U+2CE7C ?? 0x9933FB38 ?U+2CE88 ?? 0x9933FC39 ?U+2CE93 ??

根據(jù)我八年前發(fā)表的這篇中日韓類型博客文章的最后一段,我預(yù)測(cè) TGH 2013 將成為 GB 18030 的要求。 至少,它是實(shí)現(xiàn)級(jí)別 2 所必需的。

將 GB 18030 代碼點(diǎn)映射到 Unicode 標(biāo)準(zhǔn)中的等效代碼點(diǎn)的官方機(jī)器可讀表已于 2023 年 3 月 28 日通過(guò)名為 GB18030–2022 與 UCS 代碼映射表的頁(yè)面發(fā)布。 名為 GB18030–2022MappingTableBMP.txt 的文件涵蓋了 63,488 個(gè) BMP(基本多語(yǔ)言平面;又名平面 0)代碼點(diǎn),并且正如許多人可以猜測(cè)的那樣,名為 GB18030–2022MappingTableSMP.txt 的文件涵蓋了 16 個(gè)補(bǔ)充平面(平面 1 到 16)到 調(diào)整 1,048,576 個(gè)代碼點(diǎn)。

對(duì)于那些對(duì)中國(guó)通用規(guī)范漢字表 (aka TGH 2013) 中8,105 個(gè)表意文字的映射感興趣的人,可參考于2023年3月27日發(fā)布的官方機(jī)器可讀表,名為《通用規(guī)范漢字表》漢字的GB18030–2022與UCS代碼映射表。

在字體實(shí)現(xiàn)方面,只有 Noto Sans CJK (Google)、Source Han Mono (Adobe) 和 Source Han Sans (Adobe) 字體系列的簡(jiǎn)體中文字體已符合 GB 18030-2022 實(shí)施級(jí)別 2 的要求, 這要?dú)w功于其原始開(kāi)發(fā)人員(比如像我這樣式兒的??)具的前瞻性思維:Microsoft YaHei (Microsoft)、Noto Serif CJK (Google)、PingFang (Apple) 和 Source Han Serif (Adobe) — 至少在撰寫本文時(shí)的當(dāng)前版本 — 需要少量與實(shí)現(xiàn)級(jí)別 1 相關(guān)的 URO 添加, 來(lái)使之符合GB 18030-2022實(shí)施級(jí)別2。像往常一樣,我記錄了隱秘的細(xì)節(jié)。


專業(yè)提示:如果您有興趣學(xué)習(xí)如何面向未來(lái)的基于 GB 18030 的字體實(shí)現(xiàn),請(qǐng)首先考慮以下兩個(gè)關(guān)鍵點(diǎn):

1. GB 18030 與 ISO/IEC 10646 同步,而不是與 Unicode 標(biāo)準(zhǔn)同步。 GB 18030-2022的內(nèi)容與ISO/IEC 10646:2017(又稱第五版)同步,相當(dāng)于Unicode版本11.0。 這解釋了為什么范圍 9FF0..9FFF 不包含在實(shí)現(xiàn)級(jí)別 1 中。這 16 個(gè)表意文字被附加到 Unicode 版本 13.0 (13) 和 14.0 (3) 中的 URO 中。

2. GB 18030的新版本逐漸包括了附加到URO的表意文字,GB 18030-2022已經(jīng)確立了這種先例。 我預(yù)測(cè)到了這一點(diǎn),因此預(yù)測(cè)附加到擴(kuò)展 A 的表意文字也是如此。這里的關(guān)鍵點(diǎn)是,這是唯一完整需要的兩個(gè) CJK 統(tǒng)一表意文字塊,并且該要求在邏輯上可以擴(kuò)展到任何 附加到它們上的表意文字。 這將影響實(shí)現(xiàn)級(jí)別 1,這對(duì)于字體實(shí)現(xiàn)至關(guān)重要。 從 Unicode 版本 14.0 和 13.0 開(kāi)始,URO 和擴(kuò)展 A 塊現(xiàn)在均已滿。

因此,為了面向未來(lái)的字體實(shí)現(xiàn),我建議添加附加到 URO 和擴(kuò)展 A 的附加表意文字的字形。 以下列表提供了四字節(jié) GB 18030 代碼點(diǎn)、它們與 GB 18030-2000、GB 18030-2005 和 GB 18030-2022 中的 Unicode 標(biāo)準(zhǔn)的映射以及表意文字本身:


URO — 13 ideographs — Unicode Version 13.0 (2020)


0x82359637 ?U+9FF0 ?
0x82359638 ?U+9FF1 ?
0x82359639 ?U+9FF2 ?
0x82359730 ?U+9FF3 ?
0x82359731 ?U+9FF4 ?
0x82359732 ?U+9FF5 ?
0x82359733 ?U+9FF6 ?
0x82359734 ?U+9FF7 ?
0x82359735 ?U+9FF8 ?
0x82359736 ?U+9FF9 ?
0x82359737 ?U+9FFA ?
0x82359738 ?U+9FFB ?
0x82359739 ?U+9FFC ?


URO — 3 ideographs — Unicode Version 14.0 (2021)


0x82359830 ?U+9FFD ?
0x82359831 ?U+9FFE ?
0x82359832 ?U+9FFF ?


Extension A — 10 ideographs — Unicode Version 13.0 (2020)


0x82358739 ?U+4DB6 ?
0x82358830 ?U+4DB7 ?
0x82358831 ?U+4DB8 ?
0x82358832 ?U+4DB9 ?
0x82358833 ?U+4DBA ?
0x82358834 ?U+4DBB ?
0x82358835 ?U+4DBC ?
0x82358836 ?U+4DBD ?
0x82358837 ?U+4DBE ?
0x82358838 ?U+4DBF ?


關(guān)于作者

Ken Lunde 博士自 2021 年 8 月 2 日起在 Apple 擔(dān)任字體開(kāi)發(fā)人員(并在 2020 年 1 月 16 日至 2021 年 7 月 30 日期間擔(dān)任承包商),是《中日韓信息處理第二版》的作者 (O'Reilly Media,2009),并獲得威斯康星大學(xué)麥迪遜分校語(yǔ)言學(xué)學(xué)士學(xué)位(1987 年)、碩士學(xué)位(1988 年)和博士學(xué)位(1994 年)。 在加入 Apple 之前,他在 Adobe 工作了超過(guò) 28 年(從 1991 年 7 月 1 日到 2019 年 10 月 18 日),專門從事 CJKV 字體開(kāi)發(fā),這意味著他為東亞字體設(shè)計(jì)和開(kāi)發(fā)了字體,以及 它們所依據(jù)的標(biāo)準(zhǔn)和規(guī)范。 他設(shè)計(jì)并開(kāi)發(fā)了 Adobe 品牌的“Source Han”(Source Han Sans、Source Han Serif 和 Source Han Mono), Google 品牌的“Noto CJK”(Noto Sans CJK 和 Noto Serif CJK)以及開(kāi)源泛中日韓字體系列(于 2014 年、2017 年和 2019 年發(fā)布)并在 Adobe 目前靜態(tài)的 CJK Type 博客上發(fā)表了 300 多篇文章。 Ken 擔(dān)任 Unicode 聯(lián)盟的 IVD(表意變異數(shù)據(jù)庫(kù))注冊(cè)員,出席 UTC 和 IRG 會(huì)議,參加 Unicode 編輯委員會(huì),于 2018 年成為個(gè)人 Unicode 終身會(huì)員,獲得 2018 年 Unicode Bulldog 獎(jiǎng),自 2018 年起擔(dān)任 Unicode 技術(shù)總監(jiān) 至 2020 年,于 2019 年成為表情符號(hào)小組委員會(huì)副主席,于 2020 年發(fā)布 UTN #43(Unihan 數(shù)據(jù)庫(kù)屬性“kStrange”),于 2021 年成為 CJK & Unihan Group 主席,并發(fā)布 UTN #45(Unihan Property 歷史)在 2022 年。他和他的妻子 Hitomi 自豪地?fù)碛幸粚?duì)加速增強(qiáng)的 2018 款 LR 雙電機(jī) AWD Tesla Model 3 電動(dòng)汽車。


gb18030-2022 標(biāo)準(zhǔn)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
龙泉市| 鄂托克前旗| 个旧市| 霸州市| 海阳市| 余庆县| 来宾市| 玉林市| 彭山县| 惠东县| 衢州市| 新营市| 孝昌县| 琼结县| 高平市| 开鲁县| 定兴县| 揭西县| 阳高县| 高唐县| 津南区| 榆树市| 海盐县| 天长市| 鹤峰县| 滕州市| 寿宁县| 建宁县| 康平县| 巴青县| 澄迈县| 马关县| 海原县| 崇文区| 呈贡县| 丹阳市| 迭部县| 弋阳县| 江川县| 瑞安市| 平湖市|