最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

淺談中日韓統(tǒng)一表意文字(CJK Unified Ideographs)——一些概念介紹

2023-05-19 02:22 作者:Puki_desu  | 我要投稿

本文章是關(guān)于中日韓統(tǒng)一表意文字(CJK Unified Ideographs)的,本意僅僅是介紹一些概念,以方便各位認(rèn)識(shí)。至于技術(shù)細(xì)節(jié),IRS的具體運(yùn)作,漢字信息處理,以及其他等等,或許等有機(jī)會(huì)的時(shí)候再談一談。


我們這里可以給中日韓統(tǒng)一表意文字(CJK Unified Ideographs,本文簡(jiǎn)稱(chēng)CJK),或者簡(jiǎn)稱(chēng)漢字(Chinese Characters, Han Characters)下一個(gè)定義:中文、日文、朝鮮文/韓文,以及越南文中的成系統(tǒng)的語(yǔ)素文字。

?

各種標(biāo)準(zhǔn)下的“次”字


有關(guān)中日韓

中文包括了各類(lèi)漢語(yǔ)使用者所使用的中文變體,主要區(qū)別是簡(jiǎn)體中文與繁體中文,此外還包括了一些壯字。僅有日文和朝鮮文/韓文(下文單使用“韓文”一詞)中的漢字在內(nèi),而日文中的假名,包括琉球文中的假名,不在CJK里。韓文中的諺文也不在CJK里。越南文中的漢字在后來(lái)也被納入,既包括通用的漢字,也包括自用的喃字。

?

實(shí)際上的成員名單(縮寫(xiě)與全稱(chēng)):

中國(guó)(G, China)

香港特別行政區(qū)(H, Hong Kong Special Administrative Region)

日本(J, Japan)

大韓民國(guó)(K, Republic of Korea)

朝鮮民主主義人民共和國(guó)(KP, Democratic People’s Republic of Korea)

澳門(mén)特別行政區(qū)(M, Macao Special Administrative Region)

馬來(lái)西亞(MY, Malaysia)

SAT大藏經(jīng)文本數(shù)據(jù)庫(kù)委員會(huì)(SAT, SAT(Sa?ga?ikīk?ta? Tai?otripi?aka?) Daizōkyō Text Database Committee)

臺(tái)北市電腦商業(yè)同業(yè)公會(huì)(T, Taipei Computer Association)

英國(guó)(UK, United Kingdom)

Unicode聯(lián)盟(UTC, Unicode Consortium)

越南(V, Vietnam)

?

本來(lái)想要放張漢字文化圈的地圖的,因?yàn)榈貓D原因姑且放張東亞地形圖


一些問(wèn)題:

假名和諺文呢?除了有些符號(hào)之類(lèi)中日韓混在一起,假名和諺文是單獨(dú)編碼的。假名的編碼就如同拉丁字母的編碼一般。而簡(jiǎn)單來(lái)說(shuō),諺文的處理方式是先把諺文字母分別編碼,然后再把初聲×中聲×終聲排列組合的所有結(jié)果(一萬(wàn)多個(gè))編碼,最后用戶(hù)輸入前者,前者的組合再映射為后者。

為什么叫CJK不是CJKV當(dāng)然可以叫CJKV,但沒(méi)有必要,越南語(yǔ)早已不使用漢字。

為什么中國(guó)是G因?yàn)樽铋_(kāi)始中國(guó)大陸的編碼是GB 2312。GB是國(guó)標(biāo)的拼音首字母。

為什么沒(méi)有新加坡?新加坡自1976年采用了中國(guó)大陸的簡(jiǎn)化字標(biāo)準(zhǔn)。實(shí)際上的確有些新加坡漢字被收入,字源被標(biāo)記為GS。

什么是SAT大藏經(jīng)文本數(shù)據(jù)庫(kù)委員會(huì)?來(lái)自日本,提供了一些佛經(jīng)用字。

?

有關(guān)統(tǒng)一

Unicode采用了漢字等同(Han unification)的策略,給不同地區(qū)使用的相同漢字相同編碼。

Unicode旨在為文字(Script,例如俄語(yǔ)和烏克蘭語(yǔ)使用了同一套Script,即西里爾字母;而日語(yǔ)有兩套Script,即漢字和假名)和其字符(Character,例如拉丁字母中的ABC)編碼,而非它們的特定形狀,即字形(Glyph,例如Times New Roman的a和宋體a)。


各種字形的a,順帶一提書(shū)寫(xiě)體a(本圖中下)被單獨(dú)編碼了

對(duì)于拉丁字母、希臘字母、西里爾字母來(lái)說(shuō),它們共享許多形狀相似的字母,比如第一個(gè)字母(Aa, Αα, Аа)幾乎一模一樣。但是在Unicode之前,它們?cè)缫逊珠_(kāi)印刷,分開(kāi)編碼,即便它們來(lái)源相同,其中一種的使用者也會(huì)覺(jué)得其他兩種十分陌生。同時(shí),統(tǒng)一這三種文字會(huì)產(chǎn)生大小寫(xiě)的混亂。因此三者是單獨(dú)編碼的。

而就漢字來(lái)說(shuō)(在不考慮簡(jiǎn)繁的情況下),漢字長(zhǎng)期被認(rèn)為是單一的文字,來(lái)自一個(gè)地區(qū)的漢字使用者能夠認(rèn)出另一個(gè)地區(qū)使用的漢字。早期的漢字編碼也將各地區(qū)的漢字共同編碼。同時(shí),共同編碼能夠方便用戶(hù)使用漢字搜索其他地區(qū)的內(nèi)容,而不必使用繁復(fù)的轉(zhuǎn)換系統(tǒng)。因此CJK進(jìn)行了漢字等同。

?

一些問(wèn)題:

漢字等同是完全的嗎?不是。如果一個(gè)漢字的不同字形在某個(gè)地區(qū)被認(rèn)為是不同的漢字(通常來(lái)說(shuō)就是在某個(gè)早期的標(biāo)準(zhǔn)里被賦予了不同編碼),那么即便實(shí)際上它們就是同一個(gè)字,也不會(huì)進(jìn)行漢字等同。例如戶(hù)、戶(hù)、戸。

為什么漢字等同之后,還能看到大陸繁體,港臺(tái)繁體和日本漢字的區(qū)別?上一個(gè)問(wèn)答是其中的一個(gè)可能性。對(duì)于通常的已經(jīng)統(tǒng)一編碼的漢字來(lái)說(shuō),字形的不同主要是靠字體的不同來(lái)實(shí)現(xiàn)的。目前已經(jīng)可以使用變體選擇符(Variation selector),在必要時(shí)選擇某個(gè)編碼漢字的具體字形,但是需要相關(guān)字體支持。

簡(jiǎn)繁問(wèn)題是如何處理的?漢字大致可以分為三組:傳承字,或稱(chēng)繁體字;簡(jiǎn)化字,即《通用規(guī)范漢字表》里的漢字;日本新字體,即日本通行的字體,多有略字。漢字等同主要是在傳承字內(nèi)部,如大陸傳承字(繁體和部分簡(jiǎn)體),香港繁體,臺(tái)灣正體,韓國(guó)漢字,日本傳承字(舊字形和部分新字形)等。簡(jiǎn)化字一般單獨(dú)編碼,日本新字體有些與簡(jiǎn)化字共同編碼(其中特別的例子是,新字體里由藝簡(jiǎn)化來(lái)的蕓和簡(jiǎn)化字里由蕓簡(jiǎn)化來(lái)的蕓被等同了),有些與傳承字共同編碼,有些單獨(dú)編碼。

簡(jiǎn)體字和繁體字之間是如何轉(zhuǎn)換的?以簡(jiǎn)轉(zhuǎn)繁為例,分為兩種方式:一種是依靠字體來(lái)轉(zhuǎn)換,優(yōu)點(diǎn)是能很好地對(duì)應(yīng)原有簡(jiǎn)體字的編碼,缺點(diǎn)是容易造成轉(zhuǎn)換錯(cuò)誤(如皇后變成了皇後);另一種則是把簡(jiǎn)體字直接替換成繁體字,但容易產(chǎn)生兼容問(wèn)題。

?

人犯的錯(cuò)誤機(jī)器也會(huì)犯


有關(guān)表意文字

首先,漢字不是表意文字(Ideogram)。如今表意文字的定義是指具有意義的圖形符號(hào),例如道路交通標(biāo)志,也可改稱(chēng)形意符號(hào)。

事實(shí)上,漢字其實(shí)是語(yǔ)素文字(Logogram)。語(yǔ)素文字是指字位(Grapheme,差不多等于前文所提的字符Character)能代表一個(gè)詞或語(yǔ)素,反例如拉丁文字的字位即字母,字母是表音而不表意的。由于目前所有已知的語(yǔ)素文字都有表音成分,因此也叫意音文字。

在英語(yǔ)里,漢字被稱(chēng)為Chinese character,或者Ideograph及Pictogram,但都不夠精確。拉丁語(yǔ)的Sinogram也許比較精確,但它太少使用。Unicode最初采用了Ideograph(表意文字)作為術(shù)語(yǔ),已經(jīng)在標(biāo)準(zhǔn)中普遍使用,因此無(wú)法放棄或取代。

一些問(wèn)題:

IdeogramIdeograph有什么區(qū)別?這兩個(gè)詞在概念上沒(méi)有區(qū)別。本文在談?wù)撐淖诸?lèi)型時(shí)采用-gram,而在Unicode的語(yǔ)境里采用-graph。本文建議在Unicode的語(yǔ)境里僅采用-graph。另外的,Ideograph的形容詞形式是Ideographic。

可以用表意文字Ideograph指代漢字嗎?除了漢字使用的字符(Characters of the Han script),表意文字Ideograph也包括契丹小字,女書(shū)和西夏文。

?

Q&A

所有漢字都在CJK里嗎?對(duì)于常用漢字而言,除了〇之外,基本在第一次都納入了CJK里。〇被認(rèn)定為數(shù)字符號(hào)。Biangbiang面的biang在擴(kuò)展區(qū)G里。

為什么不以組合形式顯示漢字(動(dòng)態(tài)組字)?例如用打字機(jī)輸出的諺文就是組合顯示的,在早期的計(jì)算機(jī)系統(tǒng),以及古諺文的顯示方法也是如此。它最大的問(wèn)題是,不好看。下圖上半部分就是組合形式顯示的諺文。

女口? ?止匕? ?酉鬼? ?言青? ?扌巨?? 糸色

對(duì)于漢字來(lái)說(shuō)還不僅僅是好不好看的問(wèn)題。諺文僅需要簡(jiǎn)簡(jiǎn)單單上下左右組合,而漢字有各種包圍和重疊結(jié)構(gòu)。例如,“巫”字計(jì)算機(jī)就很難組合。

Unicode使用了表意文字描述序列(Ideographic Description Sequence,IDS)來(lái)作為漢字結(jié)構(gòu)描述語(yǔ)法。例如“相”字就可以描述為?木目?!拔住眲t是“?工從”或“?工?人人”。但其用于描述一個(gè)漢字的結(jié)構(gòu)尚可,用來(lái)組字實(shí)在不行。

此外,Unicode發(fā)現(xiàn),漢字遠(yuǎn)遠(yuǎn)用不完所有的代碼點(diǎn)(code point),不如干脆直接編碼。

知道一個(gè)字符的Unicode編碼如何輸入它?如果你使用的是微軟拼音的話,在中文模式下先輸入VUC(v是進(jìn)入特殊模式,uc是Unicode縮寫(xiě)),然后在主鍵盤(pán)上直接輸入該字符的Unicode編碼(大小寫(xiě)不敏感)?;蛘咧苯釉谒阉饕嫔陷斎搿皍+編碼”,或許更快一點(diǎn)。


淺談中日韓統(tǒng)一表意文字(CJK Unified Ideographs)——一些概念介紹的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
阜阳市| 平阴县| 石楼县| 双鸭山市| 于田县| 湖南省| 固始县| 澜沧| 绍兴县| 丰原市| 乌兰浩特市| 永福县| 榆社县| 雷波县| 青州市| 德惠市| 咸阳市| 黄大仙区| 乌兰察布市| 屯留县| 衡东县| 揭阳市| 普陀区| 嘉祥县| 富锦市| 遵化市| 怀安县| 枣阳市| 玛多县| 桑日县| 抚远县| 通渭县| 宾川县| 平谷区| 临西县| 尼勒克县| 孟村| 平远县| 乌鲁木齐市| 紫金县| 太康县|