后續(xù):有關(guān)中文是最有效率的語言嗎?
不久前,我發(fā)布了一期名為“中文是最有效率的語言嗎--信息熵淺談”的文章,引起了熱烈反響。這篇文章在知乎上目前得到了3千多個(gè)贊,200多條評論,我很開心。也看到一些評論中提到了一些質(zhì)疑和疑問,我覺得有必要做一期后續(xù)。
第一條,我要澄清,我發(fā)那篇文章的目的不在于比較各種語言的優(yōu)劣,其實(shí)我也沒說中文比其他語言優(yōu)越或者更差。每種語言都有其優(yōu)點(diǎn)和缺點(diǎn),就我看來,漢字在書寫上很優(yōu)美又有效率。但是中文在發(fā)音上有劣勢,沒法講的快,這一點(diǎn)后面還有佐證。
第二,漢字目前作為僅有的表意文字,當(dāng)然有其意義,我是絕對反對把漢字拉丁字母化的。但是,表音表意文字這個(gè)概念也是相對的。一篇古文,你也許可以完全念出來,但你可能完全不知道這文章是啥意思。
而英語就更有意思了,大老李發(fā)現(xiàn)很多英文單詞,我是知道意思的,但是我是不知道正確發(fā)音。直到我第一次聽別人說,我才知道:啊,原來這個(gè)詞是這樣讀的。比如拿鐵咖啡這個(gè)詞:latte,我曾經(jīng)一直以為讀[leit],直到聽別人說了,我才知道原來讀[?lɑ?te?]',它是意大利語里“牛奶”的意思。那你說'latte'對我是表意還是表音?

(拿鐵咖啡的英語:“Latte”的正確發(fā)音,你知道嗎?其實(shí)它源自意大利中的“牛奶”一詞)
其實(shí)很多古老的字母構(gòu)成的文字我們都只知道意思,而不知道確切發(fā)音了。所以,“表音表意”文字,只是個(gè)相對程度的概念,而不是絕對互斥的。執(zhí)意追究表音表意文字孰優(yōu)孰劣不是很有意義的問題,兩者沒有明確界限。

(古埃及的象形文字,雖然我們已經(jīng)破解其意思,但是有誰敢說知道它們的正確發(fā)音呢?)
第三,我在喜馬拉雅收到這樣一條留言:
講得非常好! 我作為一個(gè)學(xué)過中文又從事計(jì)算機(jī)工作的美國老外來想這個(gè)問題實(shí)在覺得太有意思。我有幾個(gè)想法。 第一漢字的復(fù)雜程度以及每一個(gè)字的筆畫和空間分布包含的信息肯定遠(yuǎn)遠(yuǎn)超過一般的英文單詞。如果我們分析一下兩種文字中的每一個(gè)詞或字的復(fù)雜程度,譬如說用筆畫的數(shù)量來做比較,不知道會(huì)得到什么結(jié)論? 第二,就文字編碼的問題,我認(rèn)為我們?nèi)祟惡涂萍碱I(lǐng)域的工作者沒有必要把編碼的問題和壓縮的問題混在一起。這根本是兩個(gè)問題。我們?nèi)绻媚骋环N文字的頻率來達(dá)到文檔壓縮的目的,然后再把這個(gè)設(shè)計(jì)近文字符號(hào)的編碼中,這種眼光顯然太短。誰能保障之前做的壓縮方法或依靠的頻率數(shù)據(jù)永遠(yuǎn)最正確?把壓縮問題和編碼問題分開來對待的好處很多!
首先,感謝這位老外朋友對我的文章的贊同,說明大老李對不同語言的思考不是胡來。關(guān)于第二個(gè)問題,我完全贊同。在一般文字編碼時(shí),沒必要以最短編碼為目標(biāo),因?yàn)樵~頻在不同類型的文章里就很不一樣,而不等長編碼又會(huì)使解碼處理十分復(fù)雜,所以平時(shí)這樣用是得不償失的。
對第一個(gè)問題,其實(shí)很多人也問了,就是能否用筆畫來比較?
這里我要說“可比性”很重要。兩個(gè)東西要比較。比如把漢字簡單拆成筆畫進(jìn)行不同筆畫的頻率分析是不可取的。因?yàn)榘褲h字拆成筆畫序列后,你無法還原出原來漢字。比如“土地”的“土”和“士兵”的“士”。這兩個(gè)字筆畫都一樣,但卻是不一樣的字。
你把它們都拆成“橫豎橫”,就丟失信息了。所以,進(jìn)行筆劃比較是不可取的。除非我們能對不同筆劃在不同位置的情況一一分析,保證不丟失信息,那么才有可比性。但這樣看上去非常困難。
第四,有人說我有關(guān)中文在語音上會(huì)丟失信息量的說法,是主觀臆斷,牽強(qiáng)附會(huì)。其實(shí)我自己發(fā)現(xiàn)我還有些事實(shí)論據(jù)。大老李已在國外生活了一段時(shí)間,剛來時(shí),發(fā)現(xiàn)這里的電視機(jī)有個(gè)讓我略感驚奇的功能,就是“自動(dòng)字幕”。打開這個(gè)功能后,不管你原來的電視節(jié)目是否有字幕,電視機(jī)都能根據(jù)音頻信號(hào),自動(dòng)加入字幕,而且效果出奇的好,我感覺這電視機(jī)的英語聽力比我好多了。當(dāng)然,電視機(jī)其實(shí)并不是根據(jù)聲音信號(hào)轉(zhuǎn)文字的,而是根據(jù)數(shù)字信號(hào)轉(zhuǎn)文字的。
(老外的電視機(jī)有個(gè)功能叫“自動(dòng)字幕”,打開后,屏幕上自動(dòng)出字幕。當(dāng)然,不管什么語言,它都會(huì)按“英語”去“理解”)
而能上youtube的聽眾也發(fā)現(xiàn),youtube上的英語視頻有個(gè)功能就是“自動(dòng)字幕”,而這個(gè)功能對中文視頻至今沒有開通。大老李也試過一些將中文語音轉(zhuǎn)文字的軟件,但不管是谷歌的,還是科大訊飛的,效果都很不理想。其實(shí)想想就知道這很難。比如“我是大老李”,這句語音,所有識(shí)別軟件都會(huì)識(shí)別成“我是大腦里”,因?yàn)閷浖碚f,“大老李”三個(gè)字不是一個(gè)詞,它只能去找發(fā)音最接近的三個(gè)字去匹配。
之前大老李用科大訊飛的“聽見”服務(wù),對“尋找數(shù)字中的寶石-梅森素?cái)?shù)”音頻的文字轉(zhuǎn)寫部分結(jié)果,其實(shí)結(jié)果應(yīng)該說已經(jīng)很不錯(cuò)了,但還不到實(shí)用的程度:
大家好,這里是大腦里聊數(shù)學(xué)。 今天跟準(zhǔn)備跟大家聊一個(gè)有關(guān)素?cái)?shù)的話題。 我知道素素是一個(gè)非常吸引人,但又是非常大的一個(gè)話題。 我看這個(gè)話題等于是給自己挖了個(gè)坑, 但是我自己又非常想講這個(gè)話題, 因?yàn)樵谖铱磥頂?shù)是數(shù)學(xué)當(dāng)中 最基本的一個(gè)東西,也是 全宇宙當(dāng)中可能是最基礎(chǔ)的一個(gè)存在。我曾經(jīng)設(shè)想,如果有一天有外星人到地球來與地球人對話的話, 怎么跟外星人對話?如果是我的話,我就會(huì)拿一堆石子, 然后擺成兩個(gè)一堆三個(gè)一堆, 然后是五個(gè)一堆七個(gè)億噸,11個(gè)億噸...
以上這種情況就是中文在語音上丟失信息量的極好佐證。我也很希望將來能發(fā)展出非常實(shí)用的中文語音轉(zhuǎn)文字的軟件,我就方便多了。
第五,文中我提到了有人猜想,不同語言在輸出效率上是接近的,也就是單位時(shí)間內(nèi),你能說出的信息量是接近的。關(guān)于這一點(diǎn)我后來查了些資料,還真有人驗(yàn)證的這一點(diǎn)。就在2019年10月,有幾位研究者發(fā)布了一篇論文,標(biāo)題是:不同的語言,相近的編碼效率:比較人類交流中的信息率(Different languages, similar encoding efficiency: Comparable information rates across the human communicative niche)。
https://advances.sciencemag.org/content/5/9/eaaw2594

( 不同語言信息密度和音節(jié)速率的關(guān)系,橫軸是信息密度,縱軸是音節(jié)速率??梢钥吹?,信息密度大的語言,迎接速率就低)
其基本內(nèi)容是比較許多種語言中有關(guān)信息密度,音節(jié)速率和信息率之間的關(guān)系?!靶畔⒚芏取鳖愃莆艺f的信息熵,單位是單個(gè)音節(jié)中的信息量。因?yàn)橐粋€(gè)漢字基本是一個(gè)音節(jié),所以,用漢字拆成音節(jié)來分析還是合理的。而英語拆成字母就不太合理,而應(yīng)該拆成單詞,然后再在總的信息熵里除以英語平均每個(gè)單詞的音節(jié)數(shù),就能得到這里所說的信息密度。
音節(jié)速率就是語速,單位是每秒你能說出的音節(jié)數(shù)。信息率就是單位時(shí)間里你能說出的信息量,等于信息密度乘以音節(jié)速率。
而研究結(jié)果表明,信息密度高的語言,音節(jié)速率就低。比如說日語,日語我們感覺比較啰嗦,音節(jié)很多,但是日語語速很快,單位時(shí)間內(nèi)你可以說很多音節(jié),接近每秒8個(gè)音節(jié)。中文信息密度大,但是語速不能快,平均每秒6個(gè)音節(jié)左右。其實(shí)中文的音調(diào)是十分限制語速的一個(gè)東西。所以最終,各種語言的綜合信息率是相近的。有興趣的聽眾可以自己查閱那篇文章。
最后,我看到有人說:信息熵是外國人發(fā)明的東西,怎么可以用來研究中文?我想說,這種態(tài)度很不可取,我也很遺憾為什么都是外國人來研究中文的?你覺得信息熵對中文不適用,那請你找出對中文適用的衡量標(biāo)準(zhǔn)?總之,吐糟成本很低,但是沒有任何意義,不如做一點(diǎn)有意義的研究。
好了,下期再見!