中文互聯(lián)網(wǎng)的凋零，正在殺死中國人工智能的未來【為什么我們搞不出ChatGPT】

2023-03-31 13:33 作者:機械天文 0人讀過 | 我要投稿

1、語言鴻溝

案例：以GPT-4為首的自回歸大模型

其語言性能在英文和中文上存在較大差異；

對于英文語境下的寫作、表達和理解普遍更好；

原因：OpenAI的訓練語料中90%都是英文語料，中文語料只占0.1%；

2、ChatGPT的不同語言表現(xiàn)

（1）羅曼語系（包括英文、法語、意大利語、西班牙語）表現(xiàn)最佳；

（2）漢藏語系（包括中文）和阿勒泰語系表現(xiàn)次之；

3、要做中文語言模型的根本原因

中、英文本身的差異，加上數(shù)據(jù)馬太效應，會使得彼此差距越來越大！

4、數(shù)據(jù)來源問題

（1）中文網(wǎng)站數(shù)量減少，優(yōu)質(zhì)內(nèi)容減少

從曾經(jīng)的1000萬，減少到了418萬；

四大簡體中文論壇只剩兩個；

垂直領域的高質(zhì)量平臺（例如，國學數(shù)典）也都消失了；

（2）很多現(xiàn)存平臺內(nèi)容質(zhì)量差，都是在為一點雞毛蒜皮的小事吵得不可開交

（3）水軍、自媒體、營銷號和飯圈太多

（4）數(shù)據(jù)孤島

互聯(lián)網(wǎng)行業(yè)競爭與壟斷，導致大量數(shù)據(jù)被封閉在各家的APP和平臺里；

5、建議

正視問題；

建設語言模型的基礎設施；

保留優(yōu)質(zhì)的中文數(shù)據(jù)，輸出優(yōu)質(zhì)知識；

明確反壟斷機制。

標簽：

中文互聯(lián)網(wǎng)的凋零，正在殺死中國人工智能的未來【為什么我們搞不出ChatGPT】的評論 (共條)