中文互聯(lián)網(wǎng)的凋零,正在殺死中國人工智能的未來【為什么我們搞不出ChatGPT】

1、語言鴻溝
案例:以GPT-4為首的自回歸大模型
其語言性能在英文和中文上存在較大差異;
對于英文語境下的寫作、表達和理解普遍更好;
原因:OpenAI的訓練語料中90%都是英文語料,中文語料只占0.1%;
2、ChatGPT的不同語言表現(xiàn)
(1)羅曼語系(包括英文、法語、意大利語、西班牙語)表現(xiàn)最佳;
(2)漢藏語系(包括中文)和阿勒泰語系表現(xiàn)次之;
3、要做中文語言模型的根本原因
中、英文本身的差異,加上數(shù)據(jù)馬太效應,會使得彼此差距越來越大!
4、數(shù)據(jù)來源問題
(1)中文網(wǎng)站數(shù)量減少,優(yōu)質(zhì)內(nèi)容減少
從曾經(jīng)的1000萬,減少到了418萬;
四大簡體中文論壇只剩兩個;
垂直領域的高質(zhì)量平臺(例如,國學數(shù)典)也都消失了;
(2)很多現(xiàn)存平臺內(nèi)容質(zhì)量差,都是在為一點雞毛蒜皮的小事吵得不可開交
(3)水軍、自媒體、營銷號和飯圈太多
(4)數(shù)據(jù)孤島
互聯(lián)網(wǎng)行業(yè)競爭與壟斷,導致大量數(shù)據(jù)被封閉在各家的APP和平臺里;
5、建議
正視問題;
建設語言模型的基礎設施;
保留優(yōu)質(zhì)的中文數(shù)據(jù),輸出優(yōu)質(zhì)知識;
明確反壟斷機制。
標簽: