中文平臺的AI學(xué)什么

國內(nèi)發(fā)展ChatGPT這樣的AI一大障礙是,沒有優(yōu)質(zhì)的、系統(tǒng)化的、成體系的中文內(nèi)容,從百科、新聞到推文,網(wǎng)絡(luò)發(fā)展這么多年所積累的內(nèi)容都不夠?qū)I(yè)化精細(xì)化,優(yōu)質(zhì)內(nèi)容集中在少數(shù)幾個平臺,更多的是Ctrl C&V和廣告。
而有段時間還有平臺圈籬笆的傾向,不讓百度這種搜索引擎或者爬蟲抓取內(nèi)容,例如微信公眾號的內(nèi)容只能用搜搜,平臺各自為營。信息質(zhì)量不高能用的又少,這樣的對話結(jié)果是基于關(guān)鍵詞百科的走江湖、客套話。如果各個平臺不開放,可能出現(xiàn)的局面仍是拼各個平臺內(nèi)容的質(zhì)量,獲得的回答未必能全面。
就這點上很好奇中文Chat GPT是怎么做到如此廣普的,或許正如谷歌好用一樣,只要內(nèi)容足夠開放且優(yōu)質(zhì),就能通過訪問量獲得更好的關(guān)聯(lián)腦圖,回答的內(nèi)容自然能更讓人覺得靠譜。
這樣一個模型,要去學(xué)習(xí)什么來產(chǎn)出?
學(xué)習(xí)內(nèi)容來源:
其一,可以直接搬運、翻譯海外內(nèi)容,包括且不限于繁體中文及非漢語圈的內(nèi)容。非漢語圈如英文內(nèi)容自不用說,那里是從0到1,0的源頭,優(yōu)質(zhì)內(nèi)容自不用說,但有可能會出現(xiàn)提供方案會”水土不服“缺乏一些必要的背景材料作為支撐。這時就需要從港澳臺等這些繁體圈中提供風(fēng)水讓AIGC更接地氣。
其二是可從書籍及論文,這些人類的知識結(jié)精中獲取,如果能獲得廣泛的版權(quán)的著作權(quán),AI的學(xué)習(xí)和輸出能力會有質(zhì)的提升,它將變得更為博物且有教無類。
其三是平臺內(nèi)比較優(yōu)質(zhì)的內(nèi)容。這種路徑,可能有兩種路線,A路線,各家平臺拆掉自己的籬笆互相提供內(nèi)容來訓(xùn)練AI,讓AI能力變得更均衡。B路線,大家繼續(xù)扎起籬笆或者建立學(xué)習(xí)小組找些合作伙伴,保護自己的平臺資源,發(fā)展自己的有平臺屬性的AI專才。
相信經(jīng)由這三種學(xué)習(xí)內(nèi)容的投喂,中文圈AIGC的理解和輸出能力更會說中國話,也能讓平臺內(nèi)容從CV魔咒中解脫出來,用AICG教科書式的回答給各家平臺一次洗禮,提供更多題文相符、答對所問的內(nèi)容。
當(dāng)然,從某種程度上說,AIGC也是一種隨機的CV魔法,在它出現(xiàn)前,有太多的人因為懶得說話而不會好好說話,在這位太會說的機器人出現(xiàn)后,又會有不少人因為沒必要說話了而變得不會說了,也就是意味著,一些平臺是會消失,還是能不被AI機器人踩著,繼續(xù)存在下去呢?