文心一言滿月,7道月度模擬題測試,你打幾分?
自3月16日百度發(fā)布文心一言以來,已經(jīng)經(jīng)過一個月的內(nèi)測和用戶反饋,相對比一個月前,百度文心一言進(jìn)度有多少呢?接下來小寶用7道“模擬題”測試一下(左邊是一個月前的對話,右邊是當(dāng)前的對話):
第一道題:
第二道題:
第三道題:
第四道題:
第五道題:
第六道題:
第七道題:
百度的文心一言和其他的語言大模型相比,進(jìn)步不算太大。然而,這也引起了一個新的問題:文心一言和其他語言大模型在訓(xùn)練時如何糾正錯誤,以及它們的進(jìn)步速度如何?
大模型修正方法是在訓(xùn)練時加入一些事實(shí)常識,就像百度會把它的知識圖譜加進(jìn)去。但是這種方法解決不了時效性問題,因?yàn)橛?xùn)練需要很長時間,訓(xùn)練完后儲備的知識就固定了。
公開資料顯示,文心一言采用了Prompt(提示)、RLHF(從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí))以及SFT(模型微調(diào))作為底層技術(shù)。此外,文心一言還采用了知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)技術(shù)。
百度的李彥宏在文心一言發(fā)布會上介紹稱,文心一言基于萬億級網(wǎng)頁數(shù)據(jù)、百億級的語音日均調(diào)用數(shù)據(jù)、5500億事實(shí)的知識圖譜等訓(xùn)練數(shù)據(jù),以及數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù),能夠獨(dú)一無二地處理中文語言。
他還表示,"文心一言將建立起真實(shí)用戶反饋、開發(fā)者調(diào)用和模型迭代之間的飛輪,效果會迅速提升,給你‘士別三日,當(dāng)刮目相看’的驚喜。"
總的來說,文心一言的進(jìn)步不是很大,但是它所采用的技術(shù)和訓(xùn)練數(shù)據(jù)是獨(dú)一無二的,讓它能夠更好地處理中文語言。未來,文心一言有望通過真實(shí)用戶反饋、開發(fā)者調(diào)用和模型迭代的飛輪,不斷提高自己的表現(xiàn),給用戶帶來更好的體驗(yàn)。
經(jīng)過以上測試對比,你給文心一言打幾分?