關(guān)于中國是否能立刻造出匹敵openai的GPT產(chǎn)品,老生的一些新談
openai的gpt系列產(chǎn)品,有幾個很關(guān)鍵的不同,在于
1,他們?nèi)斯?yōu)化鑒定了文本和回答集合的質(zhì)量,低質(zhì)量的回復(fù),留言,討論是不進入他們的數(shù)據(jù)庫的。這就是為什么,有的國產(chǎn)號稱參數(shù)萬億,搜集了十倍于openai的數(shù)據(jù)集但是 沒有他們的效果,甚至無法回答有意義的內(nèi)容。
2,gpt不是百度百科類的集合,不是百科全書,名字解釋類的集合。
3,openai把人類已經(jīng)出版的文本,書籍,素材,代碼都輸入進了數(shù)據(jù)庫,素材庫。能否進行自然語言編程。這一點國內(nèi)根本做不到。
4,openai目前無法從一個人的語言特征里提取出模型,制造出數(shù)字人格。
? 只能模擬歷史上的著名人物,不能解析今天的普通人的思維。
但不代表他們以后做不到,或許已經(jīng)能模擬出數(shù)字性格,和數(shù)字情緒,并且可調(diào)整
比如 模擬一個歲月靜好的發(fā)言特征
5,openai強化了in context learning 和RLHF(人工強化學(xué)習(xí))通過人為的鑒定指導(dǎo)ai去學(xué)習(xí)
也即是說,一億用戶產(chǎn)生的新數(shù)據(jù)也被他們拿去優(yōu)化升級。這一點國產(chǎn)無法實現(xiàn)。
總之,指望國產(chǎn)gpt能很快誕生,達到國外產(chǎn)品的類似效果,至少要到下半年。人工清理數(shù)據(jù),人工鑒定文本質(zhì)量是個非常耗時間的事情。而且不能用文化層次低的民工,以前的數(shù)據(jù)標記用的都是最窮的底層人,現(xiàn)在行不通了。也就說要雇傭上萬大學(xué)生來做才行。
一個更好的GPT應(yīng)該是什么樣子?
1,實現(xiàn)自然語言編程
2,提供數(shù)學(xué)公式接口
3,模擬特定角色,比如數(shù)學(xué)家,物理學(xué)家,工程師
4,情緒可調(diào)整,隨機性增加,不能一直重復(fù)回答。有 涌現(xiàn) 特征。機器能夠產(chǎn)生類似臨機一動的效果。
5,提供外部數(shù)據(jù)輸入人口,一次記憶超過100k的文本
6,支持圖片,視頻,音頻輸入,支持圖片,音頻輸出,支持文本圖片合成,支持OCR