前兩個(gè)月國產(chǎn)類ChatGPT大模型如雨后春筍,為何最近都沒聲音了?
政策原因。新修訂的《網(wǎng)絡(luò)安全法》把違規(guī)內(nèi)容的處罰標(biāo)準(zhǔn)從50萬提升至5000萬,簡單地說如果發(fā)布一條“違法”信息,處罰5000萬也合情合理。
這個(gè)東西國內(nèi)做出來,放到國外跟chatgpt比沒有競爭力。如果放國內(nèi),除了百度360訊飛這幾家,其它公司基于監(jiān)管原因又無法運(yùn)營。
gpt本質(zhì)是一個(gè)搜索引擎,結(jié)果出來的比搜索引擎還完善,如百度、好搜、搜狗搜索引擎平時(shí)都屏蔽了海量內(nèi)容,如果出個(gè)類似GPT的必然也要屏蔽內(nèi)容,可以說屏蔽內(nèi)容比研發(fā)重要得多,想上線必須做到讓監(jiān)管單位確認(rèn)確實(shí)不會(huì)有非法內(nèi)容、以及真的屏蔽到位,但這是不可能完成的任務(wù)。
除非每條內(nèi)容都人工審核,先問問題》人工審核》顯示出來,沒有容錯(cuò)率,萬一有個(gè)人問個(gè)問題截圖發(fā)到別的地方,出現(xiàn)一條罰5000萬誰受得了。
中文語料缺失嚴(yán)重,幾年前網(wǎng)絡(luò)清查以及嚴(yán)格監(jiān)管,大量網(wǎng)頁被刪除、大量網(wǎng)站關(guān)閉,里面有很多有價(jià)值的資料隨之消失。用殘存的數(shù)據(jù)來訓(xùn)練前需要再過濾一遍,錄入后還要審核,出來的質(zhì)量可想而知。
百度的文心一言目前屬于基本沒法用狀態(tài),只能問一些很無聊的問題,如“樹上騎個(gè)猴,地上7個(gè)猴,一共有幾只猴”,真的稍微發(fā)問,很多詞一問就不顯示,就這東西就沒競爭力了。
補(bǔ)充一個(gè)圖片類AI,目前國內(nèi)的公司,圖片AI不敢直接生成,先預(yù)生成幾十萬圖片和標(biāo)簽后審核,用戶要什么就直接調(diào)用審核過得,防止出現(xiàn)不可控的局面,如果用戶輸入一個(gè)新的詞,圖片要先審核后顯示,相當(dāng)于偽圖片AI。只能這樣啦,監(jiān)管原因。
