華為諾亞方舟實驗室首席科學家劉群教授談ChatGPT技術(shù)
當業(yè)界幾乎把所有的目光都聚焦到ChatGPT上,原本有些克制的科技大廠突然有了緊迫感,紛紛在類ChatGPT產(chǎn)品中證明自己的實力。一時間,數(shù)百億、千億乃至萬億級參數(shù)規(guī)模的人工智能大模型(下面簡稱“大模型”)相繼涌現(xiàn),這場ChatGPT引發(fā)的全球大模型競賽趨于白熱化。
“有大模型的企業(yè)能做ChatGPT,沒有的則是在蹭熱點。”對于互聯(lián)網(wǎng)公司蜂擁扎堆做ChatGPT,阿里達摩院M6大模型前帶頭人楊紅霞言辭犀利地說。在她看來,只有參數(shù)規(guī)模100億以上的大模型才有實力提供高質(zhì)量的對答。
百度、阿里已有比肩ChatGPT的大模型
大模型的核心特征是模型參數(shù)多、訓練數(shù)據(jù)量大。有研究估測,訓練1750億參數(shù)語言大模型GPT-3,需要上萬個CPU/GPU24小時不間斷地輸入數(shù)據(jù)。其能耗相當于開車往返于地球和月球,一次運算就要花費450萬美元。高昂的研發(fā)成本意味著,主流的大模型只能由大型科技公司或少數(shù)研究機構(gòu)掌握。
據(jù)了解,ChatGPT是基于8000億個單詞的語料庫,包含了1750億個參數(shù)。前者是ChatGPT的訓練數(shù)據(jù),后者是它從這些訓練數(shù)據(jù)中所學習、沉淀下來的內(nèi)容。這種海量參數(shù)規(guī)模讓ChatGPT能夠捕獲更復雜的語言模式和關系,從而提高復雜自然語言處理任務的準確性。
從參數(shù)規(guī)模來看,國內(nèi)已經(jīng)誕生了能夠比肩ChatGPT參數(shù)量的大模型。百度既有20多萬企業(yè)用戶的飛槳平臺,也有2600億參數(shù)量的文心大模型;阿里巴巴有“通義”大模型,多模態(tài)大模型M6的參數(shù)規(guī)模已經(jīng)突破10萬億,規(guī)模遠超谷歌、微軟,成為全球最大的AI預訓練模型。OpenAI前政策主管JackClark公開點評阿里巴巴:“這個模型的規(guī)模和設計都非常驚人,是眾多中國AI研究組織逐漸發(fā)展壯大的一種表現(xiàn)?!?/p>
當參數(shù)規(guī)模迅速攀升至幾百億、千億時,大模型的訓練方式也出現(xiàn)了分野。有業(yè)內(nèi)專家認為,參數(shù)數(shù)量并不代表模型結(jié)果,更為關鍵的是訓練方式。在華為諾亞方舟實驗室語音語義首席科學家劉群看來,雖然我們訓練了幾千億或者幾萬億的數(shù)據(jù),但訓練的充分程度仍遠遠不夠。
來源:劉群教授
若需獲取本篇完整版資源,請關注公眾號《俠說》
號外:太俠新項目AIGC智能創(chuàng)作助手上線,可搜索小程序“AI方案鴨”體驗,新用戶贈送20次和5次AI繪畫。
報告內(nèi)容節(jié)選如下:
資料下載方式:公眾號《俠說》,www.guotaixia.com