阿里云通義千問(wèn)開源 70億參數(shù)模型上線魔搭社區(qū),免費(fèi)可商用
作者:范昕茹 來(lái)源:IT時(shí)報(bào)
8月3日,阿里云在其旗下AI模型社區(qū)魔搭ModelScope上架兩款開源模型Qwen-7B和Qwen-7B-Chat,免費(fèi)向魔搭注冊(cè)用戶開放。魔撘用戶不僅可以免費(fèi)使用兩款模型進(jìn)行測(cè)試訓(xùn)練,還能自行將訓(xùn)練后的模型商業(yè)化。這一做法,也讓阿里云成為國(guó)內(nèi)首個(gè)進(jìn)行大模型開源嘗試的大型科技企業(yè)。
隨著國(guó)內(nèi)大模型法律法規(guī)的相繼落地,大模型的商業(yè)化之路似乎已經(jīng)隱約可見(jiàn)。在這一節(jié)點(diǎn)選擇開放兩款7B模型,有望抹平模型使用門檻,讓海量中小企業(yè)和AI開發(fā)者更早、更快地用上通義千問(wèn)。對(duì)于一向注重生態(tài)建設(shè)的阿里云而言,既像是大模型正式商業(yè)化之前的一次探路,又是大模型商用正式落地前的一次生態(tài)建設(shè)實(shí)驗(yàn)。
如今,兩款模型既可以從魔搭社區(qū)直接下載,也可通過(guò)阿里云靈積平臺(tái)訪問(wèn)和調(diào)用。阿里云提供的開源代碼支持對(duì)Qwen-7B和Qwen-7B-Chat的量化,因而使用者可以在消費(fèi)級(jí)顯卡上部署和運(yùn)行模型。為了讓更多人使用兩款大模型,阿里云還為使用者提供包括模型訓(xùn)練、推理、部署、精調(diào)等在內(nèi)的服務(wù)。
Qwen-7B和Qwen-7B-Chat兩款模型實(shí)際為通義千問(wèn)70億參數(shù)通用模型和對(duì)話模型。據(jù)介紹,Qwen-7B為支持中、英等多種語(yǔ)言的基座模型,在超過(guò)2萬(wàn)億token數(shù)據(jù)集上訓(xùn)練完成,上下文窗口長(zhǎng)度達(dá)到8千。Qwen-7B-Chat則是基于基座模型的中英文對(duì)話模型,具備一定的人類認(rèn)知。
阿里云表示,在多個(gè)權(quán)威測(cè)評(píng)中,通義千問(wèn)7B模型皆取得了超過(guò)國(guó)內(nèi)外同等尺寸模型的效果,為當(dāng)下業(yè)界最強(qiáng)的中英文7B開源模型。在多個(gè)權(quán)威基準(zhǔn)測(cè)評(píng)中,通義千問(wèn)7B預(yù)訓(xùn)練模型都表現(xiàn)出色,中英文能力遠(yuǎn)超國(guó)內(nèi)外同等規(guī)模開源模型,部分能力甚至“躍級(jí)”趕超12B、13B尺寸開源模型。
例如,在包含57個(gè)學(xué)科英文題目的英文能力測(cè)評(píng)基準(zhǔn)MMLU上,通義千問(wèn)7B模型得分超過(guò)了7B、12B、13B主流開源模型,顯示出其在人文、社科、理工等領(lǐng)域理解綜合知識(shí)和解決問(wèn)題上的能力。
而在中文常識(shí)能力測(cè)評(píng)基準(zhǔn)C-Eval中,相比其他7B開源模型,通義千問(wèn)在驗(yàn)證集和測(cè)試集中都得到了最高分,展現(xiàn)了扎實(shí)的中文能力。在數(shù)學(xué)解題能力評(píng)測(cè)GSM8K、代碼能力評(píng)測(cè)HumanEval等基準(zhǔn)上,通義千問(wèn)7B模型也有不俗表現(xiàn),勝過(guò)其他同等尺寸開源模型和和部分大尺寸開源模型。
阿里云相關(guān)負(fù)責(zé)人表示,開源大模型可以幫助用戶簡(jiǎn)化模型訓(xùn)練和部署的過(guò)程,用戶不必從頭訓(xùn)練模型,只需下載預(yù)訓(xùn)練好的模型并進(jìn)行微調(diào),就可快速構(gòu)建高質(zhì)量的模型。相比英文世界的AI開源生態(tài),中文社區(qū)缺少優(yōu)秀的基座模型。通義千問(wèn)的加入有望為開源社區(qū)提供更多選擇,推動(dòng)中國(guó)AI開源生態(tài)建設(shè)。