最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)學(xué)能力超ChatGPT,70B開源大模型火了:用AI微調(diào)AI,微軟全華班出品

2023-08-14 15:38 作者:GPT2049  | 我要投稿


AI生成的指令微調(diào)羊駝大模型,數(shù)學(xué)能力超ChatGPT——

微軟最新開源大模型WizardMath來(lái)了。

如下圖所示,經(jīng)過GSM8k數(shù)據(jù)集測(cè)試,WizardMath數(shù)學(xué)能力直接擊敗了ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型——

并且是在參數(shù)只有700億,遠(yuǎn)不及后三者的情況之下。

HuggingFace已上線3個(gè)在線可玩版本(分別為7B、13B和70B參數(shù)),各種數(shù)學(xué)題可以直接丟進(jìn)去試一試。

比如解決下面這道四次多項(xiàng)式方程:

或者是一道簡(jiǎn)單的微積分:

亦或者是稍微修改過的拉格朗日方程推導(dǎo):

它都全部正確(過程也不需要等太久)。

有網(wǎng)友向作者表示:

效果真的很驚人,感謝你們對(duì)開源LLM的貢獻(xiàn)。

目前,相關(guān)代碼、復(fù)現(xiàn)方式以及論文也都開源或上線,GitHub短短幾天已攬獲4.8k標(biāo)星。

那么,WizardMath究竟是如何做到的?

用AI生成的指令增強(qiáng)大模型能力

OpenAI的大模型(InstructGPT、GPT-4等)能夠取得巨大成功、去執(zhí)行各種復(fù)雜和多樣化的任務(wù),一部分原因是使用了真實(shí)人類用戶生成的開放域指令數(shù)據(jù)進(jìn)行了微調(diào)。

然而,不是誰(shuí)都能像這家公司一樣獲得這樣的指令數(shù)據(jù)集。

一是因?yàn)檎麄€(gè)注釋過程極其昂貴且耗時(shí),二是人工難以創(chuàng)建出足夠比例的高難度指令。

因此,開發(fā)出一種成本相對(duì)較低的、大規(guī)模開放域指令自動(dòng)生產(chǎn)方法,成為當(dāng)下指令調(diào)優(yōu)語(yǔ)言模型的關(guān)鍵。

在此,作者將他們的方法命名為Evol Instruction。

它是一種利用AI來(lái)代替人類自動(dòng)生成涵蓋各種難度級(jí)別開放域指令的新方法。

具體而言,Evol Instruction分為指令進(jìn)化器和指令消除器。

其中指令進(jìn)化器可通過深度進(jìn)化(藍(lán)線)或廣度進(jìn)化(紅線)兩種路徑,將簡(jiǎn)單指令升級(jí)為更復(fù)雜的指令或創(chuàng)建一條全新指令。

具體執(zhí)行哪一條?隨機(jī)選擇就好。

其中,深度進(jìn)化的具體“進(jìn)化法”,則是通過五種類型的操作來(lái)完成,包括:

添加約束(add constraints)、深化(deepening)、具體化(concretizing)、增加推理步驟(increase reasoning steps)和使輸入復(fù)雜化(complicate input)。

由于所有指令均由AI完成,有時(shí)難免會(huì)出現(xiàn)錯(cuò)誤。因此,指令消除器就是用于過濾失敗指令的。

以下是一個(gè)具體示例,該方法從“1+1=?”開始,最終通過以上步驟自動(dòng)生成了相當(dāng)多的新指令。

通過重復(fù)這一生成過程,最終我們就能得到足夠多的指令,然后將它們合并并隨機(jī)打亂,組成一個(gè)難度級(jí)別均勻分布的指令集,就可以對(duì)基礎(chǔ)大模型進(jìn)行微調(diào)了。

在此,作者選擇Alpaca的訓(xùn)練數(shù)據(jù)(僅由175條人工創(chuàng)建的種子指令生成)作為初始數(shù)據(jù)集,然后使用ChatGPT的API執(zhí)行了四個(gè)進(jìn)化周期,最終獲得25萬(wàn)條指令。

為了與Vicuna的70k真實(shí)用戶數(shù)據(jù)(ShareGPT)進(jìn)行公平比較,作者從這25萬(wàn)條數(shù)據(jù)中抽取了等量的樣本,訓(xùn)練LLaMA 7B模型,最終得到WizardLM,結(jié)果WizardLM的性能明顯優(yōu)于Vicuna。

(Alpaca:斯坦福在LLaMa-7B基礎(chǔ)上微調(diào)出來(lái)的模型;Vicuna,UC伯克利在LLaMa-13B的基礎(chǔ)上微調(diào)得來(lái))

此外,在更為復(fù)雜的測(cè)試指令下,人類更喜歡WizardLM的輸出,而非ChatGPT,這表明該方法可以顯著提高LLM處理復(fù)雜指令的能力。

基于此,作者又利用Evol Instruction生成了很多數(shù)學(xué)領(lǐng)域相關(guān)的指令,然后微調(diào)羊駝大模型,得到了WizardMath。

其效果如開頭所示,在GSM8k數(shù)據(jù)集上測(cè)得其數(shù)學(xué)能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型,位列第5名,僅次于GPT-4、Claud1.3和2.0,以及5400億參數(shù)的Flan-PaLM 2之后。

以此類推,作者還在羊駝之上得到了專攻代碼能力的WizardCoder,效果超越Claude和Bard(詳情可戳文末地址)。

團(tuán)隊(duì)介紹

本文共9位作者,全華人。

一作有3位:

Can Xu,微軟亞洲互聯(lián)網(wǎng)工程院S+D NLP組高級(jí)應(yīng)用科學(xué)家,之前曾在微軟小冰研究組和微軟亞研院從事聊天機(jī)器人系統(tǒng)工作;

Qingfeng Sun, Microsoft Research科學(xué)家,研究方向?yàn)樽匀徽Z(yǔ)言處理和信息檢索,精通構(gòu)建高效搜索系統(tǒng),為Microsoft Bing和Office 365貢獻(xiàn)了核心深度模型;

Kai Zheng,Microsoft Research科學(xué)家,研究方向?yàn)樽匀徽Z(yǔ)言處理、搜索和推薦排名,同樣為Microsoft Bing和Office 365貢獻(xiàn)了核心深度模型。


通訊作者為姜大昕,微軟全球合伙人、副總裁、前微軟亞洲研究院首席科學(xué)家,在微軟工作16年有余、曾作為微軟必應(yīng)搜索引擎和Cortana智能助手自然語(yǔ)言理解負(fù)責(zé)人,日前已被曝離職投身大模型創(chuàng)業(yè)。

另還有一位作者Jiazhan Feng,是北大學(xué)生,這篇合著論文是TA在微軟實(shí)習(xí)時(shí)產(chǎn)出的。

項(xiàng)目主頁(yè):?https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

論文地址:
https://arxiv.org/abs/2304.12244(WizardLM)
https://arxiv.org/abs/2306.08568(WizardCoder)

—??—


數(shù)學(xué)能力超ChatGPT,70B開源大模型火了:用AI微調(diào)AI,微軟全華班出品的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
交城县| 岳西县| 黑水县| 无极县| 临城县| 陵川县| 霞浦县| 溧水县| 手游| 聂荣县| 惠州市| 公安县| 浦城县| 吕梁市| 黔南| 麻栗坡县| 阿荣旗| 潞西市| 蓬莱市| 隆尧县| 永城市| 临西县| 荥阳市| 辽阳县| 德令哈市| 长沙县| 巩义市| 天峨县| 化德县| 云和县| 平凉市| 余干县| 洛川县| 闸北区| 北海市| 左云县| 金乡县| 轮台县| 大丰市| 谷城县| 贵阳市|