最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【論文閱讀】Self-Alignment with Instruction Backtranslation自對(duì)齊與指令反翻譯

2023-08-19 17:04 作者:我不是k_  | 我要投稿

Self-Alignment with Instruction Backtranslation自對(duì)齊與指令反翻譯

摘要:?在當(dāng)今的人工智能時(shí)代,語言模型的訓(xùn)練和優(yōu)化已成為研究的熱點(diǎn)。本文介紹了一種創(chuàng)新且可擴(kuò)展的方法,通過為人編寫的文本自動(dòng)標(biāo)注相應(yīng)的指令,構(gòu)建高質(zhì)量的指令跟隨語言模型。此研究的方法,被命名為“指令反翻譯”,其核心思想是利用現(xiàn)有的大量未標(biāo)記數(shù)據(jù),通過一系列精心設(shè)計(jì)的步驟,自動(dòng)生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種方法不僅降低了數(shù)據(jù)標(biāo)注的成本,還提高了模型的性能。

1. 引言

隨著大型語言模型(LLMs)的迅速發(fā)展,如何高效地訓(xùn)練和優(yōu)化這些模型已成為一項(xiàng)關(guān)鍵任務(wù)。傳統(tǒng)方法常依賴于昂貴的人工標(biāo)注數(shù)據(jù),其成本高昂且難以擴(kuò)展。為解決這一難題,此研究提出了一種新穎方法,旨在利用未標(biāo)記的網(wǎng)絡(luò)文本語料,自動(dòng)生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種方法的目標(biāo)是將網(wǎng)絡(luò)文本中的內(nèi)容與其潛在的指令相匹配,從而為模型提供更豐富的訓(xùn)練材料。

2. 方法

此研究的方法基于一個(gè)簡(jiǎn)單但強(qiáng)大的發(fā)現(xiàn):盡管網(wǎng)絡(luò)文本中沒有明確的指令標(biāo)簽,但其中許多內(nèi)容實(shí)際上可以被視為對(duì)某些指令的回答。因此,此研究的目標(biāo)是自動(dòng)生成這些指令,并將其與相應(yīng)的文本內(nèi)容配對(duì),形成新的訓(xùn)練數(shù)據(jù)。

  1. 自我提升:本階段的目標(biāo)在于為網(wǎng)絡(luò)文本中的每一段生成一個(gè)指令。為此,此研究首先使用少量種子數(shù)據(jù)微調(diào)基礎(chǔ)語言模型,然后利用微調(diào)后的模型為未標(biāo)記文本生成指令。這一過程確保了生成的指令與原始文本內(nèi)容緊密相關(guān)。

  2. 自我策劃:由于自我提升步驟可能會(huì)生成低質(zhì)量的指令,因此需要進(jìn)一步篩選這些數(shù)據(jù)。在此步驟中,此研究使用語言模型自身評(píng)估每個(gè)生成的指令的質(zhì)量,并僅保留高質(zhì)量數(shù)據(jù)。這一過程確保了訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和相關(guān)性。

實(shí)例說明

1. 初始情況

"Our self-training approach assumes access to a base language model, a small amount of seed data, and a collection of unlabelled examples, e.g. a web corpus. The unlabelled data is a large, diverse set of human-written documents which includes writing about all manner of topics humans are interested in – but crucially is not paired with instructions."?— [Pages: 2]

總結(jié):此研究的自我訓(xùn)練方法需要一個(gè)基礎(chǔ)語言模型、少量種子數(shù)據(jù)以及大量未標(biāo)記的文本。這些未標(biāo)記的文本是大規(guī)模、多樣化的人類撰寫文件,囊括了人類感興趣的各種主題,但重要的是,這些文本并沒有與指令進(jìn)行配對(duì)。

示例?此研究擁有一個(gè)基礎(chǔ)語言模型、一些種子數(shù)據(jù),例如:

  • 指令:“描述太陽的特點(diǎn)?!?/span>

  • 輸出:“太陽是一

顆龐大的恒星,由氫和氦構(gòu)成,它為地球提供光和熱。”

此外,此研究還有大量未標(biāo)記文本,如:“月球是地球唯一的天然衛(wèi)星,它沒有自己的大氣層。”

2. 自我提升

"Self-Augmentation (generating instructions): We finetune the base language model with (output, instruction) pairs {(yi , xi )} from the seed data to obtain a backward model Myx := p(x|y). For each unlabelled example yi , we run inference on the backward model to generate a candidate instruction x\u0302i from which we derive the candidate augmented paired data A := {(x\u0302i , yi )}."?— [Pages: 3]

總結(jié):通過使用種子數(shù)據(jù)微調(diào)基礎(chǔ)語言模型,此研究獲得了一個(gè)可為未標(biāo)記文本生成指令的反向模型。這一過程稱為自我提升。

示例?此研究通過使用種子數(shù)據(jù)微調(diào)模型,然后使用該模型為“月球是地球唯一的天然衛(wèi)星,它沒有自己的大氣層?!鄙芍噶?,可能獲得:“描述月球的特點(diǎn)”。

3. 自我策劃

"Self-Curation (selecting high-quality examples): We select high quality examples using the language model itself. We start with a seed instruction model M0 finetuned on (instruction, output) seed examples only. We then use M0 to score each augmented example {(x\u0302i , yi )} to derive a quality score ai . This is done using prompting, instructing the trained model to rate the quality of a candidate pair on a 5-point scale."?— [Pages: 3]

總結(jié):此研究使用語言模型本身來選擇高質(zhì)量的示例。此研究首先基于僅含有種子指令的數(shù)據(jù)對(duì)初始指令模型M0進(jìn)行微調(diào)。然后,此研究使用M0為每個(gè)增強(qiáng)樣例{(x\u0302i , yi )}評(píng)分,得到質(zhì)量分?jǐn)?shù)ai。這通過提示方式完成,即訓(xùn)練模型對(duì)候選對(duì)的質(zhì)量在5分制上進(jìn)行評(píng)估。

示例?此研究使用模型為“描述月球的特點(diǎn)”和“月球是地球唯一的天然衛(wèi)星,它沒有自己的大氣層。”這一對(duì)進(jìn)行評(píng)分。若得分為4.5(滿分5分),則認(rèn)定為高質(zhì)量數(shù)據(jù)對(duì)。

4. 結(jié)果

此部分基于自我提升和自我策劃步驟生成的新數(shù)據(jù),用于進(jìn)一步微調(diào)模型。原文實(shí)驗(yàn)部分詳細(xì)描述了該過程和結(jié)果,證明了此方法的有效性和優(yōu)越性。

示例?通過上述步驟,此研究獲得了兩個(gè)高品質(zhì)的指令-輸出對(duì):

  1. 指令:“描述太陽的特點(diǎn)?!?span id="s0sssss00s" class="md-softbreak" style="">?輸出:“太陽是一顆龐大的恒星,由氫和氦構(gòu)成,它為地球提供光和熱?!?/span>

  2. 指令:“描述月球的特點(diǎn)?!?span id="s0sssss00s" class="md-softbreak" style="">?輸出:“月球是地球唯一的天然衛(wèi)星,它沒有自己的大氣層?!?/span>

3. 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

"Our self-training approach assumes access to a base language model, a small amount of seed data, and a collection of unlabelled examples, e.g. a web corpus."?— [Pages: 2]

總結(jié):此研究的自我訓(xùn)練方法需要一個(gè)基礎(chǔ)語言模型、少量種子數(shù)據(jù)和大量未標(biāo)記的文本。此研究使用Open Assistant數(shù)據(jù)集作為種子數(shù)據(jù),以預(yù)訓(xùn)練的LLaMA模型為基礎(chǔ)模型。此外,此研究還使用Clueweb語料庫作為未標(biāo)記數(shù)據(jù)源,這是一個(gè)大規(guī)模的網(wǎng)絡(luò)文本集合,為此研究提供了豐富的數(shù)據(jù)資源。

3.2 Baselines

"Baselines. The main baselines we compare to are the following approaches:

  • text-davinci-003 [Ouyang et al., 2022]: an instruction following model based on GPT-3 finetuned with instruction data from human-written instructions, human-written outputs, model responses and human preferences using reinforcement learning (

RLHF).

  • LIMA [Zhou et al., 2023]: LLaMA models finetuned with 1000 manually selected instruction examples from a mixture of community question & answering (e.g. StackOverflow, WikiHow, etc.) and human expert-written instruction and responses.

  • Guanaco [Dettmers et al., 2023]: LLaMA models finetuned with 9000 examples from the OpenAssistant dataset."?— [Pages: 4,5]

總結(jié)

  • text-davinci-003:這是基于GPT-3的指令追隨模型,使用來自人類撰寫的指令、輸出、模型響應(yīng)和人類偏好的指令數(shù)據(jù)進(jìn)行微調(diào),采用強(qiáng)化學(xué)習(xí)(RLHF)。

  • LIMA:這是LLaMA模型,使用來自社區(qū)問答(如StackOverflow、WikiHow等)和人類專家撰寫的指令和響應(yīng)的1000個(gè)手動(dòng)選擇指令示例進(jìn)行微調(diào)。

  • Guanaco:這是LLaMA模型,使用OpenAssistant數(shù)據(jù)集的9000個(gè)示例進(jìn)行微調(diào)。

3.3 評(píng)估

"generation quality evaluation. We ran both automatic evaluation using AlpacaEval [Li et al., 2023], which computes the win rate against baseline models based on GPT-4 judgements, as well as human preference evaluation."?— [Pages: 5]

總結(jié):此研究采用了兩種評(píng)估方法:自動(dòng)評(píng)估,使用AlpacaEval工具,計(jì)算根據(jù)GPT-4判斷對(duì)Baselines模型的勝率;以及人類偏好評(píng)估,邀請(qǐng)真實(shí)用戶評(píng)估模型生成的答案質(zhì)量。這兩種評(píng)估方法確保了評(píng)估的全面性和準(zhǔn)確性。

3.4 種子和增強(qiáng)數(shù)據(jù)統(tǒng)計(jì)

"Data statistics. In Table 2 we provide the statistics of the seed data as well as various versions of the augmented data. We can see that augmented data tends to have longer output compared to the seed data, and self-curated higher quality training data (A4 and A5) has both shorter instructions and outputs among all augmented data, closer to the length of the original seed instruction data."?— [Pages: 5]

總結(jié):本部分列出了種子數(shù)據(jù)、自我提升數(shù)據(jù)和自我策劃數(shù)據(jù)的具體統(tǒng)計(jì)信息,如數(shù)據(jù)量、指令和輸出的平均長度等。從統(tǒng)計(jì)數(shù)據(jù)中可以看出,增強(qiáng)數(shù)據(jù)的輸出往往比種子數(shù)據(jù)長,而經(jīng)過自我策劃的高質(zhì)量訓(xùn)練數(shù)據(jù)(A4和A5)在所有增強(qiáng)數(shù)據(jù)中具有較短的指令和輸出,更接近原始種子指令數(shù)據(jù)的長度。

示例

  • 種子數(shù)據(jù):初始用于訓(xùn)練模型的數(shù)據(jù)。例如,此研究可能有一條指令:“描述太陽的特點(diǎn)”,以及相應(yīng)的輸出:“太陽是一顆龐大的恒星,由氫和氦構(gòu)成,它為地球提供光和熱?!?/span>

  • 自我提升數(shù)據(jù):通過自我提升步驟生成的新數(shù)據(jù)。例如,此研究可能為文本:“月球是地球唯一的天然衛(wèi)星,它沒有自己的大氣層?!鄙尚轮噶睿骸懊枋鲈虑虻奶攸c(diǎn)”。

  • A4和A5:通過自我策劃步驟篩選出的高品質(zhì)數(shù)據(jù),分別具有不同的質(zhì)量級(jí)別,其中A5質(zhì)量更高。

此外,原文還提供了表格(Table 2),列出了種子數(shù)據(jù)、自我提升數(shù)據(jù)和自我策劃數(shù)據(jù)的具體統(tǒng)計(jì)信息,如數(shù)據(jù)數(shù)量、指令和輸出的平均長度等。

4.未來方向

"Future work should scale this method further by considering larger unlabeled corpora, which our analysis suggests should yield further gains."

— [Pages: 13]

總結(jié):未來的研究應(yīng)該考慮使用更大規(guī)模的未標(biāo)記語料庫,進(jìn)一步擴(kuò)展和優(yōu)化這一方法。此研究的分析表明,這將帶來更大的收益。這意味著,隨著數(shù)據(jù)規(guī)模的增加,模型的性能可能會(huì)進(jìn)一步提高,為未來的語言模型研究提供了新的方向和機(jī)會(huì)。

總體而言,本文提出了一種新穎且有效的方法,用于生成高質(zhì)量的訓(xùn)練數(shù)據(jù),從而提升語言模型性能。此研究相信,這一方法為未來的語言模型訓(xùn)練提供了有價(jià)值的方向。


【論文閱讀】Self-Alignment with Instruction Backtranslation自對(duì)齊與指令反翻譯的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
页游| 韶山市| 洛隆县| 申扎县| 石阡县| 余姚市| 周至县| 明溪县| 扶风县| 秀山| 莱州市| 裕民县| 诸城市| 黔南| 灌南县| 龙门县| 荔波县| 绥德县| 钟山县| 镇安县| 呼伦贝尔市| 库伦旗| 海盐县| 黑河市| 通城县| 广昌县| 清徐县| 离岛区| 塘沽区| 汾阳市| 思南县| 景泰县| 石河子市| 宝兴县| 台前县| 大化| 衡阳县| 芒康县| 潼关县| 弥勒县| 金华市|