最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

譯文:概覽AI大模型(LLM)的研究爆發(fā)

2023-07-15 19:07 作者:不青山  | 我要投稿

原文:Navigating the Large Language Model revolution with Paperspace - James Skelton。

在這篇文章中,我們嘗試通過解釋相關(guān)的關(guān)鍵術(shù)語和即將發(fā)布的模型,來概覽快速擴(kuò)展的大型語言模型(LLM)生態(tài)系統(tǒng)。

過去的幾個(gè)月見證了人們期待已久的AI研究大爆發(fā)。5年前出現(xiàn)的生成預(yù)訓(xùn)練變換器(GPT)模型的,可以說是鋪就了這條道路的第一塊石頭。從那里開始,人類語音生成的發(fā)展幾乎就只是時(shí)間問題。隨著OpenAI的ChatGPT和GPT4,以及在過去的半年里像Bard這樣的主要競(jìng)爭(zhēng)者和像LLaMa這樣的開源替代品進(jìn)入公共領(lǐng)域,現(xiàn)在比以往任何時(shí)候都更需要每個(gè)人熟悉這些令人印象深刻的新技術(shù)。

本文首先將從討論GPT架構(gòu)開始,并簡(jiǎn)潔地解釋為什么這種架構(gòu)已經(jīng)成為任何NLP/NLU任務(wù)的默認(rèn)架構(gòu)。接下來,我們將討論一些關(guān)于LLM的主要術(shù)語,如LoRA微調(diào)方法、人類反饋的強(qiáng)化學(xué)習(xí)(RHLF),以及用于更快、更低成本的微調(diào)的量化方法,如QLoRA。我們將簡(jiǎn)要概述在自己項(xiàng)目上使用表現(xiàn)最好的NLP模型來結(jié)束這一部分,包括Alpaca、LLaVa、MPT-7B和Guanaco。

GPT架構(gòu)

GPT模型是在2018年的《通過生成式預(yù)訓(xùn)練改進(jìn)語言理解》(Improving Language Understanding by Generative Pre-Training)中由Rashford等人首次介紹的一種LLM。這些來自O(shè)penAI的研究人員試圖創(chuàng)建一個(gè)模型,該模型接受自然語言提示作為輸入,結(jié)合對(duì)內(nèi)容的理解來預(yù)測(cè)出最佳可能的響應(yīng)。GPT模型實(shí)現(xiàn)這一點(diǎn)的方式不是一次生成整個(gè)文本序列,而是將每個(gè)稱為"token"的單詞作為生成下一個(gè)token的指導(dǎo)輸入。這允許以一個(gè)局部化的上下文生成一個(gè)文本句子,防止句子離其輸入過遠(yuǎn)。

此外,內(nèi)置在transformer中的自我注意機(jī)制使模型能夠在生成響應(yīng)時(shí)關(guān)注輸入序列的不同部分,因此它可以將部份注意力集中在預(yù)測(cè)最重要的句子部分。"自我注意通過為每個(gè)輸入令牌計(jì)算一組注意權(quán)重來工作。然后,權(quán)重顯示每個(gè)令牌與其他令牌的相關(guān)性。然后,transformer使用注意權(quán)重為輸入的最重要部分分配更多的重要性,并為較不相關(guān)的部分分配較少的重要性。"

通用GPT循環(huán)如下,一個(gè)令牌以及一個(gè)表示其在句子中的位置的位置編碼作為輸入,然后它通過一個(gè)dropout層,然后通過N個(gè)transformer塊層(上圖右所示)。一個(gè)transformer塊由自我注意、規(guī)范化和前饋網(wǎng)絡(luò)(即,MLP或Dense)層組成。這些結(jié)構(gòu)一起工作來確定和輸出最可能的新令牌。

這個(gè)過程循環(huán),直到GPT模型預(yù)測(cè)最可能的新令牌是句子結(jié)束符為止。這可以進(jìn)一步擴(kuò)展以生成完整的段落,而且超過一個(gè)單獨(dú)的句子在GPT模型的新版本中尤其常見。當(dāng)在足夠的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),這種長(zhǎng)期、上下文驅(qū)動(dòng)的生成能力使GPT模型在文本合成任務(wù)上效果無與倫比。

現(xiàn)代LLM需要了解的術(shù)語

這一部分涵蓋了我們認(rèn)為值得了解的LLM的微調(diào)方法。

LoRA

我們將討論的第一種技術(shù)是低秩適應(yīng)(LoRA)。大型語言模型的低秩適應(yīng)(LoRA)是一種訓(xùn)練/微調(diào)LLM的巧妙方法,顯著減少了訓(xùn)練所需的顯存。為了實(shí)現(xiàn)這一點(diǎn),LoRA將現(xiàn)有的模型權(quán)重與秩分解權(quán)重矩陣對(duì)合并。然后,這些新的權(quán)重成為唯一在訓(xùn)練的變量,而剩余的權(quán)重保持凍結(jié)。

因?yàn)楦戮仃嚧淼膮?shù)比原始權(quán)重少得多,所以這允許顯著降低訓(xùn)練成本,而不會(huì)顯著降低訓(xùn)練效果。此外,通過將這些權(quán)重添加到這些模型的注意層,我們可以根據(jù)需要調(diào)整這種附加權(quán)重的效果。

RLHF

大型語言模型中的強(qiáng)化學(xué)習(xí)人類反饋(LLM RLHF),是指使用強(qiáng)化學(xué)習(xí)和人類反饋的組合來訓(xùn)練大型語言模型(LLM)的方法。強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí),其中算法通過試錯(cuò)學(xué)習(xí)做決策。在LLM領(lǐng)域中,強(qiáng)化學(xué)習(xí)可以通過對(duì)其生成的文本的質(zhì)量提供反饋來優(yōu)化LLM的性能。

在像Chat GPT這樣的大型語言模型中,RHLF的事件序列可以簡(jiǎn)潔地分解為以下幾步:

  1. 在足夠的數(shù)據(jù)上訓(xùn)練一些生成預(yù)訓(xùn)練transformer模型

  2. 訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,該模型接受一系列文本,并返回一個(gè)標(biāo)量獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)應(yīng)數(shù)值表示人類的偏好,即人類對(duì)他們識(shí)別效果的打分

  3. 使用人類反饋訓(xùn)練的強(qiáng)化學(xué)習(xí)模型微調(diào)模型。

這樣,LLM可以超越純粹的機(jī)器學(xué)習(xí)的效果,在訓(xùn)練過程的后期引入額外的人類知識(shí)。在實(shí)踐中,這可以大大提高模型響應(yīng)的人性化和交互性。

QLoRA

QLoRA是一種高效的LLM微調(diào)方法,它顯著地減少了顯存需求,足以在單個(gè)48GB的GPU上微調(diào)一個(gè)65B參數(shù)模型,同時(shí)保持完整的16位微調(diào)任務(wù)性能。QLoRA是基于LoRA方法改造引入了一個(gè)量化步驟,盡管它只是最近發(fā)布的,但其效果使其值得包含在這篇文章中。QLoRA與LoRA非常相似,有幾個(gè)主要的區(qū)別。

如上圖所示,QLoRA與它的前身LoRA有幾個(gè)明顯的區(qū)別。區(qū)別具體是QLoRA方法將變壓器模型量化為4位精度,并使用CPU中的分頁優(yōu)化器處理任何過量的數(shù)據(jù)峰值。在實(shí)踐中,這使得可以以顯著降低的內(nèi)存需求微調(diào)一個(gè)LLM,如LLaMA。

LLM變革中需要了解的模型

在過去的半年里,GPT模型在開源社區(qū)的流行,可以廣泛地歸因于Meta的LLaMa模型的普及。雖然它們不可用于商業(yè)用途,但它們對(duì)填寫簡(jiǎn)單表格的研究人員公開可用。這種可用性導(dǎo)致了基于LLaMa模型的開源項(xiàng)目的大幅增加。在這一部分,我們將簡(jiǎn)要地看一下在過去的半年里發(fā)布的一些最重要的微調(diào)過的LLaMa模型。

Alpaca

LLaMa-Alpaca是第一個(gè)找到突出地位的微調(diào)項(xiàng)目。這個(gè)項(xiàng)目由斯坦福的研究人員運(yùn)行,使用了OpenAI的text-davinci-003生成的52k指令-響應(yīng)序列,創(chuàng)建了一個(gè)強(qiáng)大的指令跟隨數(shù)據(jù)集。

項(xiàng)目背后的研究團(tuán)隊(duì)很快發(fā)現(xiàn),他們的模型在一個(gè)比GPT-3.5/GPT-4小得多的模型上實(shí)現(xiàn)了接近SOTA的結(jié)果。他們使用5個(gè)學(xué)生對(duì)他們新訓(xùn)練的模型和原始的text-davinci-003模型進(jìn)行了雙盲比較。雙盲對(duì)比發(fā)現(xiàn),結(jié)果非常相似,表明Alpaca在訓(xùn)練參數(shù)的一小部分上實(shí)現(xiàn)了幾乎相同的能力。

Alpaca的發(fā)布導(dǎo)致了一系列在類似數(shù)據(jù)集上訓(xùn)練的替代品,并添加了額外的模式,如視覺。

LLaVA

LLaVA(Large Language-and-Vision Assistant)是第一個(gè)也是最突出的試圖將LLaMA微調(diào)與視覺理解合并的項(xiàng)目。這使得模型可以接受多模態(tài)輸入,并生成表現(xiàn)出對(duì)文本和視覺輸入都有理解的深思熟慮的響應(yīng)。

他們的實(shí)驗(yàn)顯示,LLaVA具有令人印象深刻的多模態(tài)聊天能力,有時(shí)表現(xiàn)出與多模態(tài)GPT-4在未見過的圖像/指令上的類似行為。在一個(gè)合成的多模態(tài)指令跟隨數(shù)據(jù)集上,它被發(fā)現(xiàn)與GPT-4相比有85.1%的相對(duì)得分。此外,當(dāng)在Science QA上微調(diào)時(shí),LLaVA和GPT-4的協(xié)同作用達(dá)到了最高精度92.53%。

作者已經(jīng)利用類似的指令調(diào)整策略擴(kuò)展了這個(gè)項(xiàng)目,創(chuàng)建了LLaVA-Med。LLaVA模型的這種適應(yīng)性和擴(kuò)展性,能夠覆蓋新的和復(fù)雜的主題,無論是在文本還是在視覺上,都表明LLaVA是一個(gè)值得關(guān)注的模型,因?yàn)殚_發(fā)還在繼續(xù)。

MPT-7B

我們現(xiàn)在最喜歡的開源項(xiàng)目之一,MosaicML預(yù)訓(xùn)練transformer系列代表了這個(gè)LLM革命帶來的一些最大發(fā)展。與我們今天討論的其他項(xiàng)目不同,它是在沒有LLaMA的情況下開發(fā)的,因此不必繼承其商業(yè)許可。這使得它可能是現(xiàn)在最好的可用的開源LLM,可以與調(diào)整過的LLaMa 7B模型相比。

MPT-7B的表現(xiàn)極好。如上圖所示,它在各種測(cè)試中的性能與LLaMa-7B的性能相當(dāng)。

MPT-7B是一個(gè)從頭開始在1T令牌的文本和代碼上訓(xùn)練的transformer。它有三個(gè)變體:

  • 聊天:這可能是讀者最熟悉的模型類型,這個(gè)模型設(shè)計(jì)用來輸出和人類聊天一樣的響應(yīng)。

  • 指令:這是這些模型的另一個(gè)常見原型,如在Alpaca、Vicuna等中看到的,指令模型能夠解釋復(fù)雜的指令并返回準(zhǔn)確預(yù)測(cè)的響應(yīng)。

  • 故事寫作:故事寫作模型在長(zhǎng)篇文學(xué)作品的序列上進(jìn)行訓(xùn)練,能夠準(zhǔn)確地模仿作者的風(fēng)格進(jìn)行長(zhǎng)篇故事生成。

Guanaco

為QLoRA論文引入的,用于自然語言適應(yīng)上下文感知全語言輸出的生成通用助手(Generative?Universal?Assistant for?Natural-language?Adaptive?Context-aware?Omnilingual outputs - Guanaco)。Guanaco是一個(gè)基于Meta的LLaMa 7B模型構(gòu)建的先進(jìn)的指令跟隨語言模型。

在Alpaca模型的初始52K數(shù)據(jù)集的基礎(chǔ)上,Guanaco受到了額外的534,530個(gè)條目的訓(xùn)練,涵蓋了英語、簡(jiǎn)體中文、繁體中文、日語、德語,以及各種語言和語法任務(wù)。這種豐富的數(shù)據(jù)使Guanaco在多語言環(huán)境中表現(xiàn)出色,并擴(kuò)展了模型的能力,以覆蓋更廣泛的語言環(huán)境。

結(jié)束語

在這篇文章中,我們涵蓋了一系列與LLM革命相關(guān)的主題,以幫助理解這些復(fù)雜的系統(tǒng)??傮w來說,我們正處于AI的NLP領(lǐng)域的快速增長(zhǎng)中。這是最好的時(shí)機(jī),參與其中,建立理解,并為自己和自己的商業(yè)利益捕獲這些技術(shù)的力量。


譯文:概覽AI大模型(LLM)的研究爆發(fā)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
东方市| 昆明市| 万荣县| 宝兴县| 高州市| 长丰县| 新巴尔虎左旗| 肥乡县| 浦东新区| 阿合奇县| 大新县| 扶余县| 柳林县| 峨山| 阳西县| 商都县| 前郭尔| 津市市| 延庆县| 丘北县| 闽侯县| 南投市| 博爱县| 延长县| 闵行区| 仪陇县| 建平县| 合水县| 巴彦淖尔市| 巢湖市| 石阡县| 巍山| 鸡西市| 汝南县| 从江县| 循化| 台江县| 宝兴县| 万载县| 乐昌市| 洪江市|