ChatGPT戰(zhàn)火越燒越猛!Meta公布最新開(kāi)源大語(yǔ)言模型LLaMA,官方稱效果優(yōu)于GPT-3
原創(chuàng) | 文BFT機(jī)器人

ChatGPT的橫空出世打開(kāi)了硅谷科技新局面:微軟趁熱打鐵步步為營(yíng),先是將ChatGPT接入了Bing給熱度再添一把火,接著又宣布將ChatGPT植入機(jī)器人進(jìn)行了實(shí)驗(yàn),現(xiàn)階段看可以說(shuō)是一路領(lǐng)跑。
在AI戰(zhàn)火的步步緊逼下,壓力一下來(lái)到其他大廠身上,谷歌前腳緊急發(fā)布AI聊天機(jī)器人Bard,后腳其他大廠的布局也在火速鋪開(kāi)。據(jù)國(guó)外媒體最新報(bào)道,馬斯克決定成立專屬的AI聊天機(jī)器人研究實(shí)驗(yàn)室,正式對(duì)標(biāo)OpenAI和ChatGPT,入局生成式AI領(lǐng)域
而在硅谷這場(chǎng)AI大戰(zhàn)中“掉隊(duì)”的Mata,這次也終于放出有了新動(dòng)作!
01
Meta放開(kāi)源“大招”
不鳴則已,一鳴驚人
近日,Meta公開(kāi)發(fā)布了一款全新的大型語(yǔ)言模型LLaMA(開(kāi)放和高效的基礎(chǔ)語(yǔ)言模型),共有7B、13B、33B、65B四種版本,重要的是上述所有版本均已開(kāi)源!相關(guān)論文《LLaMA: Open and Efficient Foundation Language Models》已發(fā)表在Meta官方。

源碼:
https://github.com/facebookresearch/llama
論文地址:
https://research.facebook.com/file/1574548786327032/LLaMA--Open-and-Efficient-Foundation-Language-Models.pdf Meta AI
公布短短3日,相關(guān)推文的閱讀量已近300萬(wàn),目前熱度還在持續(xù)走高。

而作為Facebook的首席人工智能科學(xué)家,楊立昆(Yann LeCun)這次也難掩激動(dòng)之情,在推特上公開(kāi)夸贊了自家模型。
02
LLaMA翻身成功
測(cè)試結(jié)果優(yōu)于GPT-3
LLaMA采用的模型架構(gòu)?
在架構(gòu)選型上與 GPT 系列類似,LLaMA 也是一個(gè)建立在 Transformer 基礎(chǔ)架構(gòu)上的自回歸語(yǔ)言模型(Autoregression Language Model),并做出了部分改進(jìn):
lPre-normalization VS GPT3
為了提高訓(xùn)練的穩(wěn)定性,我們對(duì)每個(gè)變換子層的輸入進(jìn)行規(guī)范化,而不是對(duì)輸出進(jìn)行規(guī)范化。并使用Zhang和Sennrich(2019)介紹的RMSNorm歸一化函數(shù)。
lSwiGLU activation function VS PaLM
采用SwiGLU激活函數(shù)取代由Shazeer(2020)介紹的ReLU非線性方法,以提高性能。此外,在維度上使用的維度是2/3*4d,而不是PaLM中的4d。
lRotary Embeddings VS GPTNeo
在位置編碼上,刪除了絕對(duì)位置嵌入,而在網(wǎng)絡(luò)的每一層增加了Su等人(2021)介紹的旋轉(zhuǎn)位置嵌入(RoPE)。
LLaMA的工作原理是什么?
與其他通用大型語(yǔ)言模型一樣,LLaMA 的工作原理是輸入將一系列單詞作為輸入并預(yù)測(cè)下一個(gè)單詞以遞歸生成文本。
LLaMA為什么要設(shè)置不同大小的版本?

近來(lái)的研究表明,對(duì)于給定的計(jì)算預(yù)算,最佳性能不是由最大的模型實(shí)現(xiàn)的,而是由基于更多數(shù)據(jù)訓(xùn)練的更小的模型實(shí)現(xiàn)的。換句話說(shuō),較小的模型規(guī)模加上比較大的數(shù)據(jù)集,獲得的性能可能會(huì)比更大規(guī)模模型的要好很多。
LLaMA為什么要開(kāi)源?
開(kāi)源對(duì)于LLaMA模型自身而言也有很大的好處,開(kāi)源后會(huì)有更多的業(yè)界人員參與研究,或許能夠幫助LLaMA解決自身的偏見(jiàn)性、虛假內(nèi)容等問(wèn)題,實(shí)現(xiàn)更好的優(yōu)化。
LLaMA訓(xùn)練結(jié)果如何?
值得一提的是,其中LLaMA-13B在大多數(shù)基準(zhǔn)測(cè)試中其結(jié)果都明顯優(yōu)于GPT-3(175B),而LLaMA-65B 則能夠與最佳模型 Chinchilla70B 和 PaLM-540B 競(jìng)爭(zhēng),這樣是否意味著小模型參數(shù)使用大規(guī)模數(shù)據(jù)集也是一條可以研究的方向。
03
蟄伏已久
終于成功迎戰(zhàn)
Meta早在2013年就將成為人工智能領(lǐng)域的先行者作為奮斗使命,并在近十年內(nèi)斥資數(shù)十億美元打造新型人工智能,可以說(shuō)Meta在AI領(lǐng)域可謂下了“血本”。
此次也并非Meta第一次發(fā)布開(kāi)源模型。早在去年六月,Meta就開(kāi)源過(guò)一個(gè)大型語(yǔ)言模型OPT-668,并趕在ChatGPT之前就已發(fā)布了基于OPT模型的聊天機(jī)器人BlenderBot3。但這款聊天機(jī)器人比起ChatGPT的火爆截然不同,不僅回答的問(wèn)題出現(xiàn)大量錯(cuò)誤,還會(huì)回復(fù)負(fù)面言論及錯(cuò)誤信息,并沒(méi)有在行業(yè)內(nèi)激起太多波瀾。

接著,去年11月Meta AI聯(lián)合 Papers with Code發(fā)布了另一款大型語(yǔ)言模型聯(lián)合 Galactica,旨在運(yùn)用機(jī)器學(xué)習(xí)來(lái)“梳理科學(xué)信息”。

但試用版上線后,卻出現(xiàn)了大量錯(cuò)誤信息,并遭到了很多學(xué)者的異議。例如AI 學(xué)者、Robust.AI創(chuàng)始人Gary Marcus就對(duì)Galactica模型表達(dá)了強(qiáng)烈的質(zhì)疑:“大型語(yǔ)言模型(LLM)混淆數(shù)學(xué)和科學(xué)知識(shí)有點(diǎn)可怕。高中生可能會(huì)喜歡它,并用它來(lái)愚弄他們的老師。這應(yīng)該令我們感到擔(dān)憂?!?/p>
這款讓LeCun盛贊的訓(xùn)練模型,在上線48小時(shí)后以倉(cāng)皇下架告終。
對(duì)于ChatGPT的爆火,Meta先前似乎一直持觀望態(tài)度,在其他硅谷科技巨頭先后斥巨資入局“生成式AI”狂潮時(shí),屢敗屢戰(zhàn)的Meta似乎追擊乏力。
LLaMA的公布,讓大家知道Meta并沒(méi)有放棄他們?cè)贏I領(lǐng)域的研究,這次的LLaMA能否在激烈的AI大戰(zhàn)中占據(jù)一席之地,還是會(huì)消失在技術(shù)更迭的浪潮中,我們拭目以待。
更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。