最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Nature:大模型越大越好嗎【好文譯遞】第 8 期

2023-07-06 15:01 作者:OpenBMB  | 我要投稿



???? 欄目簡介?

如果說之前推出的【論文速讀】是領(lǐng)讀嚴(yán)謹(jǐn)?shù)拇竽P蛯嵶C研究論文,那么【好文譯遞】則想傳遞?觀點性、發(fā)散性的議論文章,只是靜靜地完整呈現(xiàn)譯文,任您自由地品讀和思考。


????編者按?

增強(qiáng)大語言模型的邏輯推理能力是個難點,模型更大,就能更好地回答數(shù)學(xué)推理類問題嗎?Nature 數(shù)月前的評論文章《 In AI, is bigger always better?》講述了生成式 AI的不斷擴(kuò)大的趨勢下可能存在的問題以及發(fā)展節(jié)能大模型的可能性,回顧該文章或許能帶來一些新啟發(fā)。文章作者?Anil Ananthaswamy?從對模型擴(kuò)大化的“合理擔(dān)憂”“規(guī)模問題”“更聰明更小”“節(jié)能語言大模型”等方面展開了闡釋,由于全文篇幅較長,我們根據(jù)內(nèi)容價值截取了文章的導(dǎo)言和后三個論點進(jìn)行了編譯。


?? 原文中譯 :大模型越大就越好嗎

Illustrtion by Fabio Buonocore

隨著生成式人工智能模型變得越來越強(qiáng)大,一些科學(xué)家開始提倡更精簡、更節(jié)能的系統(tǒng)。

可以生成流暢文本的人工智能系統(tǒng)近期技術(shù)行業(yè)的新星,例如 OpenAI 的 ChatGPT。但是,當(dāng)面對需要推理才能回答的數(shù)學(xué)問題時,這些 LLM 往往容易出錯。例如這道代數(shù)題:有一條平行于 y = 4 x + 6的直線穿過 (5, 10)。這條線的 y軸截距的 y坐標(biāo)是多少?盡管 LLM 有時可以正確回答這類問題,但他們通常難以給出正確回答。在一項針對其推理能力的早期測試中,ChatGPT 在面對來自“MATH”中學(xué)水平數(shù)據(jù)集的數(shù)學(xué)例題時,僅答對了 26%。這是意料之中的:給定輸入文本后,大型語言模型只是根據(jù)模型訓(xùn)練數(shù)據(jù)中單詞、符號和句子的統(tǒng)計規(guī)律生成新文本。如果僅靠學(xué)習(xí)語言模式就可以讓大型語言模型可靠地模仿數(shù)學(xué)推理,那將令人訝異。

但早在 2022 年 6 月,谷歌創(chuàng)建的名為 Minerva 的 LLM就已經(jīng)逐漸上打破了這些預(yù)期。Minerva 答對了 MATH 數(shù)據(jù)集中 50% 的問題,這一結(jié)果震驚了人工智能的研究人員。

“社區(qū)中,人們議論紛紛得感慨:結(jié)果真的有點令人震驚,”位于華盛頓州雷德蒙德的微軟研究院機(jī)器學(xué)習(xí)專家塞巴斯蒂安·布貝克說。

Minerva 的優(yōu)勢在于它接受過數(shù)學(xué)相關(guān)文本的培訓(xùn)。但谷歌的研究提出了該模型表現(xiàn)如此出色的另一個重要原因——其龐大的規(guī)模。它的規(guī)模大小大約是 ChatGPT 的三倍。

Minerva 的結(jié)果暗示了一些研究人員長期以來一直懷疑的事情:更大規(guī)模的訓(xùn)練和更多數(shù)據(jù)可以使LLM僅依靠模式識別來解決本應(yīng)需要推理的任務(wù)。如果是這樣,一些人工智能研究人員表示,這種“越大越好”的策略可能會提供一條接近強(qiáng)大人工智能的途徑。

但是這個論點存在很多疑點。LLM 仍然會犯明顯的錯誤,并且一些科學(xué)家認(rèn)為,更大的模型只會在回答與其訓(xùn)練數(shù)據(jù)相關(guān)的問題時表現(xiàn)更好,但沒有獲得回答新問題的能力。

這場辯論現(xiàn)在正在人工智能的前沿展開。商業(yè)公司已經(jīng)從更大的 AI 模型中獲得了更好的結(jié)果,因此他們正在推出越來越大的 LLM——每個 LLM 都需要花費數(shù)百萬美元來訓(xùn)練和運行。但是這些模型有很大的缺點:除了它們的輸出不可信以及它們可能會加劇錯誤信息的傳播之外,更令人擔(dān)憂的是它們昂貴的價格并且巨大的能量消耗。

批評者認(rèn)為,LLM 終究無法模仿或獲得穩(wěn)定回答推理型問題的技能。反之,一些科學(xué)家提出發(fā)展更小、更節(jié)能的模型才是AI 進(jìn)步的方式——就像大腦學(xué)習(xí)和建立知識鏈接的過程

谷歌的人工智能研究員 Fran?ois Chollet 是懷疑論者之一。他們認(rèn)為,無論語言大模型變得多大都永遠(yuǎn)無法具備優(yōu)秀的推理(或模仿推理)能力來可靠地解決新問題。他說,無論是在訓(xùn)練數(shù)據(jù)中還是在提示中,LLM 似乎只能使用它以前遇到過的模板進(jìn)行推理?!八荒苎杆倮斫庖郧皼]有見過的東西?!?/span>

吞下大量的訓(xùn)練數(shù)據(jù),以至于語言的統(tǒng)計規(guī)律本身就足以讓其儲備的答案來回答近似的問題。這可能就是 LLM 能做到的最好地步。


規(guī)模問題

雖然爭論還在繼續(xù),但人們已經(jīng)對擴(kuò)大語言模型的趨勢產(chǎn)生了擔(dān)憂。一是培訓(xùn)大型 LLM 所涉及的數(shù)據(jù)集、算力和費用將其發(fā)展僅局限在擁有巨大計算資源的公司里——也因此限制了大模型的研究方向。OpenAI 尚未確認(rèn)創(chuàng)建 ChatGPT 的成本,但有人根據(jù)計算量估計預(yù)訓(xùn)練 GPT-3(ChatGPT 的前身)的成本超過 400 萬美元. OpenAI 每個月可能要花費數(shù)百萬美元來運行 ChatGPT,因為如今免費的聊天機(jī)器人要處理大量查詢?!拔覀円呀?jīng)深入了解這個制度,”布貝克說?!爸挥猩贁?shù)公司擁有超過 1000 億參數(shù)的模型?!?/span>

政府開始介入,盡可能提供支持,擴(kuò)大競爭環(huán)境。在法國政府、美國人工智能公司Hugging Face及其他機(jī)構(gòu)的資助下,去年 6 月,一個由約 1,000 名學(xué)術(shù)志愿者組成的國際團(tuán)隊使價值 700 萬美元的計算時間訓(xùn)練了一個具有約 1750 億參數(shù)的模型,名為 BLOOM 。11 月,美國能源部將超級計算時間授予 Rish 及其同事的一個項目,用以構(gòu)建大型模型來研究其的行為?!拔覀兿M?xùn)練一個類似Chinchilla的 700 億參數(shù)模型——不一定是最大的,而是一個性能擴(kuò)展更有效的模型,”Rish 說。

不管誰來建造它們,LLM 也會引起人們對電力消耗的擔(dān)憂。例如,谷歌報告稱,培訓(xùn) PaLM 在大約兩個月內(nèi)耗費了大約 3.4 千瓦時。那是大約 300 個美國家庭每年的能源消耗量。谷歌對 PaLM 的培訓(xùn)在俄克拉荷馬州數(shù)據(jù)中心進(jìn)行,據(jù)稱該數(shù)據(jù)中心89% 的能源消耗來自無碳能源,主要由風(fēng)能和其他可再生能源提供動力。但調(diào)查研究表明,AI 行業(yè)中大多數(shù)模型仍舊主要由化石燃料驅(qū)能的電網(wǎng)進(jìn)行訓(xùn)練的。


更聰明且更???

因此,對于許多科學(xué)家來說,降低 LLM 的能源消耗——使神經(jīng)網(wǎng)絡(luò)更小、更高效,甚至更智能——成為當(dāng)前迫切的需求。除了訓(xùn)練 LLM 的能源成本(雖然代價巨大,但只是一次性的),推理問答所需的能源會隨著用戶數(shù)量的增加而激增。大型科技公司對模型的使用成本暫且未置一詞。然而,Hugging Face 透露,截止BLOOM 模型在谷歌云平臺上部署的第18 天,它已回答了 230,768 次查詢(比 ChatGPT 少很多,后者在 2 月份達(dá)到了每月 1 億活躍用戶),平均消耗了1,664 瓦。

相比之下,我們自己的大腦比任何 LLM 都更復(fù)雜更大,有 860 億個神經(jīng)元和大約 100 萬億個突觸連接。然而,瑞士巴塞爾 Friedrich Miescher 生物醫(yī)學(xué)研究所的 Friedemann Zenke 說,人腦消耗的功率僅在 20 到 50 瓦之間。

因此,一些研究人員希望通過模仿大腦的各個方面幫助 LLM 和其他神經(jīng)網(wǎng)絡(luò)變得更小、更智能和更高效。

大腦整體的智力和效率來源之一可能是它的環(huán)式或反饋連接。LLM 本質(zhì)上是“前饋”網(wǎng)絡(luò)。這意味著信息是單向流動的:從輸入層開始,經(jīng)過 LLM 的層,再到輸出層。大腦以不同的方式產(chǎn)生連接。例如,在人類視覺系統(tǒng)中,神經(jīng)元將更早接收到視覺信息的大腦區(qū)域與更靠后的區(qū)域進(jìn)行連接。但也有反饋連接允許神經(jīng)元之間反向傳遞信息?!霸赱人類]視覺系統(tǒng)中,反饋連接的數(shù)量可能是前饋連接數(shù)量的十倍,”米切爾說,但 LLM 沒有反饋連接。

包含前饋和反饋連接的人工神經(jīng)網(wǎng)絡(luò)通常被稱為遞歸神經(jīng)網(wǎng)絡(luò) (RNN)。這樣的網(wǎng)絡(luò)(與前饋 LLM 不同)可以識別數(shù)據(jù)中隨時間變化的規(guī)律。這是“所有自然智能如何體驗世界和學(xué)習(xí)的基礎(chǔ)”,紐約城西奈山伊坎醫(yī)學(xué)院的計算神經(jīng)科學(xué)家 Kanaka Rajan 說道。但 RNN 也面臨挑戰(zhàn),Rajan 說。例如,它們訓(xùn)練起來既困難又緩慢,因此很難將它們擴(kuò)展到當(dāng)前 LLM 的規(guī)模。

大腦高效的另一個原因是生物神經(jīng)元大多數(shù)時候保持靜止——它們只偶爾有活躍峰值。相比之下,大多數(shù)神經(jīng)網(wǎng)絡(luò)中的人工神經(jīng)元被設(shè)置為持續(xù)開啟。研究人員正在研究高脈沖(模仿真實神經(jīng)元)的人工神經(jīng)元,但很難將標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的算法訓(xùn)練成使用脈沖神經(jīng)元的網(wǎng)絡(luò)。盡管如此,小型數(shù)據(jù)集(例如,10,000個用于訓(xùn)練網(wǎng)絡(luò)識別語音數(shù)字的錄音)的研究表明,具有脈沖神經(jīng)元的 RNN 表現(xiàn)優(yōu)于具有標(biāo)準(zhǔn)神經(jīng)元的 RNN,并且在理論上,前者計算效率高出后者三個數(shù)量級. “進(jìn)展迅速且令人印象深刻,”在該領(lǐng)域工作的荷蘭阿姆斯特丹國家數(shù)學(xué)與計算機(jī)科學(xué)研究所 (CWI) 的 Sander Bohté 說。

然而,如果此類脈沖神經(jīng)網(wǎng)絡(luò)的模擬僅在軟件中被實現(xiàn),它們就無法提供真正的效率增益(因為模擬它們的硬件仍在消耗功率)。在神經(jīng)形態(tài)芯片上,這樣的計算元素需要被內(nèi)置到硬件中才能實現(xiàn)它們的好處。


節(jié)能語言大模型

與此同時,研究人員正在用嘗試不同的方法使現(xiàn)有的 LLM 更節(jié)能、更智能。2021 年 12 月,DeepMind 報告了一個名為 RETRO 的系統(tǒng),它結(jié)合了 LLM 與外部數(shù)據(jù)庫。LLM 在推理過程中使用從該數(shù)據(jù)庫中檢索到的相關(guān)文本來輔助做出預(yù)測。DeepMind 的研究人員表明,75 億參數(shù)的 LLM 加上包含 2 萬億令牌的數(shù)據(jù)庫的性能優(yōu)于參數(shù)多 25 倍的 LLM 。研究人員寫道,這是一種“我們尋求構(gòu)建更強(qiáng)大的語言模型的過程中,比原始參數(shù)縮放更有效的方法”。

同月,谷歌研究院的科學(xué)家報告了另一種大規(guī)模提高能源效率的方法。他們的通用語言模型 (Generalist Language Model, GLaM) 有 1.2 萬億個參數(shù). 但是這些參數(shù)并不代表一個巨大的神經(jīng)網(wǎng)絡(luò);在內(nèi)部,它們與其他層一起分布在 64 個較小的神經(jīng)網(wǎng)絡(luò)之間。經(jīng)過訓(xùn)練,LLM 在推理過程中僅使用模型中的兩個網(wǎng)絡(luò)來完成任務(wù);總體而言,LLM 對每個令牌的推理僅使用了其萬億總參數(shù)中的8% 。據(jù)谷歌稱,由于對訓(xùn)練軟件和硬件的改進(jìn),GLaM 使用了與訓(xùn)練 GPT-3 所需的相同數(shù)量的計算資源,但只消耗了大約三分之一的功率。在推理過程中,GLaM 使用了 GPT-3 所需計算資源的一半。當(dāng)使用相同數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練時,它的表現(xiàn)優(yōu)于 GPT-3。

然而,為了進(jìn)一步改進(jìn),即使是這些更節(jié)能的 LLM 似乎也注定會變得更大,消耗更多的數(shù)據(jù)和計算。研究人員將觀察這些LLM會隨著規(guī)模的增大而涌現(xiàn)出什么新行為?!拔也恢浪欠駮耆怄i推理能力,”Bubeck 說?!皼]有人知道?!?/span>

原文??:https://www.nature.com/articles/d41586-023-00641-w

*聲明:原文來自 Nature?官網(wǎng),如有侵權(quán),可提議撤稿


??? 好文征集?

歡迎大家添加 【OpenBMB】?微信號,即可進(jìn)入大模型社群交流文章,也可分享推薦更多AI領(lǐng)域的好文!文章時效不限,既可以是討論密集的的熱點時文,也可以是歷久彌香的經(jīng)典前文~

?? 傳送門 ?OpenBMB官網(wǎng)?

?? https://www.openbmb.org

?? 傳送門 ? OpenBMB GitHub?

?? https://github.com/OpenBMB

? ?加社群/ 提建議/ 有疑問?

請找 OpenBMB 萬能小助手(上方二維碼)


?? 關(guān)注我們

微信搜索關(guān)注 “OpenBMB開源社區(qū)”

后臺回復(fù)“CPM-Live” 即可加入CPM-Live加油群

還可獲取更多大模型干貨知識和前沿資訊!?


Nature:大模型越大越好嗎【好文譯遞】第 8 期的評論 (共 條)

分享到微博請遵守國家法律
东兰县| 广昌县| 辽宁省| 永登县| 桐梓县| 侯马市| 宣恩县| 日土县| 洛宁县| 如皋市| 张掖市| 重庆市| 宜兴市| 观塘区| 彰武县| 垫江县| 城口县| 平舆县| 扎鲁特旗| 浦县| 永宁县| 元氏县| 富蕴县| 剑河县| 徐闻县| 苗栗市| 乌审旗| 岳西县| 黑水县| 邵阳市| 泽库县| 大新县| 尤溪县| 科技| 安新县| 昌吉市| 武冈市| 甘德县| 贵溪市| 股票| 怀安县|