最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

LLM論文周報(bào)|來(lái)自谷歌、華為、斯坦福大學(xué)、香港大學(xué)等機(jī)構(gòu)前沿論文研究

2023-07-17 10:40 作者:AMiner科技  | 我要投稿

大模型(LLM)是一種人工智能模型,旨在理解和生成人類語(yǔ)言。它們?cè)诖罅康奈谋緮?shù)據(jù)上進(jìn)行訓(xùn)練,可以執(zhí)行廣泛的任務(wù),包括文本總結(jié)、翻譯、情感分析等等。LLM的特點(diǎn)是規(guī)模龐大,包含數(shù)十億的參數(shù),幫助它們學(xué)習(xí)語(yǔ)言數(shù)據(jù)中的復(fù)雜模式。這些模型通常基于深度學(xué)習(xí)架構(gòu),如轉(zhuǎn)化器,這有助于它們?cè)诟鞣NNLP任務(wù)上取得令人印象深刻的表現(xiàn)。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型語(yǔ)言模型 ChatGPT,由于其優(yōu)秀的表現(xiàn),ChatGPT 及其背后的大型語(yǔ)言模型迅速成為人工智能領(lǐng)域的熱門(mén)話題,吸引了廣大科研人員和開(kāi)發(fā)者的關(guān)注和參與。

本周精選了10篇LLM領(lǐng)域的優(yōu)秀論文,來(lái)自谷歌、華為、斯坦福大學(xué)、香港大學(xué)等機(jī)構(gòu)。

為了方便大家閱讀,只列出了論文標(biāo)題、作者、ChatPaper綜述等信息,如果感興趣可以點(diǎn)擊鏈接查看原文,PC端數(shù)據(jù)同步(收藏即可在PC端查看),每日新論文也可登錄小程序查看。

1.CAME: Confidence-guided Adaptive Memory Efficient Optimization

作者:Yang Luo,Xiaozhe Ren,Zangwei Zheng,Zhuo Jiang,Xin Jiang,Yang You

鏈接:aminer.cn/pub/64a63bddd

ChatPaper綜述:這篇論文討論了在訓(xùn)練大型語(yǔ)言模型時(shí),自適應(yīng)梯度方法如 Adam 和 LAMB 表現(xiàn)出非常好的性能,但是需要維護(hù)每個(gè)參數(shù)梯度的第二階矩估計(jì),這需要額外的內(nèi)存開(kāi)銷(xiāo)。為了解決這個(gè)問(wèn)題,論文提出了 CAME,一個(gè)基于自信指導(dǎo)的自適應(yīng)內(nèi)存高效優(yōu)化器。CAME 通過(guò)使用自信指導(dǎo)策略來(lái)減少現(xiàn)有內(nèi)存高效優(yōu)化器的不穩(wěn)定性?;谶@個(gè)策略,CAME 同時(shí)實(shí)現(xiàn)了兩個(gè)目標(biāo):像傳統(tǒng)自適應(yīng)方法一樣快速收斂,像內(nèi)存高效方法一樣低內(nèi)存使用。廣泛的實(shí)驗(yàn)結(jié)果表明,CAME 在多種自然語(yǔ)言處理任務(wù)中訓(xùn)練穩(wěn)定,表現(xiàn)出色,特別是在 BERT 預(yù)訓(xùn)練的大型批量大小 32,768 中,相比 Adam 優(yōu)化器,我們的提出的方法實(shí)現(xiàn)了更快的收斂和更高的精度。CAME 的實(shí)現(xiàn)是公開(kāi)可用的。

2.BiPhone: Modeling Inter Language Phonetic Influences in Text

作者:Abhirut Gupta,Ananya B. Sai,Richard Sproat,Yuri Vasilevski,James S. Ren,Ambarish Jash,Sukhdeep S. Sodhi,Aravindan Raghuveer

鏈接:aminer.cn/pub/64ab82833

ChatPaper綜述:這篇論文討論了由于技術(shù)不對(duì)稱性等原因,許多人被迫使用他們不太熟悉的第二語(yǔ)言 (L2) 在互聯(lián)網(wǎng)上交流,這使得 L2 文本往往包含大量的錯(cuò)誤,這些錯(cuò)誤受到他們母語(yǔ) (L1) 的影響。論文提出了一種方法來(lái)挖掘 L1 和 L2 之間的語(yǔ)音混淆 (即 L2 中的聲音,L1 聽(tīng)眾可能混淆),并將這些混淆注入到一個(gè)生成模型 (Bi-Phone) 中,以合成地生成損壞的 L2 文本。通過(guò)人類評(píng)估,論文表明 Bi-Phone 可以生成合理的損壞,并且在不同的 L1 之間有所不同,并且這種損壞在 Web 上具有廣泛的覆蓋范圍。此外,論文還通過(guò)將這種損壞技術(shù)應(yīng)用于流行的語(yǔ)言理解基準(zhǔn) SuperGLUE,發(fā)現(xiàn) SoTA 語(yǔ)言理解模型在這種方法下表現(xiàn)較差。此外,論文還介紹了一種新的語(yǔ)音預(yù)測(cè)預(yù)訓(xùn)練任務(wù),可以幫助字節(jié)模型恢復(fù)到接近 SuperGLUE 的性能。最后,論文還發(fā)布了名為 FunGLUE 的基準(zhǔn)測(cè)試,以促進(jìn)進(jìn)一步研究口語(yǔ)魯棒的語(yǔ)言模型。

3.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

作者:Wenlong Huang,Chen Wang,Ruohan Zhang,Yunzhu Li,Jiajun Wu,Li Fei-Fei

鏈接:aminer.cn/pub/64abee0f2

ChatPaper綜述:這篇論文旨在利用大型語(yǔ)言模型 (LLM) 為機(jī)器人操縱合成大量不同任務(wù)的動(dòng)態(tài)機(jī)器人軌跡。在此之前,大多數(shù)機(jī)器人操縱研究都依賴于預(yù)先定義的運(yùn)動(dòng)模式,這種模式在很大程度上限制了機(jī)器人的交互能力。該論文提出了一種方法,利用 LMM 的推斷能力和編寫(xiě)代碼的能力,與視覺(jué)語(yǔ)言模型 (VLM) 相互作用,以生成 3D 值地圖,并將其用于模型 based 規(guī)劃框架,以零樣本合成閉環(huán)機(jī)器人軌跡,同時(shí)具有對(duì)動(dòng)態(tài)擾動(dòng)的魯棒性。該框架還利用在線經(jīng)驗(yàn)高效學(xué)習(xí)接觸豐富的場(chǎng)景的動(dòng)態(tài)模型。該方法在模擬和真實(shí)機(jī)器人環(huán)境中進(jìn)行了大規(guī)模研究,展示了能夠執(zhí)行 30 多種日常生活中的機(jī)器人操縱任務(wù)的能力,這些任務(wù)是通過(guò)自由文本描述指定的。

4.PolyLM: An Open Source Polyglot Large Language Model

作者:Xiangpeng Wei,Haoran Wei,Huan Lin,Tianhao Li,Pei Zhang,Xingzhang Ren,Mei Li,Yu Wan,Zhiwei Cao,Binbin Xie,Tianxiang Hu,Shangjie Li,Binyuan Hui,Bowen Yu,Dayiheng Liu,Baosong Yang,Fei Huang,Jun Xie

鏈接:aminer.cn/pub/64af76ed3

ChatPaper綜述:這篇論文介紹了一種名為 PolyLM 的開(kāi)源多語(yǔ)言大型語(yǔ)言模型,該模型通過(guò)融合雙語(yǔ)數(shù)據(jù)并采用課程學(xué)習(xí)策略來(lái)提高其多語(yǔ)言能力,并在訓(xùn)練數(shù)據(jù)中融入了雙語(yǔ)言數(shù)據(jù)。此外,還提出了一種多語(yǔ)言自我指導(dǎo)方法,該方法可以自動(dòng)生成 132,700 個(gè)多樣化的多語(yǔ)言指令用于模型微調(diào)。通過(guò)廣泛的實(shí)驗(yàn),論文表明 PolyLM 在多語(yǔ)言任務(wù)中表現(xiàn)優(yōu)異,同時(shí)英語(yǔ)表現(xiàn)與現(xiàn)有開(kāi)源模型 LLaMA 和 BLOOM 相當(dāng)。

5.Teaching Arithmetic to Small Transformers

作者:Nayoung Lee,Kartik Sreenivasan,Jason D. Lee,Kangwook Lee,Dimitris Papailiopoulos

鏈接:aminer.cn/pub/64ab82833

ChatPaper綜述:這篇論文研究了如何將基本算術(shù)運(yùn)算教給小型 Transformer 模型。我們發(fā)現(xiàn),在大量文本數(shù)據(jù)上訓(xùn)練的小型 Transformer 模型可以從隨機(jī)初始化開(kāi)始高效地學(xué)習(xí)算術(shù)操作,如加法、乘法和基本的平方根函數(shù)。我們首先證明傳統(tǒng)的訓(xùn)練數(shù)據(jù)對(duì)于算術(shù)學(xué)習(xí)并不是最有效的,簡(jiǎn)單的數(shù)據(jù)格式變化可以顯著提高準(zhǔn)確性。隨著訓(xùn)練數(shù)據(jù)的增大,會(huì)出現(xiàn)明顯的階段變化,這可以通過(guò)與低秩矩陣填充相關(guān)的聯(lián)系來(lái)解釋。在此基礎(chǔ)上,我們使用包括中間步驟結(jié)果的鏈?zhǔn)较敕〝?shù)據(jù)進(jìn)行訓(xùn)練。即使在沒(méi)有預(yù)訓(xùn)練的情況下,這種方法可以同時(shí)顯著提高準(zhǔn)確性、樣本復(fù)雜度和收斂速度。我們還研究了算術(shù)和文本數(shù)據(jù)之間的互動(dòng),并考察了少量提示、預(yù)培訓(xùn)和模型規(guī)模的影響。此外,我們討論了長(zhǎng)度泛化挑戰(zhàn)。我們的工作強(qiáng)調(diào)了高質(zhì)量、指導(dǎo)數(shù)據(jù)的重要性,應(yīng)考慮 next-token 預(yù)測(cè)目標(biāo)的特殊性質(zhì),以迅速誘導(dǎo)算術(shù)能力。

6.Lost in the Middle: How Language Models Use Long Contexts

作者:Nelson F. Liu,Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua,Fabio Petroni,Percy Liang

鏈接:aminer.cn/pub/64a78f1fd

ChatPaper綜述:這篇論文研究了語(yǔ)言模型如何使用長(zhǎng)上下文。雖然近年來(lái)出現(xiàn)了一些能夠處理長(zhǎng)上下文的語(yǔ)言模型,但人們對(duì)于語(yǔ)言模型如何在長(zhǎng)上下文中運(yùn)用信息了解較少。本文針對(duì)兩個(gè)需要從輸入上下文中識(shí)別相關(guān)信息的任務(wù):多文檔問(wèn)題解答和鍵值檢索,進(jìn)行了分析。發(fā)現(xiàn)語(yǔ)言模型在輸入上下文的開(kāi)頭或結(jié)尾處獲取的信息往往效果最好,而在長(zhǎng)上下文的中部獲取信息會(huì)使性能顯著降低。此外,對(duì)于長(zhǎng)上下文模型,輸入上下文長(zhǎng)度的增加會(huì)顯著降低性能。本文的分析為更好地理解語(yǔ)言模型如何運(yùn)用輸入上下文提供了新的理解,并為未來(lái)的長(zhǎng)上下文模型提供了新的評(píng)估標(biāo)準(zhǔn)。

7.VideoGLUE: Video General Understanding Evaluation of Foundation Models

作者:Liangzhe Yuan,Nitesh Bharadwaj Gundavarapu,Long Zhao,Hao Zhou,Yin Cui,Lu Jiang,Xuan Yang,Menglin Jia,Tobias Weyand,Luke Friedman,Mikhail Sirotenko,Huisheng Wang,Florian Schroff,Hartwig Adam,Ming-Hsuan Yang,Ting Liu,Boqing Gong

鏈接:aminer.cn/pub/64a78f1fd

ChatPaper綜述:這篇論文評(píng)估了現(xiàn)有的 foundation 模型在視頻理解方面的能力,使用了精心設(shè)計(jì)的實(shí)驗(yàn)協(xié)議,包括三個(gè)標(biāo)志性任務(wù) (動(dòng)作識(shí)別、時(shí)間定位和時(shí)空定位),八個(gè)受到社區(qū)歡迎的 datasets,以及四種針對(duì)下游任務(wù)調(diào)整 foundation 模型的方法。此外,我們還提出了一個(gè)指標(biāo) VideoGLUE 分?jǐn)?shù) (VGS),以測(cè)量 foundation 模型在通用視頻理解任務(wù)上的有效性和效率。我們的結(jié)果表明,任務(wù)專業(yè)化模型顯著優(yōu)于我們研究的六個(gè) foundation 模型,這與 foundation 模型在自然語(yǔ)言和圖像理解方面取得的成就大不相同。此外,視頻原生 foundation 模型 (其在預(yù)訓(xùn)練數(shù)據(jù)中包含視頻模式) 在分類運(yùn)動(dòng)豐富的視頻、時(shí)間定位動(dòng)作和理解多個(gè)動(dòng)作的視頻方面通常比圖像原生 foundation 模型表現(xiàn)更好。第三種發(fā)現(xiàn)表明,對(duì)于視頻任務(wù),視頻原生 foundation 模型在輕度適應(yīng)下游任務(wù) (例如凍結(jié) foundation 模型的 backbone) 時(shí)表現(xiàn)良好,而圖像原生 foundation 模型在完整端到端微調(diào)時(shí)表現(xiàn)更好。前兩個(gè)觀察表明,需要專注于視頻焦點(diǎn)的 foundation 模型的研究,最后一個(gè)觀察結(jié)果表明,任務(wù)和適應(yīng)方法對(duì)于 foundation 模型的評(píng)估至關(guān)重要。

8.Focused Transformer: Contrastive Training for Context Scaling

作者:Szymon Tworkowski,Konrad Staniszewski,Miko?aj Pacek,Yuhuai Wu,Henryk Michalewski,Piotr Mi?o?

鏈接:aminer.cn/pub/64a78f1fd

ChatPaper綜述:這篇論文研究了如何通過(guò)對(duì)比訓(xùn)練來(lái)解決外部?jī)?nèi)存中的記憶效果不佳的問(wèn)題,外部?jī)?nèi)存中的記憶內(nèi)容包括 (鍵,值) 。隨著文檔數(shù)量的增加,相關(guān)鍵的數(shù)量越來(lái)越少,導(dǎo)致模型更多地關(guān)注無(wú)關(guān)鍵。這種情況稱之為干擾問(wèn)題。為了解決這個(gè)問(wèn)題,作者提出了 Focused Transformer(FoT) 技術(shù),該技術(shù)利用對(duì)比訓(xùn)練來(lái)增強(qiáng) (鍵,值) 空間的結(jié)構(gòu),從而擴(kuò)展上下文長(zhǎng)度。作者還展示了使用 FoT 技術(shù)微調(diào)現(xiàn)有的大型語(yǔ)言模型,可以延長(zhǎng)其有效上下文。實(shí)證結(jié)果表明,使用 FoT 技術(shù)的 LongLLaMA 模型在需要長(zhǎng)時(shí)間上下文的任務(wù)中取得了進(jìn)展,例如密碼檢索。此外還證明了LongLLaMA 模型可以有效地處理 256 千個(gè)上下文長(zhǎng)度,這在以前是難以處理的。

9.GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

作者:Shilong Zhang,Peize Sun,Shoufa Chen,Min Xiao,Wenqi Shao,Wenwei Zhang,Kai Chen,Ping Luo

鏈接:aminer.cn/pub/64ab828f3

ChatPaper綜述:這篇論文提出了一種名為 GPT4RoI 的新方法,使用區(qū)域指令微調(diào)大規(guī)模語(yǔ)言模型 (LLM) 以獲得更準(zhǔn)確的多模態(tài)理解能力。傳統(tǒng)的圖像文本指令訓(xùn)練方法只能建立圖像級(jí)別的視覺(jué)語(yǔ)言對(duì)齊,缺乏區(qū)域級(jí)別的對(duì)齊,這限制了他們對(duì)精細(xì)多模態(tài)理解的進(jìn)步。在這篇論文中,作者提出了一種名為區(qū)域指令微調(diào)的方法,使用區(qū)域指令將 bounding box 轉(zhuǎn)換為格式為 spatial instruction 的指令。然后,將區(qū)域指令和語(yǔ)言嵌入的 interleaved 序列作為輸入到 LLM 中,并在以指令微調(diào)格式轉(zhuǎn)換的區(qū)域文本數(shù)據(jù)上進(jìn)行訓(xùn)練。GPT4RoI 區(qū)域級(jí)視覺(jué)語(yǔ)言模型的提出提供了一種全新的對(duì)話和交互體驗(yàn),超越了圖像級(jí)別理解的能力。(1) 可控性:用戶可以通過(guò)語(yǔ)言和區(qū)域指令兩種方式與模型交互,以靈活地調(diào)整問(wèn)題的細(xì)節(jié)水平。(2) 能力:模型不僅支持單區(qū)域區(qū)域指令,還支持多區(qū)域區(qū)域指令,從而解鎖更多的區(qū)域級(jí)別多模態(tài)能力,例如詳細(xì)的區(qū)域標(biāo)題和復(fù)雜的區(qū)域推理。(3) 組合性:任何現(xiàn)成的對(duì)象檢測(cè)器都可以作為區(qū)域指令提供者,以便從我們的模型中挖掘出有用的對(duì)象屬性,如顏色、形狀、材料、動(dòng)作、與其他對(duì)象的關(guān)聯(lián)等。

10.Generative Pretraining in Multimodality

作者:Quan Sun,Qiying Yu,Yufeng Cui,Fan Zhang,Xiaosong Zhang,Yueze Wang,Hongcheng Gao,Jingjing Liu,Tiejun Huang,Xinlong Wang

鏈接:aminer.cn/pub/64ae259c3

ChatPaper綜述:這篇論文介紹了 Emu,一種基于 Transformer 的多功能基礎(chǔ)模型,可以在多模態(tài)上下文中無(wú)縫生成圖像和文本。該模型是一種雜食性模型,可以接受任意單一模態(tài)或多模態(tài)輸入 (例如交替的圖像、文本和視頻),并通過(guò)一種通用的自動(dòng)回歸訓(xùn)練過(guò)程進(jìn)行一對(duì)一訓(xùn)練。首先,視覺(jué)信號(hào)被編碼為嵌入,并與文本令牌一起形成交替的輸入序列。然后,Emu 通過(guò)統(tǒng)一的目標(biāo)進(jìn)行分類,以預(yù)測(cè)下一個(gè)文本令牌或回歸下一個(gè)視覺(jué)嵌入在整個(gè)多模態(tài)序列中。這種多功能多模態(tài)性使模型能夠探索多種大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)來(lái)源,例如視頻的幀和文本交替序列、網(wǎng)頁(yè)上的圖像和文本交替序列,以及大規(guī)模的圖像和文本對(duì)和視頻和文本對(duì)。Emu 可以作為多功能多模態(tài)接口,支持圖像到文本和文本到圖像的任務(wù),并支持上下文中的圖像和文本生成。在廣泛的零/很少樣本任務(wù)中,例如圖像標(biāo)題、視覺(jué)問(wèn)題回答、視頻問(wèn)題回答和文本到圖像生成任務(wù),Emu 在最先進(jìn)的大型多模態(tài)模型之上表現(xiàn)出優(yōu)異的性能。此外,Emu 還展示了出色的擴(kuò)展能力,例如通過(guò)指令微調(diào)實(shí)現(xiàn)多模態(tài)助手。

LLM論文周報(bào)|來(lái)自谷歌、華為、斯坦福大學(xué)、香港大學(xué)等機(jī)構(gòu)前沿論文研究的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
前郭尔| 商城县| 绿春县| 海阳市| 桑植县| 互助| 铜山县| 牟定县| 阳高县| 鄄城县| 六盘水市| 广灵县| 钟祥市| 杭锦旗| 井陉县| 辽源市| 岑溪市| 慈利县| 梁平县| 阳江市| 西宁市| 定兴县| 祁连县| 南木林县| 新化县| 涿州市| 西宁市| 富阳市| 文水县| 德阳市| 扶绥县| 武清区| 邓州市| 杂多县| 图片| 汤原县| 新安县| 扶余县| 七台河市| 凤冈县| 凤翔县|