3月“ChatGPT”相關(guān)熱門論文-AMiner

過去的整個(gè)三月,可以說是“GPT"的三月,不管是學(xué)術(shù)圈、工業(yè)界人士、媒體、投資者、創(chuàng)業(yè)者們都在討論“GPT”。國(guó)外主要是圍繞著谷歌、Meta和OpenAI之間的競(jìng)爭(zhēng)話題,國(guó)內(nèi)則紛紛在討論誰(shuí)將會(huì)第一個(gè)打造中國(guó)版“ChatGPT”。
以下是3月份“ChatGPT"相關(guān)的熱門論文!(以下綜述內(nèi)容皆由AMiner基于大模型生成,對(duì)話可直接點(diǎn)擊論文鏈接)
A Survey of Large Language Models
Wayne Xin Zhao,Kun Zhou,Junyi Li,Tianyi Tang,Xiaolei Wang,Yupeng Hou,Yingqian Min,Beichen Zhang,Junjie Zhang,Zican Dong,Yifan Du,Chen Yang,Yushuo Chen,Zhipeng Chen,Jinhao Jiang,Ruiyang Ren,Yifan Li,Xinyu Tang,Zikang Liu,Peiyu Liu,Jian-Yun Nie,Ji-Rong Wen
這篇文章是關(guān)于大型語(yǔ)言模型(LLMs)的綜述。LLMs是由大規(guī)模語(yǔ)料庫(kù)預(yù)訓(xùn)練的Transformer模型,具有強(qiáng)大的自然語(yǔ)言處理能力。研究人員發(fā)現(xiàn),模型規(guī)模的增加可以提高模型性能,當(dāng)模型參數(shù)規(guī)模超過一定程度時(shí),LLMs不僅能夠顯著提高性能,還具有一些小型模型所不具備的特殊能力。文章介紹了LLMs的背景、主要技術(shù)和研究進(jìn)展,特別關(guān)注LLMs的預(yù)訓(xùn)練、調(diào)整、利用和容量評(píng)估等四個(gè)方面,并對(duì)開發(fā)LLMs的可用資源和未來研究方向進(jìn)行了總結(jié)。
論文鏈接:https://www.aminer.cn/pub/642a43bc90e50fcafd9b1555
DERA: Enhancing Large Language Model Completions with Dialog-Enabled Resolving Agents
Varun Nair,Elliot Schumacher,Geoffrey Tso,Anitha Kannan
這篇文章介紹了一種名為DERA的對(duì)話式解決方案,可使用大型語(yǔ)言模型GPT-4來進(jìn)行臨床任務(wù),如醫(yī)療會(huì)話摘要和護(hù)理計(jì)劃生成,并在人類專家參與的偏好評(píng)估和數(shù)量指標(biāo)中顯示出明顯的性能改善。并且作者還發(fā)現(xiàn),在MedQA問答數(shù)據(jù)集的開放式版本中,GPT-4的表現(xiàn)良好,DERA的性能也相似。文章的目的是增強(qiáng)大型語(yǔ)言模型的完成能力,并提高生成的結(jié)果的準(zhǔn)確性和完整性。
論文鏈接:https://www.aminer.cn/pub/64264f7a90e50fcafd68d7ac
Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning
Vladislav Lialin,Vijeta Deshpande,Anna Rumshisky
這篇論文提出了一種解決大型語(yǔ)言模型微調(diào)的不可行性和不切實(shí)際性的方法,即僅訓(xùn)練一小部分參數(shù)的參數(shù)有效微調(diào)方法,并對(duì)超過40篇相關(guān)論文進(jìn)行了系統(tǒng)概述和比較。文章介紹了廣泛的方法分類,并著重探討了現(xiàn)實(shí)效率和微調(diào)數(shù)十億規(guī)模的語(yǔ)言模型。
論文鏈接:https://www.aminer.cn/pub/6423ac7790e50fcafd55eaa0
Language Models can Solve Computer Tasks
Geunwoo Kim,Pierre Baldi,Stephen McAleer
這篇文章說明了一種名為“遞歸批判改進(jìn)”(RCI)的新方法可以使用自然語(yǔ)言命令指導(dǎo)預(yù)訓(xùn)練的大型語(yǔ)言模型代理執(zhí)行計(jì)算機(jī)任務(wù),并在MiniWoB++基準(zhǔn)測(cè)試中明顯優(yōu)于現(xiàn)有的LLM方法。RCI方法只需要每項(xiàng)任務(wù)的數(shù)十個(gè)示范,而不需要大量的專家演示和任務(wù)特定的獎(jiǎng)勵(lì)函數(shù),并且在增強(qiáng)學(xué)習(xí)和監(jiān)督學(xué)習(xí)方法上都表現(xiàn)出色,并可用于提高LLMs的推理能力。
論文鏈接:https://www.aminer.cn/pub/64264f7b90e50fcafd68dfd1
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
Yongliang Shen,Kaitao Song,Xu Tan,Dongsheng Li,Weiming Lu,Yueting Zhuang
文章介紹了如何利用大型語(yǔ)言模型(LLMs)來管理和整合已有的AI模型,從而解決復(fù)雜的AI任務(wù)。文章提出了HuggingGPT系統(tǒng),該系統(tǒng)利用ChatGPT作為控制器,連接不同的AI模型來解決不同領(lǐng)域和模態(tài)的AI任務(wù)。HuggingGPT系統(tǒng)利用ChatGPT的強(qiáng)大語(yǔ)言能力和HuggingFace中豐富的AI模型,能夠處理不同模態(tài)和領(lǐng)域的復(fù)雜AI任務(wù),并在語(yǔ)言理解、生成、交互、推理以及視覺、語(yǔ)音等多個(gè)方面取得了卓越的成果。文章的關(guān)注點(diǎn)在于如何利用語(yǔ)言模型作為整合AI模型的接口,以達(dá)到更高層次的人工智能水平。
論文鏈接:https://www.aminer.cn/pub/64264f7b90e50fcafd68e162
Training Language Models with Language Feedback at Scale
Jérémy Scheurer,Jon Ander Campos,Tomasz Korbak,Jun Shern Chan,Angelica Chen,Kyunghyun Cho,Ethan Perez
本文介紹了基于語(yǔ)言反饋的語(yǔ)言模型訓(xùn)練方法ILF,旨在解決預(yù)訓(xùn)練語(yǔ)言模型生成與人類偏好不符的輸出問題。ILF利用更具信息量的語(yǔ)言反饋,包含三個(gè)迭代步驟:首先,在輸入、初始輸出和反饋的基礎(chǔ)上,條件化語(yǔ)言模型生成細(xì)化。其次,選擇其中包含最多反饋意見的細(xì)化。第三,微調(diào)語(yǔ)言模型以最大化考慮輸入時(shí)所選擇的細(xì)化的可能性。實(shí)驗(yàn)證明,ILF的有效性在一個(gè)有控制的小規(guī)模任務(wù)和一個(gè)現(xiàn)實(shí)的摘要任務(wù)上都得到了驗(yàn)證,同時(shí)學(xué)習(xí)語(yǔ)言反饋和比較反饋的方法顯著優(yōu)于各自獨(dú)立使用的方法,達(dá)到了人類級(jí)別的摘要表現(xiàn)。
論文鏈接:https://www.aminer.cn/pub/6424fe3490e50fcafd78b7ee
Language Models Trained on Media Diets Can Predict Public Opinion
Eric Chu,Jacob Andreas,Stephen Ansolabehere,Deb Roy
這篇文章介紹了一種新的方法來預(yù)測(cè)公眾輿論,即通過訓(xùn)練語(yǔ)言模型來模擬特定群體對(duì)媒體內(nèi)容的反應(yīng)。研究表明,這種方法可以提高預(yù)測(cè)精度,有助于補(bǔ)充調(diào)查和預(yù)測(cè)公眾輿論,并提示需要進(jìn)一步研究神經(jīng)語(yǔ)言模型預(yù)測(cè)人類反應(yīng)的準(zhǔn)確性。
論文鏈接:https://www.aminer.cn/pub/6424fe3490e50fcafd78b853
TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
Yaobo Liang,Chenfei Wu,Ting Song,Wenshan Wu,Yan Xia,Yu Liu,Yang Ou,Shuai Lu,Lei Ji,Shaoguang Mao,Yun Wang,Linjun Shou,Ming Gong,Nan Duan
該文章中主要闡述了目前人工智能在解決一般任務(wù)上的進(jìn)展和基于特定領(lǐng)域數(shù)據(jù)的任務(wù)上的瓶頸,介紹了一個(gè)新的人工智能生態(tài)系統(tǒng)TaskMatrix.AI,旨在連接基礎(chǔ)模型和數(shù)百萬(wàn)API,以完成從數(shù)字到物理領(lǐng)域的各種不同任務(wù)。文章還闡述了該生態(tài)系統(tǒng)的組成部分和實(shí)現(xiàn)該愿景的主要挑戰(zhàn)。
論文鏈接:https://www.aminer.cn/pub/6424fe3390e50fcafd78b51d
BloombergGPT: A Large Language Model for Finance
Shijie Wu,Ozan Irsoy,Steven Lu,Vadim Dabravolski,Mark Dredze,Sebastian Gehrmann,Prabhanjan Kambadur,David Rosenberg,Gideon Mann
本文介紹了一種專門針對(duì)金融領(lǐng)域的大型語(yǔ)言模型,BloombergGPT,該模型使用了廣泛的金融數(shù)據(jù)進(jìn)行訓(xùn)練,并在標(biāo)準(zhǔn)的大型語(yǔ)言模型基準(zhǔn)測(cè)試、金融基準(zhǔn)測(cè)試以及內(nèi)部基準(zhǔn)測(cè)試中取得了較好的表現(xiàn)。同時(shí),文章還介紹了該模型的建模選擇、訓(xùn)練過程和評(píng)估方法,并計(jì)劃發(fā)布訓(xùn)練日志以進(jìn)一步分享經(jīng)驗(yàn)。文章表明,在金融科技領(lǐng)域中使用自然語(yǔ)言處理技術(shù)是廣泛而復(fù)雜的,并且仍然存在挑戰(zhàn)。
論文鏈接:https://www.aminer.cn/pub/64267642158fc30f5977f354
Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine Translation
Alex Jones,Isaac Caswell,Ishank Saxena,Orhan Firat
這篇文章探討了神經(jīng)機(jī)器翻譯在使用單語(yǔ)文本數(shù)據(jù)進(jìn)行無監(jiān)督翻譯時(shí),仍然存在諸多問題,尤其是在翻譯常見名詞方面。為解決這個(gè)問題,文章提出了一種廉價(jià)且充足的資源——雙語(yǔ)詞典來進(jìn)行數(shù)據(jù)增強(qiáng),從而提高翻譯質(zhì)量。文章通過實(shí)際測(cè)試表明,使用詞典數(shù)據(jù)增強(qiáng)可以顯著提高無監(jiān)督翻譯的性能,不同數(shù)據(jù)增強(qiáng)方法也可以相互結(jié)合以實(shí)現(xiàn)更好的效果,同時(shí),精心篩選的詞典的效果甚至優(yōu)于大而雜亂的詞典。最后,作者開源了一個(gè)針對(duì)26種低資源語(yǔ)言的多語(yǔ)言詞典GATITOS,并證明它在實(shí)驗(yàn)中表現(xiàn)最佳。
論文鏈接:https://www.aminer.cn/pub/64225b7e90e50fcafde15035
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models
Adyasha Maharana,Amita Kamath,Christopher Clark,Mohit Bansal,Aniruddha Kembhavi
這篇文章討論了統(tǒng)一視覺和語(yǔ)言模型在不同任務(wù)之間的一致性問題,并提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(COCOCON)和度量方法來評(píng)估模型的一致性。研究發(fā)現(xiàn),現(xiàn)有的模型在更異質(zhì)的任務(wù)中表現(xiàn)出更高的不一致性。最后,文章提出了使用基于排名相關(guān)性的輔助目標(biāo)來提高多任務(wù)一致性的方法,并保持模型在下游任務(wù)上的原始準(zhǔn)確度。
論文鏈接:https://www.aminer.cn/pub/6423ac7890e50fcafd55f0fc
Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases
Yunjie Ji,Yong Deng,Yan Gong,Yiping Peng,Qiang Niu,Lei Zhang,Baochang Ma,Xiangang Li
本文研究了大型語(yǔ)言模型在不同量級(jí)的指令數(shù)據(jù)下的性能表現(xiàn)。實(shí)驗(yàn)構(gòu)建了一個(gè)由12個(gè)主要在線使用案例組成的評(píng)估數(shù)據(jù)集,并使用Bloomz-7B1-mt作為基礎(chǔ)模型進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,僅增加指令數(shù)據(jù)量就能使開放生成等任務(wù)的性能持續(xù)提升,但對(duì)于數(shù)學(xué)和代碼等任務(wù),則是性能曲線保持相對(duì)平穩(wěn)。研究還分析了這些現(xiàn)象可能的原因,并提出了未來研究方向。該研究還將發(fā)布其訓(xùn)練和評(píng)估數(shù)據(jù)集以及模型檢查點(diǎn)。
論文鏈接:https://www.aminer.cn/pub/6423ac7890e50fcafd55f0fc
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
Renrui Zhang,Jiaming Han,Aojun Zhou,Xiangfei Hu,Shilin Yan,Pan Lu,Hongsheng Li,Peng Gao,Yu Qiao
該論文介紹了一種名為L(zhǎng)LaMA-Adapter的輕量級(jí)適應(yīng)方法,可以更有效地對(duì)LLaMA進(jìn)行微調(diào),將其轉(zhuǎn)變?yōu)橐粋€(gè)指令-following模型。使用52000個(gè)自我指導(dǎo)演示,LLaMA-Adapter只在凍結(jié)的LLaMA 7B模型上引入了1.2M可學(xué)習(xí)參數(shù),且在8個(gè)A100 GPU上微調(diào)時(shí)間不到一小時(shí)。具體而言,該方法采用可學(xué)習(xí)的適應(yīng)提示集,將其預(yù)置于輸入文本令牌的較高變壓器層中。然后,提出了一種零初始化注意機(jī)制,其中零門控適應(yīng)地將新的指令提示注入LLaMA,同時(shí)有效地保留其預(yù)訓(xùn)練的知識(shí)。通過高效的訓(xùn)練,LLaMA-Adapter生成了高質(zhì)量的響應(yīng),與全面微調(diào)7B參數(shù)的Alpaca相當(dāng)。此外,該方法還可以簡(jiǎn)單地?cái)U(kuò)展到多模態(tài)輸入,例如圖像,用于在ScienceQA中實(shí)現(xiàn)優(yōu)越的推理能力。作者已釋放了他們的代碼。
論文鏈接:https://www.aminer.cn/pub/6423ac7890e50fcafd55f26b
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
Fabrizio Gilardi,Meysam Alizadeh,Ma?l Kubli
這篇文章討論了在自然語(yǔ)言處理中進(jìn)行手動(dòng)數(shù)據(jù)注釋的問題及其解決方案。作者使用了一個(gè)樣本來證明,ChatGPT超過了眾包工人在幾個(gè)注釋任務(wù)上的表現(xiàn),包括相關(guān)性、態(tài)度、主題和框架檢測(cè)。ChatGPT的零-shot準(zhǔn)確率優(yōu)于眾包工人中的四項(xiàng)任務(wù),同時(shí),ChatGPT的編碼者間一致性在所有任務(wù)中均優(yōu)于眾包工人和專業(yè)注釋員。此外,ChatGPT的每個(gè)注釋成本不到0.003美元,是MTurk的大約二十倍便宜。這些結(jié)果表明了大型語(yǔ)言模型在文本分類效率方面的潛在作用。
論文鏈接:https://www.aminer.cn/pub/64225b7d90e50fcafde14d48
ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
Yunxiang Li,Zihan Li,Kai Zhang,Ruilong Dan,You Zhang
本文說明了當(dāng)前通用領(lǐng)域的大型語(yǔ)言模型在醫(yī)療領(lǐng)域中無法準(zhǔn)確診斷和推薦藥物等問題。為了解決這個(gè)問題,研究者們通過收集疾病及其癥狀、推薦藥物和必要的醫(yī)學(xué)檢查等信息,生成了5K個(gè)醫(yī)生-患者對(duì)話,通過對(duì)這些對(duì)話模型的微調(diào),提高了模型對(duì)于患者需求的理解、能夠提供有價(jià)值的建議,并為各種醫(yī)療相關(guān)領(lǐng)域提供了有價(jià)值的協(xié)助。此外,研究者們還開放了數(shù)據(jù)集、代碼和模型權(quán)重,以推動(dòng)醫(yī)學(xué)領(lǐng)域?qū)υ捘P偷倪M(jìn)一步發(fā)展。
論文鏈接:https://www.aminer.cn/pub/6421094d90e50fcafdb0302b
Scaling Expert Language Models with Unsupervised Domain Discovery
Suchin Gururangan,Margaret Li,Mike Lewis,Weijia Shi,Tim Althoff,Noah A. Smith,Luke Zettlemoyer
本文介紹了一種簡(jiǎn)單而有效的方法,可以異步訓(xùn)練大規(guī)模、稀疏的語(yǔ)言模型,并在推理時(shí)將它們組合成一個(gè)稀疏集合。這種方法通過自動(dòng)發(fā)現(xiàn)每個(gè)專家的域,將全局參數(shù)訓(xùn)練轉(zhuǎn)化為本地參數(shù)訓(xùn)練,從而減少了通信開銷,并在多個(gè)文集和少射擊任務(wù)中勝過密集基準(zhǔn)線。同時(shí),文章指出,將專家特定于有意義的集群是實(shí)現(xiàn)這些收益的關(guān)鍵。本方法的效率和可訪問性隨專家數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模的增加而提高,建議這是一種高效的訓(xùn)練大型語(yǔ)言模型的方法。
論文鏈接:https://www.aminer.cn/pub/6421094e90e50fcafdb032b5
Artificial muses: Generative Artificial Intelligence Chatbots Have Risen to Human-Level Creativity
Jennifer Haase,Paul H. P. Hanel
文章說明了通過對(duì)比人類生成的創(chuàng)意和六個(gè)生成式人工智能聊天機(jī)器人生成的創(chuàng)意,發(fā)現(xiàn)在創(chuàng)造力的質(zhì)量上,人工智能和人類沒有明顯的區(qū)別,雖然創(chuàng)意生成的方式有所不同。同時(shí),研究者還發(fā)現(xiàn),9.4%的人類比最有創(chuàng)意的一種人工智能GPT-4更有創(chuàng)意。文章認(rèn)為生成式人工智能可以成為創(chuàng)意過程中有價(jià)值的助手,但我們也需要進(jìn)一步研究和發(fā)展這種技術(shù)在創(chuàng)意任務(wù)中的潛在利益和缺陷,以及生成式人工智能是否具備真正的創(chuàng)造力。
論文鏈接:https://www.aminer.cn/pub/641a71fb90e50fcafd720364
MEGA: Multilingual Evaluation of Generative AI
Kabir Ahuja,Rishav Hada,Millicent Ochieng,Prachi Jain,Harshita Diddee,Samuel Maina,Tanuja Ganu,Sameer Segal,Maxamed Axmed,Kalika Bali,Sunayana Sitaram
文章說明了生成式人工智能模型(generative AI models)在自然語(yǔ)言處理中的表現(xiàn)令人印象深刻,但評(píng)估這些模型的能力和限制非常具有挑戰(zhàn)性,并且目前針對(duì)生成式大型語(yǔ)言模型(LLMs)的研究大多局限于英語(yǔ),在理解和生成其他語(yǔ)言方面的能力還不清楚,因此需要進(jìn)行全面評(píng)估和比較。作者提出了MEGA評(píng)估框架,涵蓋了8種不同類型的自然語(yǔ)言處理任務(wù)和33種語(yǔ)言,還將生成式LLMs的表現(xiàn)與SOTA非自回歸模型進(jìn)行了比較,提出了未來在多語(yǔ)言環(huán)境下進(jìn)一步提高生成式LLMs表現(xiàn)需要考慮的因素和方向。
論文鏈接:https://www.aminer.cn/pub/641bc38c90e50fcafdc14450
Catalyzing next-generation Artificial Intelligence through NeuroAI.
Anthony Zador,Sean Escola,Blake Richards,Bence ?lveczky,Yoshua Bengio,Kwabena Boahen,Matthew Botvinick,Dmitri Chklovskii,Anne Churchland,Claudia Clopath,James DiCarlo,Surya Ganguli,Jeff Hawkins,Konrad K?rding,Alexei Koulakov,Yann LeCun,Timothy Lillicrap,Adam Marblestone,Bruno Olshausen,Alexandre Pouget,Cristina Savin,Terrence Sejnowski,Eero Simoncelli,Sara Solla,David Sussillo,Andreas S Tolias,Doris TsaoLess
這篇文章討論了如何通過神經(jīng)科學(xué)和人工智能的結(jié)合來促進(jìn)下一代人工智能的發(fā)展,并提出了“具身圖靈測(cè)試”的概念,即讓人工智能模型能夠與感覺運(yùn)動(dòng)世界以類似于它們生物對(duì)應(yīng)物種的水平互動(dòng)。這個(gè)測(cè)試的目的是將人工智能研究從那些已經(jīng)發(fā)展得特別好或僅適用于人類的能力轉(zhuǎn)移到那些所有動(dòng)物都共享的能力上,以此為基礎(chǔ),為下一代的人工智能提供路線圖。
論文鏈接:https://www.aminer.cn/pub/641d7f7190e50fcafd62cdfb
Can AI-Generated Text be Reliably Detected?
Vinu Sankar Sadasivan,Aounon Kumar,Sriram Balasubramanian,Wenxiao Wang,Soheil Feizi
本文探討了如何可靠地檢測(cè)由人工智能生成的文本,因?yàn)槲词鼙O(jiān)管的使用可能導(dǎo)致惡意后果。最近的研究嘗試通過使用文本輸出中存在的特定模型簽名或應(yīng)用水印技術(shù)來解決這個(gè)問題。然而,本文經(jīng)過實(shí)驗(yàn)和理論分析發(fā)現(xiàn),這些檢測(cè)器在實(shí)際情況下都不可靠,并且即使是最好的檢測(cè)器也只能略微好于隨機(jī)分類器。此外,即使使用水印技術(shù)保護(hù)的大型語(yǔ)言模型也可能容易受到欺騙攻擊。這些結(jié)果表明,需要對(duì)人工智能生成文本的道德和可靠使用進(jìn)行誠(chéng)實(shí)的討論。
論文鏈接:https://www.aminer.cn/pub/6419209390e50fcafda93008
PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing
Xiaozhe Ren,Pingyi Zhou,Xinfan Meng,Xinjing Huang,Yadao Wang,Weichao Wang,Pengfei Li,Xiaoda Zhang,Alexander Podolskiy,Grigory Arshinov,Andrey Bout,Irina Piontkovskaya,Jiansheng Wei,Xin Jiang,Teng Su,Qun Liu,Jun Yao
本文介紹了利用Ascend 910 AI處理器和MindSpore框架訓(xùn)練了一個(gè)擁有1.085T參數(shù)的語(yǔ)言模型PanGu-{\Sigma}的系統(tǒng),并通過使用隨機(jī)路由專家(RRE)和專家計(jì)算和存儲(chǔ)分離(ECSS)等技術(shù),將密集Transformer模型擴(kuò)展為稀疏模型,從而在異構(gòu)計(jì)算中實(shí)現(xiàn)了6.3倍的訓(xùn)練吞吐量增加。實(shí)驗(yàn)結(jié)果表明,PanGu-{\Sigma}在零樣本學(xué)習(xí)各種中文NLP下游任務(wù)方面顯示了最先進(jìn)的性能,同時(shí)在開放領(lǐng)域?qū)υ?、問答、機(jī)器翻譯和代碼生成的應(yīng)用數(shù)據(jù)上表現(xiàn)出了強(qiáng)大的能力。
論文鏈接:https://www.aminer.cn/pub/6419208e90e50fcafda927c5
Sparks of Artificial General Intelligence: Early experiments with GPT-4
Sébastien Bubeck,Varun Chandrasekaran,Ronen Eldan,Johannes Gehrke,Eric Horvitz,Ece Kamar,Peter Lee,Yin Tat Lee,Yuanzhi Li,Scott Lundberg,Harsha Nori,Hamid Palangi,Marco Tulio Ribeiro,Yi Zhang
本文主要介紹了人工智能領(lǐng)域最新的語(yǔ)言模型 GPT-4,揭示了其能夠解決跨領(lǐng)域的新穎難題,且性能接近甚至超過人類水平。作者認(rèn)為,GPT-4 可能是一個(gè)早期的人工通用智能 (AGI) 系統(tǒng),但仍存在許多挑戰(zhàn)和限制,需要進(jìn)一步深入研究。同時(shí),本文也探討了這種新技術(shù)對(duì)社會(huì)的影響和未來的研究方向。
論文鏈接:https://www.aminer.cn/pub/64264f7a90e50fcafd68d7ac
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models
Tyna Eloundou,Sam Manning,Pamela Mishkin,Daniel Rock
該研究調(diào)查了生成式預(yù)訓(xùn)練變壓器(GPT)模型及其相關(guān)技術(shù)對(duì)美國(guó)勞動(dòng)力市場(chǎng)的潛在影響。通過一種新的評(píng)估標(biāo)準(zhǔn),結(jié)合人類專業(yè)知識(shí)和 GPT-4 的分類,評(píng)估工作崗位與 GPT 能力的對(duì)應(yīng)情況。研究發(fā)現(xiàn),約 80% 的美國(guó)勞動(dòng)力可能會(huì)受到 GPT 引進(jìn)的影響,他們的工作任務(wù)至少有 10% 可能會(huì)受到影響,而約 19% 的工人則可能看到至少 50% 的工作任務(wù)受到影響。這種影響涵蓋了所有工資水平,高收入工作可能面臨更大的風(fēng)險(xiǎn)。值得注意的是,影響并不僅限于近期生產(chǎn)率增長(zhǎng)較高的行業(yè)。研究得出結(jié)論:生成式預(yù)訓(xùn)練變壓器具有通用技術(shù)特征(GPTs),表明這些模型可能具有顯著的經(jīng)濟(jì)、社會(huì)和政策影響。
論文鏈接:https://www.aminer.cn/pub/6417d04b90e50fcafd8408ef
GPT-4 Technical Report
OpenAI
該文章介紹了GPT-4的技術(shù)報(bào)告,其中提到了該模型可以接受圖像和文本輸入,并生成文本輸出。該模型在某些專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中展現(xiàn)出了人類水平的表現(xiàn),包括在模擬的律師考試中得分達(dá)到了前10%的水平。該模型是基于Transformer的,預(yù)先訓(xùn)練來預(yù)測(cè)文檔中的下一個(gè)標(biāo)記。文章還提到了開發(fā)基礎(chǔ)架構(gòu)和優(yōu)化方法的重要性,以便能夠在廣泛的規(guī)模下實(shí)現(xiàn)可預(yù)測(cè)的行為。同時(shí),該模型的某些性能可以根據(jù)使用不到GPT-4計(jì)算能力的模型進(jìn)行準(zhǔn)確預(yù)測(cè)。
論文鏈接:https://www.aminer.cn/pub/641130e378d68457a4a2986f
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Chenfei Wu,Shengming Yin,Weizhen Qi,Xiaodong Wang,Zecheng Tang,Nan Duan
本文介紹了一個(gè)名為Visual ChatGPT的系統(tǒng),它結(jié)合了不同的視覺基礎(chǔ)模型,使用戶能夠通過發(fā)送和接收?qǐng)D像,以及提供復(fù)雜的視覺問題或視覺編輯指令來與ChatGPT交互。作者指出,雖然ChatGPT在語(yǔ)言方面具有出色的對(duì)話能力和推理能力,但它目前無法處理或生成來自視覺世界的圖像。因此,他們利用Visual Foundation Models的視覺理解和生成能力,設(shè)計(jì)了一系列提示,將視覺模型信息注入ChatGPT,實(shí)現(xiàn)了多步驟、多輸入輸出的協(xié)作。實(shí)驗(yàn)表明,Visual ChatGPT為研究ChatGPT在視覺方面的作用打開了大門。
論文鏈接:https://www.aminer.cn/pub/64094eeb90e50fcafd4785ad
Foundation Models for Decision Making: Problems, Methods, and Opportunities
Sherry Yang,Ofir Nachum,Yilun Du,Jason Wei,Pieter Abbeel,Dale Schuurmans
本文討論了基礎(chǔ)模型與決策制定之間的關(guān)系,并探討了使用不同方法使基礎(chǔ)模型與其他實(shí)體和代理進(jìn)行長(zhǎng)期推理的范例。它還介紹了最近的方法,并討論了該領(lǐng)域的共同挑戰(zhàn)和未解決的問題。該文強(qiáng)調(diào)了研究基礎(chǔ)模型與決策制定的交叉領(lǐng)域的潛力。
論文鏈接:https://www.aminer.cn/pub/6407fd3f90e50fcafd2748ac
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners
Renrui Zhang,Xiangfei Hu,Bohao Li,Siyuan Huang,Hanqiu Deng,Hongsheng Li,Yu Qiao,Peng Gao
本文介紹了一個(gè)名為CaFo的模型,它將多種預(yù)訓(xùn)練模型的先前知識(shí)級(jí)聯(lián)起來,以提高few-shot學(xué)習(xí)的效果。CaFo結(jié)合了CLIP的語(yǔ)言對(duì)比知識(shí)、DINO的視覺對(duì)比知識(shí)、DALL-E的視覺生成知識(shí)和GPT-3的語(yǔ)言生成知識(shí)。具體而言,CaFo通過“提示、生成、緩存”來工作。第一步,利用GPT-3生成豐富的下游語(yǔ)義輸入來提示CLIP。然后,通過DALL-E生成合成圖像來擴(kuò)展few-shot訓(xùn)練數(shù)據(jù)。最后,引入一個(gè)可學(xué)習(xí)的緩存模型來自適應(yīng)地融合CLIP和DINO的預(yù)測(cè)結(jié)果。通過這種協(xié)作方式,CaFo可以發(fā)揮不同預(yù)訓(xùn)練方法的潛力,并將它們統(tǒng)一為few-shot分類的最新技術(shù)。
論文鏈接:https://www.aminer.cn/pub/640559c790e50fcafddb5392
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback
Baolin Peng,Michel Galley,Pengcheng He,Hao Cheng,Yujia Xie,Yu Hu,Qiuyuan Huang,Lars Liden,Zhou Yu,Weizhu Chen,Jianfeng Gao
該論文介紹了使用外部知識(shí)和自動(dòng)反饋來改進(jìn)大型語(yǔ)言模型(LLMs)的方法,以解決LLMs在實(shí)際的任務(wù)中生成虛幻輸出和無法使用外部知識(shí)等問題。該研究提出了LLM-Augmenter系統(tǒng),該系統(tǒng)使用一組可插拔模塊來增強(qiáng)黑匣子LLM,使其生成基于外部知識(shí)的響應(yīng),同時(shí)使用實(shí)用函數(shù)(例如LLM生成響應(yīng)的事實(shí)得分)生成反饋來迭代地修訂LLM提示以改善模型響應(yīng)。該系統(tǒng)在兩種關(guān)鍵任務(wù)場(chǎng)景中進(jìn)行了實(shí)證驗(yàn)證,即面向任務(wù)的對(duì)話和開放領(lǐng)域問答,結(jié)果表明LLM-Augmenter顯著降低了ChatGPT的幻覺,同時(shí)保持了其響應(yīng)的流暢性和信息量。作者公開了源代碼和模型。
論文鏈接:https://www.aminer.cn/pub/63fc1f5090e50fcafda638cf
Language Is Not All You Need: Aligning Perception with Language Models
Shaohan Huang,Li Dong,Wenhui Wang,Yaru Hao,Saksham Singhal,Shuming Ma,Tengchao Lv,Lei Cui,Owais Khan Mohammed,Barun Patra,Qiang Liu,Kriti Aggarwal,Zewen Chi,Johan Bjorck,Vishrav Chaudhary,Subhojit Som,Xia Song,Furu Wei
本文介紹了一個(gè)名為Kosmos-1的多模態(tài)大型語(yǔ)言模型(MLLM),它可以感知多種模態(tài)、在上下文中(即少樣本學(xué)習(xí))學(xué)習(xí)和遵循指令(即零樣本學(xué)習(xí))。作者指出,多模態(tài)感知、行動(dòng)和世界建模的大集成是通向人工通用智能的重要步驟。實(shí)驗(yàn)結(jié)果表明,Kosmos-1在語(yǔ)言理解、生成,以及感知-語(yǔ)言任務(wù)(如對(duì)話、圖像說明、視覺問答)和視覺任務(wù)(如使用文本說明對(duì)圖像分類)等方面取得了令人印象深刻的成果。作者還介紹了一個(gè)診斷MLLM非語(yǔ)言推理能力的Raven IQ測(cè)試數(shù)據(jù)集,試圖將語(yǔ)言和多模態(tài)之間的知識(shí)互相轉(zhuǎn)移。因此,本文的主要問題是多模態(tài)大型語(yǔ)言模型的設(shè)計(jì)和應(yīng)用。
論文鏈接:https://www.aminer.cn/pub/63fd715f90e50fcafd1476d4
Larger language models do in-context learning differently
Jerry Wei,Jason Wei,Yi Tay,Dustin Tran,Albert Webson,Yifeng Lu,Xinyun Chen,Hanxiao Liu,Da Huang,Denny Zhou,Tengyu Ma
本文研究了語(yǔ)言模型在上下文學(xué)習(xí)(ICL)時(shí)受語(yǔ)義先驗(yàn)和輸入-標(biāo)簽映射的影響。通過在不同模型家族(GPT-3、InstructGPT、Codex、PaLM和Flan-PaLM)中進(jìn)行ICL實(shí)驗(yàn),發(fā)現(xiàn)模型規(guī)模對(duì)覆蓋語(yǔ)義先驗(yàn)的能力具有重要影響。較小的語(yǔ)言模型在ICL中會(huì)忽略上下文中的反轉(zhuǎn)標(biāo)簽,主要依賴于預(yù)訓(xùn)練的語(yǔ)義先驗(yàn),而較大的模型可以在收到與先驗(yàn)相矛盾的上下文示例時(shí)覆蓋語(yǔ)義先驗(yàn)。此外,本文還研究了SUL-ICL,即標(biāo)簽與輸入無關(guān)的ICL,發(fā)現(xiàn)只有足夠大的語(yǔ)言模型才能學(xué)習(xí)輸入-標(biāo)簽映射并執(zhí)行任務(wù)。最后,本文還研究了指令調(diào)優(yōu)模型,并發(fā)現(xiàn)指令調(diào)優(yōu)可增強(qiáng)使用語(yǔ)義先驗(yàn)和學(xué)習(xí)輸入-標(biāo)簽映射的能力,但以前者更為明顯。
論文鏈接:https://www.aminer.cn/pub/6407fd3e90e50fcafd274681