GPT-4學(xué)透了?精選42篇大模型技術(shù)原理與應(yīng)用論文分享給你!
在今年各大頂會(huì)的獲獎(jiǎng)?wù)撐闹?,大模型方向?qū)覒?zhàn)頭籌,這不難預(yù)料,自O(shè)penAI發(fā)布ChatGPT至今,全球大模型熱潮尚未停息,國(guó)內(nèi)外已有相當(dāng)多的大模型陸續(xù)出現(xiàn),有些大模型的功能甚至不輸ChatGPT。
在大模型“封神”的這段時(shí)間,相關(guān)的論文數(shù)量也十分可觀,今天就精選了部分論文來和大家分享!
目前整理了42篇大模型論文,論文原文以及開源代碼也都一并打包了,需要的同學(xué)看這里??????
掃碼添加小享,回復(fù)“LLM精選”??
免費(fèi)獲取全部論文+代碼合集

通用、垂直領(lǐng)域大模型論文+項(xiàng)目
1、Financial News Analytics Using Fine-Tuned Llama 2 GPT Model(金融)
標(biāo)題:用精調(diào)的Llama 2 GPT模型進(jìn)行金融新聞分析
內(nèi)容:該文探討了通過精調(diào)Llama 2大語言模型來進(jìn)行金融新聞多任務(wù)分析的可能性,使用了基于PEFT/LoRA的精調(diào)方法,使模型能夠從金融市場(chǎng)角度分析文本、突出文本要點(diǎn)、文本摘要和提取帶有情感的命名實(shí)體,結(jié)果顯示精調(diào)后的模型可以進(jìn)行指定響應(yīng)結(jié)構(gòu)的金融新聞多任務(wù)分析,響應(yīng)的一部分可以是結(jié)構(gòu)化文本 another part can have JSON格式用于進(jìn)一步處理,命名實(shí)體的提取情感可以作為帶定量目標(biāo)變量的監(jiān)督學(xué)習(xí)模型的預(yù)測(cè)特征。
2、BloombergGPT: A Large Language Model for Finance(金融)
標(biāo)題:BloombergGPT:面向金融領(lǐng)域的大規(guī)模語言模型
內(nèi)容:該工作提出了BloombergGPT,這是一個(gè)在大規(guī)模金融數(shù)據(jù)上預(yù)訓(xùn)練的包含500億參數(shù)的金融領(lǐng)域語言模型,構(gòu)建了3630億字的金融領(lǐng)域數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,在標(biāo)準(zhǔn)語言模型基準(zhǔn)測(cè)試、公開的金融基準(zhǔn)測(cè)試集以及內(nèi)部基準(zhǔn)測(cè)試集上進(jìn)行評(píng)估,結(jié)果顯示該模型在金融任務(wù)上的表現(xiàn)顯著優(yōu)于現(xiàn)有模型,而且在通用語言模型任務(wù)上的表現(xiàn)也沒有下降,提供了模型訓(xùn)練和評(píng)估方面的細(xì)節(jié)。
3、FinBERT: A Large Language Model for Extracting Information from Financial Text*(金融)
標(biāo)題:FinBERT: 用于從金融文本中提取信息的大規(guī)模語言模型*
內(nèi)容:FinBERT是一個(gè)針對(duì)金融領(lǐng)域進(jìn)行預(yù)訓(xùn)練的先進(jìn)語言模型,能夠更好地總結(jié)金融文本的上下文信息,在情感分類任務(wù)上明顯優(yōu)于現(xiàn)有方法,特別是在訓(xùn)練樣本少和包含金融專業(yè)詞匯的文本上,還在ESG相關(guān)性識(shí)別和盈利電話會(huì)議的文本信息量評(píng)估任務(wù)上也優(yōu)于其他模型,對(duì)學(xué)術(shù)研究、投資專業(yè)人員和監(jiān)管機(jī)構(gòu)都具有啟發(fā)意義。
4、PMC-LLaMA: Towards Building Open-source Language Models for Medicine(醫(yī)療)
標(biāo)題:PMC-LLaMA:構(gòu)建開源的醫(yī)學(xué)語言模型
內(nèi)容:該工作構(gòu)建了面向醫(yī)學(xué)應(yīng)用的開源語言模型PMC-LLaMA,通過整合480萬篇生物醫(yī)學(xué)論文和3萬本醫(yī)學(xué)教科書進(jìn)行知識(shí)注入,并在大規(guī)模醫(yī)學(xué)問答、推理和對(duì)話數(shù)據(jù)集上進(jìn)行全面調(diào)優(yōu),在多個(gè)公開醫(yī)學(xué)問答基準(zhǔn)測(cè)試上優(yōu)于ChatGPT等模型,為醫(yī)學(xué)領(lǐng)域帶來了轉(zhuǎn)換器和預(yù)訓(xùn)練語言模型的強(qiáng)大能力。

5、Ngambay-French Neural Machine Translation (sba-Fr)(翻譯)
標(biāo)題:Ngambay語-法語神經(jīng)機(jī)器翻譯(sba-Fr)
內(nèi)容:該工作通過構(gòu)建首個(gè)Ngambay語-法語平行語料庫,并在該數(shù)據(jù)集上微調(diào)三種預(yù)訓(xùn)練模型,實(shí)現(xiàn)了中非共和國(guó)少數(shù)語言Ngambay語到法語的首個(gè)端到端神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),為非洲低資源語言的機(jī)器翻譯研究提供了參考。
6、LLaMA: Open and Efficient Foundation Language Models(Meta)
標(biāo)題:LLaMA:開放高效的基礎(chǔ)語言模型
內(nèi)容:作者提出了LLaMA系列開源語言模型,模型規(guī)模從7B到65B參數(shù)不等,在公開可訪問的數(shù)據(jù)集上進(jìn)行訓(xùn)練,無需使用專有數(shù)據(jù)集,取得了超越GPT-3在多數(shù)基準(zhǔn)測(cè)試上的結(jié)果,LLaMA-65B與當(dāng)前最優(yōu)秀的模型Chinchilla-70B和PaLM-540B具有競(jìng)爭(zhēng)力。
7、Alpaca: A Strong, Replicable Instruction-Following Model(Stanford)
標(biāo)題:Alpaca:一個(gè)強(qiáng)大的、可復(fù)制的遵循指示的模型
內(nèi)容:作者基于LLaMA 7B模型在5.2萬個(gè)遵循指示示例上微調(diào)得到Alpaca 7B模型,在單輪遵循指示任務(wù)上,Alpaca質(zhì)量類似于OpenAI的text-davinci-003模型,但模型規(guī)模遠(yuǎn)小于后者,復(fù)現(xiàn)成本也低得多(小于600美元)。
8、GLM: General Language Model Pretraining with Autoregressive Blank Infilling(清華)
標(biāo)題:利用自回歸空白填充進(jìn)行通用語言模型預(yù)訓(xùn)練
內(nèi)容:本文提出了一種基于自回歸空白填充的通用語言模型(GLM),通過在空白填充預(yù)訓(xùn)練中添加2D位置編碼和任意順序預(yù)測(cè)文本片段,GLM在自然語言理解任務(wù)上優(yōu)于BERT和T5。同時(shí),通過改變空白的數(shù)量和長(zhǎng)度,GLM可以針對(duì)不同任務(wù)進(jìn)行預(yù)訓(xùn)練。在各類自然語言理解、有條件和無條件生成任務(wù)上,GLM優(yōu)于BERT、T5和GPT,并在單一預(yù)訓(xùn)練模型中實(shí)現(xiàn)了BERT-Large模型參數(shù)量1.25倍情況下在不同下游任務(wù)上的最佳性能,展示了其對(duì)各類任務(wù)的適用性。

9、GPT-4 Technical Report(OpenAI)
標(biāo)題:GPT-4 技術(shù)報(bào)告
內(nèi)容:這篇也不需要額外介紹了吧(doge)
掃碼添加小享,回復(fù)“LLM精選”??
免費(fèi)獲取全部論文+代碼合集

精選論文(模型應(yīng)用/評(píng)估、預(yù)訓(xùn)練、多模態(tài)、結(jié)構(gòu)改進(jìn)等)
1、Giraffe: Adventures in Expanding Context Lengths in LLMs
2、AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents
3、SeamlessM4T-Massively Multilingual & Multimodal Machine Translation
4、Instruction Tuning for Large Language Models: A Survey
5、SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
6、Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models
7、Assessing Keyness using Permutation Tests
8、SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts
9、Multivariate Time Series Anomaly Detection: Fancy Algorithms and Flawed Evaluation Methodology
10、VEIL: Vetting Extracted Image Labels from In-the-Wild Captions for Weakly-Supervised Object Detection
11、Open Gaze: An Open-Source Implementation Replicating Google's Eye Tracking Paper
12、Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering
13、Causal Parrots: Large Language Models May Talk Causality But Are Not Causal
14、A Survey of Diffusion Based Image Generation Models: Issues and Their Solutions
15、Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models
16、LLM2KB: Constructing Knowledge Bases using instruction tuned context aware Large Language Models
17、ChatGPT as Data Augmentation for Compositional Generalization: A Case Study in Open Intent Detection
18、COCO: Testing Code Generation Systems via Concretized Instructions
19、ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance
20、ZeroLeak: Using LLMs for Scalable and Cost Effective Side-Channel Patching
21、Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
22、The Poison of Alignment
23、Code Llama: Open Foundation Models for Code
24、Approximating Online Human Evaluation of Social Chatbots with Prompting
25、Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity
26、A Control Flow based Static Analysis of GRAFCET using Abstract Interpretation
27、To Spike or Not To Spike: A Digital Hardware Perspective on Deep Learning Acceleration
28、Bayesian low-rank adaptation for large language models
29、Domain-specific ChatBots for Science using Embeddings
30、ChatHaruhi: Reviving Anime Character in Reality via Large Language Model
31、ProAgent: Building Proactive Cooperative AI with Large Language Models
32、A Survey on Large Language Model based Autonomous Agents
33、Graph of Thoughts: Solving Elaborate Problems with Large Language Models
掃碼添加小享,回復(fù)“LLM精選”??
免費(fèi)獲取全部論文+代碼合集
