整理了14篇大模型推理最新論文分享!涵蓋多模態(tài)推理、邏輯推理、數(shù)學(xué)推理
大模型推理技術(shù)的發(fā)展幫我們解決了許多的難題,但如今的大模型在復(fù)雜推理上的表現(xiàn)仍然欠佳,為了突破這一瓶頸,研究者們提出了許多創(chuàng)新性的方法。
學(xué)姐整理了其中一部分個人認(rèn)為很值得學(xué)習(xí)的論文來和大家分享,涵蓋多模態(tài)推理、邏輯推理、數(shù)學(xué)推理三個細(xì)分方向,幫助同學(xué)們快速了解這一領(lǐng)域的最新研究進(jìn)展。
目前共有14篇,篇幅原因只做簡單介紹,需要論文及源代碼的同學(xué)看這里↓
掃碼添加小享,回復(fù)“推理”
免費領(lǐng)取全部論文及源代碼合集

綜述(3篇)
Reasoning with Language Model Prompting: A Survey
使用語言模型提示進(jìn)行推理
簡述:思維推理是復(fù)雜問題解決的基本能力,可以為各種實際應(yīng)用提供支持,如醫(yī)學(xué)診斷、談判等。本文全面綜述了使用語言模型提示進(jìn)行推理的前沿研究,介紹了各項研究工作及其比較和總結(jié),并提供了系統(tǒng)的資源幫助初學(xué)者。另外,論文還討論了推理能力出現(xiàn)的潛在原因,并強調(diào)了未來的研究方向。

A Survey of Deep Learning for Mathematical Reasoning
數(shù)學(xué)推理的深度學(xué)習(xí)概述
簡述:數(shù)學(xué)推理是人工智能一個關(guān)鍵而富有挑戰(zhàn)性的研究方向。近年來,深度學(xué)習(xí)技術(shù)在數(shù)學(xué)推理任務(wù)上取得了長足進(jìn)展,使我們更近一步地理解機器如何進(jìn)行邏輯思維。本文綜述了深度學(xué)習(xí)在數(shù)學(xué)推理領(lǐng)域的最新研究進(jìn)展,包括關(guān)鍵的任務(wù)設(shè)置、數(shù)據(jù)集、模型方法等,并討論了當(dāng)前的挑戰(zhàn)與未來研究方向。

Towards Reasoning in Large Language Models: A Survey
邁向大語言模型的推理:綜述
簡述:推理是人類智能的基本要素,在問題解決、決策制定和批判性思維等活動中發(fā)揮著關(guān)鍵作用。近年來,大規(guī)模語言模型在自然語言處理任務(wù)上的進(jìn)步給人帶來了它們可能具有推理能力的觀察。但是,這些模型的推理能力到底有多強還不得而知。本文全面概述了大語言模型推理能力相關(guān)研究的當(dāng)前狀況,包括提高和激發(fā)這些模型推理能力的技術(shù),評估推理能力的方法和基準(zhǔn),以前研究的發(fā)現(xiàn)和啟示,以及未來研究方向的建議。

多模態(tài)推理(4篇)
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues
基于前提的多模態(tài)推理:文本和視覺線索的條件推斷
簡述:最近的視覺語言跨模態(tài)推理研究,通常只給模型輸入圖像和文本查詢,要求模型無條件地進(jìn)行推理。論文認(rèn)為這種做法存在局限,因為沒有給出明確的前提背景。所以作者提出了一個新的基于前提的多模態(tài)推理任務(wù),為每個圖像設(shè)置一個文本前提作為推理的背景假設(shè)。論文構(gòu)建了相應(yīng)的多模態(tài)推理數(shù)據(jù)集,通過多階段眾包實現(xiàn)了高質(zhì)量的標(biāo)注。在這個數(shù)據(jù)集上,作者測試了各種多模態(tài)推理模型的性能。

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering
科學(xué)問題回答中的思維鏈多模態(tài)推理
簡述:最近,科學(xué)問題基準(zhǔn)被用來診斷人工智能系統(tǒng)的多步推理能力和可解釋性。但是,現(xiàn)有數(shù)據(jù)集未提供答案注釋,或僅限于文本模式,規(guī)模小,領(lǐng)域有限。為此,,論文提出了ScienceQA,一個包含約21000個多模態(tài)多項選擇科學(xué)問題及對應(yīng)答案、講解和解釋注釋的數(shù)據(jù)集。作者進(jìn)一步設(shè)計語言模型來生成講解和解釋作為思維鏈,以模擬回答ScienceQA問題時的多步推理過程。

掃碼添加小享,回復(fù)“推理”
免費領(lǐng)取全部論文及源代碼合集

STaR: Bootstrapping Reasoning With Reasoning
通過推理引導(dǎo)推理
簡述:論文提出一個讓語言模型通過自己生成的推理鏈來逐步提高復(fù)雜推理能力的方法。該方法包含兩個步驟:第一步是用少量樣本提示語言模型生成回答問題的推理鏈。第二步是檢查生成的推理鏈?zhǔn)欠裾_,如果錯誤,讓模型根據(jù)正確答案重新生成推理鏈,然后用所有正確的推理鏈微調(diào)模型。反復(fù)上述步驟,模型就可以從自己生成的推理中學(xué)習(xí),逐步提高復(fù)雜推理能力。

From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-Answering
面向視頻問答的證據(jù)與常識推理
簡述:論文提出新的視頻問答任務(wù)Causal-VidQA,包含從描述到證據(jù)推理和常識推理的四類問題,目標(biāo)是推進(jìn)視頻理解從表示學(xué)習(xí)到深層推理。結(jié)果顯示現(xiàn)有視頻問答方法在描述很強,但推理很弱。新任務(wù)可以評估方法的推理能力,引導(dǎo)視頻理解研究發(fā)展。

邏輯推理(3篇)
Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought
推理鏈的系統(tǒng)形式分析
簡述:作者通過構(gòu)建新的合成問答數(shù)據(jù)集,形式化分析了大型語言模型的推理能力。結(jié)果發(fā)現(xiàn),這些模型可以正確進(jìn)行個別的推理步驟,總體上具備一定的推理能力。但是當(dāng)需要在多個推理路徑中進(jìn)行選擇時,語言模型表現(xiàn)出推理規(guī)劃上的困難。這說明目前的語言模型更依賴貪心進(jìn)行局部推理,而非全局規(guī)劃推理鏈。這一結(jié)論有助于揭示語言模型推理能力的局限,為進(jìn)一步提高其復(fù)雜推理能力提供指導(dǎo)。

FOLIO: Natural Language Reasoning with First-Order Logic
用一階邏輯進(jìn)行自然語言推理
簡述:FOLIO是一個開放域的自然語言推理數(shù)據(jù)集,包含人工標(biāo)注的一階邏輯形式。該數(shù)據(jù)集可以用來系統(tǒng)評估語言模型在一階邏輯推理任務(wù)上的能力。研究結(jié)果顯示,即使是目前最強大的語言模型GPT-3,其在FOLIO數(shù)據(jù)集上的零樣本推理表現(xiàn)也僅略優(yōu)于隨機猜測。這說明當(dāng)前的語言模型在邏輯推理方面仍存在很大局限性。

Language Models as Inductive Reasoners
語言模型作為歸納推理器
簡述:最近的研究表明,預(yù)訓(xùn)練語言模型具有進(jìn)行歸納推理的能力。論文提出了一個新的框架,使用自然語言而不是邏輯語言來表示知識,并使用預(yù)訓(xùn)練語言模型作為“推理器”。通過構(gòu)建自然語言事實和規(guī)則的數(shù)據(jù)集,作者分析了語言模型從自然語言事實中歸納規(guī)則的能力。實驗結(jié)果顯示,與其他方法相比,該框架可以更好地進(jìn)行自然語言歸納推理。這表明預(yù)訓(xùn)練語言模型是一個有效的通用歸納推理器。
數(shù)學(xué)推理(4篇)
PAL: Program-aided Language Models
PAL:程序輔助語言模型
簡述:論文提出了程序輔助語言模型(PAL):一種新方法,使用LLM讀取自然語言問題并生成程序作為中間推理步驟,但將解決步驟交給運行時環(huán)境如Python解釋器。在PAL中,將自然語言問題分解成可運行步驟仍然是LLM的唯一學(xué)習(xí)任務(wù),而解決則委托給解釋器。該方法在13個數(shù)學(xué)、符號和算法推理任務(wù)上展示了神經(jīng)LLM和符號解釋器之間的協(xié)同效應(yīng)。
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks
NumGLUE:一個包含基礎(chǔ)且富有挑戰(zhàn)性的數(shù)學(xué)推理任務(wù)的測試集
簡述:論文提出了一個名為NumGLUE的算術(shù)推理基準(zhǔn)測試,用來評估AI在簡單計算任務(wù)上的能力。該測試包含8個不同的任務(wù),都需要對數(shù)字進(jìn)行簡單的推理。研究發(fā)現(xiàn),目前的神經(jīng)網(wǎng)絡(luò)模型在這個基準(zhǔn)測試上的表現(xiàn)遠(yuǎn)遠(yuǎn)落后于人類,顯示它們在數(shù)字推理方面的能力還很脆弱。

LILA: A Unified Benchmark for Mathematical Reasoning
LILA: 數(shù)學(xué)推理任務(wù)的統(tǒng)一基準(zhǔn)
簡述:論文提出了LILA,一個統(tǒng)一的數(shù)學(xué)推理基準(zhǔn)測試,它包含各種不同類型、難度不等的數(shù)學(xué)任務(wù),可以全面評估AI系統(tǒng)在數(shù)學(xué)推理方面的能力。測試結(jié)果顯示,當(dāng)前最先進(jìn)的AI模型在LILA基準(zhǔn)上的表現(xiàn)仍遠(yuǎn)遠(yuǎn)落后于人類。這說明AI的數(shù)學(xué)推理能力還有很大提升空間。
ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering
對話式金融問答中數(shù)值推理鏈的探索
簡述:ConvFinQA是一個針對對話式金融問答的大規(guī)模數(shù)據(jù)集,目的是研究對話中多步數(shù)值推理的能力。該數(shù)據(jù)集包含真實世界的復(fù)雜金融對話,需要模型進(jìn)行長程復(fù)雜的數(shù)值推理。作者使用這一數(shù)據(jù)集,測試了神經(jīng)符號方法和提示學(xué)習(xí)方法在對話式問答中的推理能力,結(jié)果表明,進(jìn)行復(fù)雜實際推理仍然是一個巨大的挑戰(zhàn)。
掃碼添加小享,回復(fù)“推理”
免費領(lǐng)取全部論文及源代碼合集
