散文網(wǎng) » 生活 »日常 » 大模型工具學(xué)習(xí)權(quán)威綜述，BMTools 背后的論文！

大模型工具學(xué)習(xí)權(quán)威綜述，BMTools 背后的論文！

2023-04-24 22:29 作者:OpenBMB 0人讀過 | 我要投稿

近期，來自清華大學(xué)、中國人民大學(xué)、北京郵電大學(xué)、UIUC、NYU、CMU等高校的研究人員聯(lián)合 OpenBMB開源社區(qū)、知乎、面壁智能公司探索了基礎(chǔ)模型調(diào)用外部工具的課題，聯(lián)合發(fā)表了一篇74頁的?基礎(chǔ)模型工具學(xué)習(xí)?綜述論文，并發(fā)布了?開源工具學(xué)習(xí)平臺(tái)。該團(tuán)隊(duì)提出了基礎(chǔ)模型工具學(xué)習(xí)的概念，系統(tǒng)性地整理和闡述了其?技術(shù)框架，同時(shí)展示了未來可能面臨的?機(jī)遇和挑戰(zhàn)。這項(xiàng)研究對(duì)于了解基礎(chǔ)模型工具學(xué)習(xí)的最新進(jìn)展及其未來發(fā)展趨勢具有重要價(jià)值。

????論文鏈接???：https://arxiv.org/abs/2304.08354

????BMTools 工具包 ??：https://github.com/OpenBMB/BMTools

????工具學(xué)習(xí)論文列表???：https://github.com/thunlp/ToolLearningPapers

?研究背景?

—

近年來，基礎(chǔ)模型（Foundation Model）在自然語言處理、計(jì)算機(jī)視覺、生物學(xué)等諸多領(lǐng)域展現(xiàn)出驚人的應(yīng)用價(jià)值，持續(xù)刷新各類下游任務(wù)的效果上限?；A(chǔ)模型通過預(yù)訓(xùn)練過程中積累的豐富世界知識(shí)，在復(fù)雜交互環(huán)境中展現(xiàn)出了非凡的推理與決策能力，并能與現(xiàn)實(shí)世界進(jìn)行緊密交互。尤其是最近誕生的 ChatGPT 和 GPT-4，更是彰顯了基礎(chǔ)模型在理解人類意圖、自動(dòng)化復(fù)雜過程、解讀多模態(tài)信息等方面的巨大潛力。

盡管基礎(chǔ)模型在很多方面取得了顯著的成果，但在特定領(lǐng)域的任務(wù)上，仍然存在一定的局限性。這些任務(wù)往往需要專業(yè)化的工具或領(lǐng)域知識(shí)才能有效解決。以金融領(lǐng)域?yàn)槔?，基礎(chǔ)模型雖然可以在自然語言處理和風(fēng)險(xiǎn)評(píng)估上發(fā)揮作用，但在證券交易和金融市場預(yù)測等領(lǐng)域，卻需要更為專業(yè)的工具和領(lǐng)域知識(shí)來應(yīng)對(duì)特定問題。整合專用工具與基礎(chǔ)模型可以充分發(fā)揮各自獨(dú)特優(yōu)勢。專用工具可?解決模型時(shí)效性不足的問題、增強(qiáng)專業(yè)知識(shí)、提高可解釋性和魯棒性。而基礎(chǔ)模型在理解復(fù)雜數(shù)據(jù)和場景方面?具備類人的推理規(guī)劃能力，進(jìn)而與現(xiàn)實(shí)世界交互。

團(tuán)隊(duì)認(rèn)為，基礎(chǔ)模型需要具備調(diào)用各種專業(yè)化工具的能力，這樣才能為現(xiàn)實(shí)世界任務(wù)提供更為全面的支持。將二者結(jié)合就能充分發(fā)揮各自的優(yōu)勢，將復(fù)雜工具的使用平民化，降低新用戶門檻，充分釋放創(chuàng)造力。那么，如何將基礎(chǔ)模型與專業(yè)化工具相結(jié)合，共同打造更強(qiáng)大、高效的解決方案呢？

工具學(xué)習(xí)范式旨在結(jié)合專有工具與基礎(chǔ)模型的優(yōu)勢

團(tuán)隊(duì)總結(jié)并提出了新的范式：基礎(chǔ)模型工具學(xué)習(xí)。這一范式的核心在于將專業(yè)工具與基礎(chǔ)模型的優(yōu)勢相融合，以在問題解決方面達(dá)到更高的準(zhǔn)確性、效率和自主性。近期的研究成果揭示，基礎(chǔ)模型在運(yùn)用工具方面表現(xiàn)出了顯著的靈活性和精細(xì)操作能力，這為該范式的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。

工具增強(qiáng)學(xué)習(xí)通過工具的執(zhí)行結(jié)果來增強(qiáng)基礎(chǔ)模型、輔助內(nèi)容生成；工具導(dǎo)向?qū)W習(xí)專注于利用模型來管理工具并代替人類進(jìn)行序列決策

工具學(xué)習(xí)是指讓模型能夠理解和使用各種工具來完成任務(wù)的學(xué)習(xí)過程。從學(xué)習(xí)目標(biāo)的角度來看，現(xiàn)有工具學(xué)習(xí)主要可以分為兩類：

工具增強(qiáng)學(xué)習(xí)（Tool-augmented Learning），利用各種工具的執(zhí)行結(jié)果，增強(qiáng)基礎(chǔ)模型性能。在這一范式中，工具執(zhí)行結(jié)果被視為輔助生成高質(zhì)量輸出的外部資源。
工具導(dǎo)向?qū)W習(xí)（Tool-oriented Learning），將學(xué)習(xí)過程重點(diǎn)從增強(qiáng)模型性能轉(zhuǎn)向工具執(zhí)行本身。這一類研究關(guān)注開發(fā)能夠代替人類控制工具并進(jìn)行序列決策的模型。

上述兩類方法的核心差異在于學(xué)習(xí)過程的側(cè)重點(diǎn)，即通過工具執(zhí)行來增強(qiáng)基礎(chǔ)模型（工具為AI服務(wù)）或者通過基礎(chǔ)模型優(yōu)化工具的使用（AI為工具服務(wù)）。在這篇綜述中，團(tuán)隊(duì)提出了統(tǒng)一這兩類方法的工具學(xué)習(xí)框架，對(duì)兩者進(jìn)行了統(tǒng)一。

工具學(xué)習(xí)框架?

—

工具學(xué)習(xí)整體框架，呈現(xiàn)了人類用戶和四個(gè)核心成分：工具集、控制器、感知器、環(huán)境

一個(gè)通用的工具學(xué)習(xí)框架包含?人類用戶?和?四個(gè)關(guān)鍵組成部分：工具集、控制器、感知器和環(huán)境：

工具集（Tool Set）：可供模型使用的各種工具。從交互接口的視角可以分為三類：基于物理交互的工具、基于GUI交互的工具、基于程序交互的工具。
控制器（Controller）：通常使用基礎(chǔ)模型建模，負(fù)責(zé)接收用戶的指令，并根據(jù)這些指令制定可執(zhí)行的計(jì)劃并調(diào)用工具執(zhí)行
感知器（Perceiver）：負(fù)責(zé)接收來自環(huán)境和用戶的反饋信息，并將其匯總給控制器。
環(huán)境（Environment）：模型所處的場景，包括物理環(huán)境和虛擬環(huán)境等。

從用戶界面的角度對(duì)工具進(jìn)行分類：（a）基于物理交互的工具，（b）基于圖形用戶界面交互的工具，和（c）基于程序交互的工具

在該框架中，模型負(fù)責(zé)理解用戶指令，將復(fù)雜任務(wù)分解為若干子任務(wù)，并通過推理動(dòng)態(tài)調(diào)整計(jì)劃，最終調(diào)用合適的工具完成每個(gè)子任務(wù)。為了有效地利用工具，必須考慮其物理特性、與控制器的關(guān)系以及周圍環(huán)境。因此，工具學(xué)習(xí)框架是通過強(qiáng)調(diào)所有這些組件之間的相互作用來設(shè)計(jì)的。

整個(gè)過程從用戶指令開始，接收到指令后，由基礎(chǔ)模型支持的控制器被激活來響應(yīng)用戶，并為該指令制定計(jì)劃并執(zhí)行工具與環(huán)境進(jìn)行交互；工具執(zhí)行可能導(dǎo)致環(huán)境發(fā)生變化，感知器捕捉這些變化并將信息反饋給控制器，進(jìn)行新一輪的工具執(zhí)行；人類也可以提供反饋來糾正或協(xié)助控制器的決策。經(jīng)過多輪工具執(zhí)行后，實(shí)現(xiàn)用戶需求；最后，控制器可以將工具返回的信息總結(jié)給用戶。

?????形式化定義?

關(guān)鍵研究問題?

—

研究團(tuán)隊(duì)指出了工具學(xué)習(xí)領(lǐng)域的一系列重點(diǎn)研究問題：

?????意圖理解?

控制器需要理解用戶所給出的自然語言指令，識(shí)別其對(duì)應(yīng)的任務(wù)目標(biāo)。意圖理解在現(xiàn)實(shí)工具學(xué)習(xí)應(yīng)用場景中仍存在著諸多挑戰(zhàn)：（1）指令模糊問題：用戶給出的指令很有可能是不精確甚至多義的。（2）指令多樣問題：用戶給出的指令天然具有個(gè)性化和多樣性。

?????工具理解?

控制器使用工具的前提是理解工具的功能與使用方式。人類在學(xué)習(xí)使用工具時(shí)通常會(huì)有兩種途徑，一是從工具的說明書或是教程中學(xué)習(xí)；二是通過觀察其它人使用工具的過程來學(xué)習(xí)。類似的，現(xiàn)有工具學(xué)習(xí)工作通常采用兩種提示學(xué)習(xí)技術(shù)實(shí)現(xiàn)工具理解：零樣本提示學(xué)習(xí)和少樣本提示學(xué)習(xí)。但是提示學(xué)習(xí)的有效性很大程度上取決于模型能力，而且會(huì)受到輸入上下文長度的限制。

零樣本提示學(xué)習(xí)描述工具的功能、輸入輸出格式等，少樣本提示學(xué)習(xí)則通過具體的使用案例來提示模型如何使用對(duì)應(yīng)工具

?????規(guī)劃與推理?

對(duì)于復(fù)雜任務(wù)，控制器需要具備一定的規(guī)劃和推理能力，以便將任務(wù)拆分成若干子任務(wù)。這一過程中的推理能力可以分為兩類：內(nèi)省推理（Introspective Reasoning）是指控制器在不涉及與環(huán)境交互的情況下，僅根據(jù)指令對(duì)任務(wù)進(jìn)行推理和規(guī)劃，無需中間執(zhí)行結(jié)果。這種推理方式側(cè)重于分析任務(wù)的本質(zhì)，通過對(duì)指令的理解來生成相應(yīng)的規(guī)劃；與之相反，外省推理（Extrospective Reasoning），涉及控制器與環(huán)境的交互。在這種情況下，控制器會(huì)根據(jù)先前步驟的執(zhí)行結(jié)果逐步推理并生成規(guī)劃。這種方式強(qiáng)調(diào)了模型的實(shí)時(shí)調(diào)整和適應(yīng)能力，使得控制器能夠在完成任務(wù)過程中不斷優(yōu)化規(guī)劃策略。

在完成對(duì)復(fù)雜任務(wù)進(jìn)行分解之外，控制器還需要利用不同工具完成各個(gè)子任務(wù)，在該過程中存在一些挑戰(zhàn)需要進(jìn)一步研究。工具間的協(xié)同配合：為了完成復(fù)雜任務(wù)，模型不僅需要理解各個(gè)工具的功能，還應(yīng)該理解它們之間的相互作用和依賴關(guān)系。這有助于控制器更有效地使用工具，確保任務(wù)的順利完成。并行執(zhí)行：對(duì)于彼此不存在依賴關(guān)系的子任務(wù)，模型需要具有并行執(zhí)行的能力以提高執(zhí)行效率。這將有助于在有限的時(shí)間內(nèi)完成更多任務(wù)，提高整體性能。多智能體協(xié)作：復(fù)雜任務(wù)通常需要多個(gè)智能體彼此協(xié)作，在這種情況下，每個(gè)智能體都具有其獨(dú)特的能力和專業(yè)知識(shí)，彼此協(xié)作可以實(shí)現(xiàn)更高效和有效的問題解決。因此，探索多智能體協(xié)作機(jī)制對(duì)于提升控制器在復(fù)雜任務(wù)中的表現(xiàn)具有重要意義。

?????可泛化的工具學(xué)習(xí)訓(xùn)練方法?

為了讓模型學(xué)會(huì)使用工具，訓(xùn)練模型也是一種可行的途徑。嬰兒學(xué)習(xí)新工具主要有兩種方式，一種是觀察模仿成人如何使用工具的過程，另一種是依靠自身的探索，摸索出工具的使用方式。受此啟發(fā)，工具學(xué)習(xí)的模型訓(xùn)練范式也可以分成兩種：

從演示中學(xué)習(xí)：模型模仿人類使用工具，可采用監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)來實(shí)現(xiàn)。

從反饋中學(xué)習(xí)：環(huán)境或人類的反饋可以幫助模型理解其行為的結(jié)果并調(diào)整其行為，據(jù)此改進(jìn)其工具使用策略，從而增強(qiáng)模型的使用工具能力。強(qiáng)化學(xué)習(xí)便是實(shí)現(xiàn)從反饋中學(xué)習(xí)的一個(gè)代表性解決方案。

通用工具學(xué)習(xí)：工具使用經(jīng)驗(yàn)的通用性是人類智能的一個(gè)重要特征。人類可以從一個(gè)工具的使用中總結(jié)出通用性的經(jīng)驗(yàn)，從而幫助其它工具的使用。為了實(shí)現(xiàn)通用工具學(xué)習(xí)，首先要對(duì)工具的操作接口進(jìn)行形式化統(tǒng)一。這樣，模型便可以以標(biāo)準(zhǔn)化的方式操作各種工具，并更容易地抽象出工具的基本特征。這可以通過以下三種方式實(shí)現(xiàn)。

語義接口：模型通過使用特定的文本片段（如動(dòng)作名稱）作為動(dòng)作觸發(fā)器，從而來操作工具。GUI接口：模型模仿人類使用圖形界面（GUI）來與工具交互。編程接口：模型通過編寫代碼來使用工具。這種方式具有廣闊的應(yīng)用前景，首先是因?yàn)榫帉懘a可以實(shí)現(xiàn)復(fù)雜的工具使用邏輯，其次通過執(zhí)行程序可以更加方便地調(diào)用外部工具。在統(tǒng)一工具操作接口的前提下，模型還需要針對(duì)具體的任務(wù)或領(lǐng)域進(jìn)一步地適應(yīng)、細(xì)化和專門化其學(xué)習(xí)的知識(shí)。為了達(dá)成此目標(biāo)，有兩種解決方法：

元工具學(xué)習(xí)：元工具學(xué)習(xí)體現(xiàn)了模型的元認(rèn)知能力，使其能夠反思自身的學(xué)習(xí)過程并在必要時(shí)調(diào)整新的工具使用策略。通過元認(rèn)知，模型可以識(shí)別工具使用策略中的基本原則或共同模式，并將其遷移到新的任務(wù)或領(lǐng)域中去。

課程工具學(xué)習(xí)：課程工具學(xué)習(xí)則采用逐步學(xué)習(xí)的方法，讓模型從簡單的工具開始學(xué)習(xí)，然后逐漸學(xué)習(xí)更復(fù)雜的工具。這種方法有助于模型理解復(fù)雜工具，將其視為簡單工具的進(jìn)階版。通過課程工具學(xué)習(xí)，模型能夠更有效地識(shí)別抽象工具間的共性和差異，從而實(shí)現(xiàn)知識(shí)和技能的遷移。

開源平臺(tái)?BMTools?

—

ChatGPT Plugins的出現(xiàn)補(bǔ)充了ChatGPT最后的短板，使其可以支持連網(wǎng)、解決數(shù)學(xué)計(jì)算，被稱為OpenAI的“App Store”時(shí)刻。然而，由于目前其支持的工具數(shù)量有限，并且僅支持部分OpenAI Plus用戶，大多數(shù)開發(fā)者仍然無法使用。

為解決這個(gè)痛點(diǎn)，研究團(tuán)隊(duì)推出了工具學(xué)習(xí)包?BMTools，一個(gè)基于語言模型的開源可擴(kuò)展工具學(xué)習(xí)平臺(tái)。團(tuán)隊(duì)將各種各樣的工具（例如文生圖模型、搜索引擎、股票查詢等）調(diào)用流程都統(tǒng)一到一個(gè)框架上，使整個(gè)工具調(diào)用流程標(biāo)準(zhǔn)化、自動(dòng)化。開發(fā)者可以通過 BMTools，使用給定的模型（ChatGPT、GPT4）調(diào)用多種多樣的工具接口，實(shí)現(xiàn)特定功能。

BMTools 不僅支持 OpenAI的Plugins，還允許開發(fā)者自己擴(kuò)充工具庫。開發(fā)者只用編寫簡單的 python 程序就能輕松構(gòu)建新的插件功能，并可集成其他來源的外部工具（如ChatGPT Plugins）。該工具包目前已支持論文中提到的 17種工具，并持續(xù)維護(hù)更新中，未來將支持更多基底模型和面向國內(nèi)的工具的使用，助力工具學(xué)習(xí)的前沿學(xué)術(shù)探索和工程落地。此外，該工具包也已集成最近爆火的 BabyAGI，并且在 Huggingface Spaces 上可直接試用。

基于 BMTools，團(tuán)隊(duì)探索了基礎(chǔ)模型使用工具的有效性與局限性，并選取了 text-davinci-003 和 ChatGPT 兩個(gè)代表性基礎(chǔ)模型，評(píng)估它們?cè)?17種工具使用場景下的性能表現(xiàn)，實(shí)驗(yàn)證明：

1. ?在大多數(shù)情況下，模型可以通過簡單的提示學(xué)習(xí)如何有效地使用工具，并提高它們的任務(wù)性能。

2. ?對(duì)于模型能夠利用其內(nèi)部知識(shí)解決的任務(wù)，只有在對(duì)工具進(jìn)行正確調(diào)用時(shí)，模型才會(huì)獲得性能提升，否則反而會(huì)產(chǎn)生負(fù)面影響。

3. ?ChatGPT相比于text-davinci-003并沒有得到更好的結(jié)果。對(duì)于知識(shí)圖譜、在線購物、3D建模等較為復(fù)雜的工具，ChatGPT和text-davinci-003均不夠令人滿意，需要進(jìn)一步提升基礎(chǔ)模型能力來提升工具的使用能力。

ChatGPT 和text-davinci-003 ?工具學(xué)習(xí)實(shí)驗(yàn)結(jié)果

前瞻開放討論?

—

最后，論文從不同角度探討了工具學(xué)習(xí)帶來的機(jī)遇與挑戰(zhàn)：

工具學(xué)習(xí)的安全性：在期待基礎(chǔ)模型與工具學(xué)習(xí)結(jié)合所帶來的生活改變之前，審視其中潛在的風(fēng)險(xiǎn)尤為重要。團(tuán)隊(duì)強(qiáng)調(diào)了需要防止惡意用戶誤導(dǎo)模型調(diào)用工具，以及提升模型使用工具的可信度等問題。
AI 創(chuàng)造工具：基礎(chǔ)模型可能具有自發(fā)創(chuàng)造工具的潛力。一直以來，創(chuàng)造和使用工具被認(rèn)為是人類智能的獨(dú)特特征，而基礎(chǔ)模型的出現(xiàn)可能顛覆這一觀念。越來越多的證據(jù)表明，創(chuàng)造工具的能力不再是人類專有的領(lǐng)域。
工具學(xué)習(xí)個(gè)性化：模型通常在通用文本語料庫上訓(xùn)練，并使用廣泛定義的人類偏好進(jìn)行校準(zhǔn)。然而，這種方法無法滿足具有不同需求的用戶的個(gè)性化需求。探索如何實(shí)現(xiàn)個(gè)性化的工具學(xué)習(xí)將成為未來研究的重要課題。
知識(shí)沖突：引入工具后，模型需要解決來自不同來源的知識(shí)沖突問題，包括模型自身、外部知識(shí)庫等。解決不同知識(shí)庫間的知識(shí)沖突，以實(shí)現(xiàn)知識(shí)的有效整合，是迎接工具學(xué)習(xí)挑戰(zhàn)的關(guān)鍵一步。
開放性問題：最后，團(tuán)隊(duì)提出了一系列開放性問題，包括：工具能力是否應(yīng)當(dāng)內(nèi)化進(jìn)模型中？如何準(zhǔn)確評(píng)判模型的工具使用能力？如何規(guī)避工具學(xué)習(xí)場景下的安全性、隱私性問題？如何在工具學(xué)習(xí)框架下促進(jìn)更好的人機(jī)協(xié)同？

總結(jié)?

—

研究團(tuán)隊(duì)深入探討了基礎(chǔ)模型的工具學(xué)習(xí)范式，提出了一個(gè)通用的工具學(xué)習(xí)框架，并重點(diǎn)探討了其中的重點(diǎn)研究問題。為了展示基礎(chǔ)模型在工具使用方面的靈活性與精細(xì)性，團(tuán)隊(duì)開發(fā)了開源的工具學(xué)習(xí)平臺(tái) BMTools，并對(duì) 17個(gè)代表性工具進(jìn)行了實(shí)驗(yàn)，通過詳細(xì)的分析、實(shí)驗(yàn)探索，提出了一系列具有前瞻性的問題。我們期待這篇文章能激發(fā)更多融合工具與基礎(chǔ)模型的研究，助力開創(chuàng)智能化人機(jī)協(xié)同工作的新篇章。

?? 傳送門??BMTools?

???https://github.com/OpenBMB/BMTools

?? 傳送門??OpenBMB 主頁?

???https://www.openbmb.org/home

?? 傳送門?? OpenBMB GitHub?

???https://github.com/OpenBMB

????加社群/ 提建議/ 有疑問?

請(qǐng)找 OpenBMB 萬能小助手：

?? 關(guān)注我們

微信搜索關(guān)注 “OpenBMB開源社區(qū)”

后臺(tái)回復(fù)“CPM-Live” 即可加入CPM-Live加油群

還可獲取更多大模型干貨知識(shí)和前沿資訊！?

標(biāo)簽：計(jì)算機(jī)人工智能 AI 大模型基礎(chǔ)模型工具學(xué)習(xí)大規(guī)模預(yù)訓(xùn)練模型