LLM Tools業(yè)界動(dòng)態(tài)調(diào)研
1.ToolQA,一個(gè)開源數(shù)據(jù)集,用于評(píng)估工具增強(qiáng)的LLM效果
https://github.com/night-chen/ToolQA
提供了數(shù)據(jù)集、數(shù)據(jù)生成代碼以及數(shù)據(jù)集上基線的實(shí)現(xiàn)。
數(shù)據(jù)格式:

啟發(fā):可以參考這個(gè)數(shù)據(jù)集建立自己的中文數(shù)據(jù)集
2.LLM Ranking:LLM-Blender,將question和2個(gè)不同LLM輸出的結(jié)果作為輸入進(jìn)行rank,還可以將不同模型的生成結(jié)果進(jìn)行融合
https://github.com/yuchenlin/LLM-Blender
啟發(fā):可以探索一下用這個(gè)對(duì)大模型做離線效果評(píng)估的可行性。目前存在的問題是
開源模型對(duì)中文的評(píng)估效果不太好
沒有一個(gè)可用的高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集
3.AutoGPT的改進(jìn):ReWOO,解決進(jìn)行復(fù)雜多步任務(wù)時(shí),現(xiàn)有的thought-action-observation循環(huán)的冗余和重復(fù)執(zhí)行問題
https://github.com/billxbf/ReWOO
將LLM的推理能力和工具執(zhí)行解耦,讓LLM在第一步先做好執(zhí)行計(jì)劃(Planner),識(shí)別出任務(wù)中的子任務(wù)和他們的依賴關(guān)系。子任務(wù)中包括工具執(zhí)行和LLM調(diào)用。其中,Planner是用GPT-4模型實(shí)現(xiàn),也可以訓(xùn)練出一個(gè)優(yōu)化的模型專門用于Planner。
啟發(fā):未來做復(fù)雜任務(wù)時(shí)可以參考
4.Transformer LLM在組合任務(wù)方面的局限性
https://arxiv.org/abs/2305.18654
論文結(jié)論:隨著任務(wù)復(fù)雜性的增加,Transformers的性能會(huì)迅速惡化。Transformer的表現(xiàn)主要是由模式匹配和子圖匹配驅(qū)動(dòng)的,而不是對(duì)底層思維的徹底理解。所以,Transformer LLM會(huì)很難完成越來越復(fù)雜的任務(wù)。
?
文章發(fā)現(xiàn)Transformer LLM的預(yù)測(cè)主要基于淺層次的、死記硬背式的學(xué)習(xí)。具體來說,Transformer LLM在訓(xùn)練過程中通過學(xué)習(xí)大量的語料數(shù)據(jù),從而在特定任務(wù)上表現(xiàn)出色。但是,這種學(xué)習(xí)方式并不一定能夠處理復(fù)雜的任務(wù),尤其是需要深層次推理和組合性思考的任務(wù)。
文章指出,Transformer LLM的預(yù)測(cè)是基于對(duì)輸入數(shù)據(jù)的逐個(gè)詞進(jìn)行編碼和解碼,而沒有考慮到語義和上下文信息的重要性。因此,模型很難在復(fù)雜的任務(wù)中進(jìn)行深層次的推理和組合性思考。此外,文章還發(fā)現(xiàn),Transformer LLM在處理組合性任務(wù)時(shí)存在局限性,因?yàn)樗鼈儫o法將不同的概念和信息組合成一個(gè)有意義的整體。
?
啟發(fā):當(dāng)前LLM的一些局限性,會(huì)影響未來,我們想基于LLM+Tools解決復(fù)雜組合任務(wù)的實(shí)現(xiàn)可行性。不過隨著時(shí)間的推移,大模型也會(huì)演進(jìn),未來可能會(huì)解決這些問題
?