LLM Tools業(yè)界動(dòng)態(tài)調(diào)研

2023-07-04 16:56 作者:柚子陳醬 0人讀過 | 我要投稿

1.ToolQA，一個(gè)開源數(shù)據(jù)集，用于評(píng)估工具增強(qiáng)的LLM效果

https://github.com/night-chen/ToolQA

提供了數(shù)據(jù)集、數(shù)據(jù)生成代碼以及數(shù)據(jù)集上基線的實(shí)現(xiàn)。

數(shù)據(jù)格式：

啟發(fā)：可以參考這個(gè)數(shù)據(jù)集建立自己的中文數(shù)據(jù)集

2.LLM Ranking：LLM-Blender，將question和2個(gè)不同LLM輸出的結(jié)果作為輸入進(jìn)行rank，還可以將不同模型的生成結(jié)果進(jìn)行融合

https://github.com/yuchenlin/LLM-Blender

啟發(fā)：可以探索一下用這個(gè)對(duì)大模型做離線效果評(píng)估的可行性。目前存在的問題是

開源模型對(duì)中文的評(píng)估效果不太好
沒有一個(gè)可用的高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集

3.AutoGPT的改進(jìn)：ReWOO，解決進(jìn)行復(fù)雜多步任務(wù)時(shí)，現(xiàn)有的thought-action-observation循環(huán)的冗余和重復(fù)執(zhí)行問題

https://github.com/billxbf/ReWOO

將LLM的推理能力和工具執(zhí)行解耦，讓LLM在第一步先做好執(zhí)行計(jì)劃（Planner），識(shí)別出任務(wù)中的子任務(wù)和他們的依賴關(guān)系。子任務(wù)中包括工具執(zhí)行和LLM調(diào)用。其中，Planner是用GPT-4模型實(shí)現(xiàn)，也可以訓(xùn)練出一個(gè)優(yōu)化的模型專門用于Planner。

啟發(fā)：未來做復(fù)雜任務(wù)時(shí)可以參考

4.Transformer LLM在組合任務(wù)方面的局限性

https://arxiv.org/abs/2305.18654

論文結(jié)論：隨著任務(wù)復(fù)雜性的增加，Transformers的性能會(huì)迅速惡化。Transformer的表現(xiàn)主要是由模式匹配和子圖匹配驅(qū)動(dòng)的，而不是對(duì)底層思維的徹底理解。所以，Transformer LLM會(huì)很難完成越來越復(fù)雜的任務(wù)。

?

文章發(fā)現(xiàn)Transformer LLM的預(yù)測(cè)主要基于淺層次的、死記硬背式的學(xué)習(xí)。具體來說，Transformer LLM在訓(xùn)練過程中通過學(xué)習(xí)大量的語料數(shù)據(jù)，從而在特定任務(wù)上表現(xiàn)出色。但是，這種學(xué)習(xí)方式并不一定能夠處理復(fù)雜的任務(wù)，尤其是需要深層次推理和組合性思考的任務(wù)。

文章指出，Transformer LLM的預(yù)測(cè)是基于對(duì)輸入數(shù)據(jù)的逐個(gè)詞進(jìn)行編碼和解碼，而沒有考慮到語義和上下文信息的重要性。因此，模型很難在復(fù)雜的任務(wù)中進(jìn)行深層次的推理和組合性思考。此外，文章還發(fā)現(xiàn)，Transformer LLM在處理組合性任務(wù)時(shí)存在局限性，因?yàn)樗鼈儫o法將不同的概念和信息組合成一個(gè)有意義的整體。

?

啟發(fā)：當(dāng)前LLM的一些局限性，會(huì)影響未來，我們想基于LLM+Tools解決復(fù)雜組合任務(wù)的實(shí)現(xiàn)可行性。不過隨著時(shí)間的推移，大模型也會(huì)演進(jìn)，未來可能會(huì)解決這些問題

?

標(biāo)簽：