散文網(wǎng) » 生活 »日常 » 大模型的局限性調(diào)研

大模型的局限性調(diào)研

2023-07-11 21:17 作者:無數(shù)據(jù)不智能 0人讀過 | 我要投稿

概述

這篇文章研究的背景是關(guān)于大型語言模型在人工通用智能領(lǐng)域的不足之處。

過去的方法主要使用標(biāo)準(zhǔn)化測試和以能力為導(dǎo)向的基準(zhǔn)評估大型語言模型(LLMs)，但是這些評估方法存在一些問題，容易夸大LLMs的能力。作者提出了人工通用智能應(yīng)包含LLMs能力之外的四個(gè)特征，并指出了當(dāng)前評估方法的問題。

本文提出了知行統(tǒng)一的研究方法，強(qiáng)調(diào)通過與真實(shí)世界中的物體的積極互動可以提供更穩(wěn)健的信號形成概念性表征，知識獲取不僅僅依賴于被動輸入，還需要反復(fù)試錯(cuò)。

本文未涉及具體任務(wù)和性能的達(dá)成，而是探討了人工通用智能領(lǐng)域的研究問題和未來發(fā)展方向。因此，沒有提供具體任務(wù)的性能結(jié)果。

重要問題探討

1. 評估方法中的評價(jià)指標(biāo)差異是否會影響對LLMs能力的認(rèn)知？基于上文所述，作者指出評估指標(biāo)的選擇可能會對LLMs的能力產(chǎn)生較大的影響。那么，我們是否可以通過使用不同的評價(jià)指標(biāo)來獲得更全面和客觀的LLMs能力評估結(jié)果？

答：根據(jù)上文所引述的Schaeffer等人（2023）的研究，評估指標(biāo)可能會導(dǎo)致我們對LLMs能力的認(rèn)知產(chǎn)生變化。對于一個(gè)非線性評價(jià)指標(biāo)，例如xn，曲線上稀疏采樣的點(diǎn)可能會使我們覺得出現(xiàn)了新的行為模式；然而，對于一個(gè)線性評價(jià)指標(biāo)，我們可能無法觀察到這樣的現(xiàn)象。因此，通過使用不同的評價(jià)指標(biāo)，我們可以獲得對LLMs能力的不同角度的評估，進(jìn)而獲得更全面準(zhǔn)確的結(jié)論。

2. 互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù)集可能會對LLMs的評估結(jié)果產(chǎn)生什么影響？根據(jù)上文所述，由于大規(guī)模訓(xùn)練數(shù)據(jù)集可能涵蓋了用于后續(xù)評估的數(shù)據(jù)集，因此評估結(jié)果可能不夠真實(shí)和可靠。然而，我們?nèi)绾谓鉀Q這個(gè)問題并確保LLMs的評估結(jié)果具有普適性？

答：正如上文所提到的問題，訓(xùn)練數(shù)據(jù)集的來源問題可能會導(dǎo)致LLMs的評估結(jié)果不夠準(zhǔn)確和可靠。要解決這個(gè)問題，我們可以有以下幾種方法：首先，可以通過改變評估數(shù)據(jù)集的來源，避免與訓(xùn)練數(shù)據(jù)集產(chǎn)生重疊；其次，可以采用外部數(shù)據(jù)集來進(jìn)行評估，以確保評估結(jié)果的普適性；最后，可以通過增加評估指標(biāo)，包括可解釋性和對特定任務(wù)的評估，來提高LLMs評估的全面性。

3. LLMs與人工智能的一般智能（AGI）之間存在哪些差距？根據(jù)上文所述，作者認(rèn)為LLMs與AGI之間存在較大差距。那么，為什么我們認(rèn)為LLMs還沒有達(dá)到AGI的水平？又有哪些特征是AGI具備而LLMs缺乏的？

答：根據(jù)上文所列的四個(gè)特征，我們可以看出AGI與LLMs之間的差距。其中，一般智能代理應(yīng)該能夠在動態(tài)的物理和社會空間中執(zhí)行無限多的任務(wù)；而LLMs由于缺乏這種自動生成任務(wù)的能力，無法滿足這一特征。此外，AGI還具備價(jià)值系統(tǒng)和世界模型的特征，而LLMs在這兩方面也存在較大的不足。因此，我們認(rèn)為LLMs還沒有達(dá)到AGI的水平。

4. 在研究AGI時(shí)，我們應(yīng)該采取怎樣的視角？根據(jù)上文所述，作者提出了行為主義的視角來研究AGI。那么，為什么行為主義的視角有助于探究AGI？相比于其他視角，行為主義視角有哪些優(yōu)勢？

答：行為主義的視角對于探究AGI有助于從行為的角度出發(fā)，觀察智能代理在動態(tài)的物理和社會空間中的行為表現(xiàn)。這種視角有助于我們更直接地觀察和評估智能代理的能力。相比于其他視角，行為主義的優(yōu)勢在于關(guān)注實(shí)際的行為結(jié)果，而不僅僅停留在內(nèi)部的認(rèn)知和推理過程。行為主義的視角可以通過對智能代理在任務(wù)中的表現(xiàn)進(jìn)行實(shí)際觀察和評估，從而提供更直接和客觀的結(jié)果。

5. 如何評估一般智能代理的能力？根據(jù)上文所述，一般智能代理應(yīng)該能夠在動態(tài)的物理和社會空間中執(zhí)行無限多的任務(wù)。但是，如何判斷一個(gè)代理實(shí)際上是一般智能的？在評估一般智能代理的能力時(shí)，應(yīng)該使用怎樣的方法和標(biāo)準(zhǔn)？

答：在評估一般智能代理的能力時(shí)，可以采用以下方法和標(biāo)準(zhǔn)：首先，可以對代理在不同領(lǐng)域或任務(wù)上的表現(xiàn)進(jìn)行綜合評估，通過多個(gè)任務(wù)的表現(xiàn)來判斷代理是否具備一般智能能力；其次，可以引入具有挑戰(zhàn)性的任務(wù)，檢驗(yàn)代理在復(fù)雜、未知和動態(tài)環(huán)境中的適應(yīng)能力；最后，還可以考慮代理的學(xué)習(xí)能力和創(chuàng)造性，評估其是否能夠生成新的任務(wù)和解決新的問題。通過多個(gè)角度的綜合評估，可以更全面和客觀地判斷一般智能代理的能力。

標(biāo)簽：大模型 chatgpt