【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（21）——大模型：想要成為角色扮演者！

2023-11-23 10:45 作者:花師小哲-中二 0人讀過(guò) | 我要投稿

好好好，回歸“主線任務(wù)”（每篇一百左右觀看量的專欄真的是主線嗎...）

前兩天我終于達(dá)成了寫(xiě)了500篇大模型短筆記的成就，但是科研任務(wù)依然很重，本文也是小談一下。

最近有一篇很有意思的Nature論文，說(shuō)明現(xiàn)在市面上大部分大語(yǔ)言模型（LLM）其實(shí)都是角色扮演者。

1.本文的隱喻（其實(shí)就是假設(shè)啦）

首先說(shuō)明，這篇文章應(yīng)該不是搞計(jì)算機(jī)的人寫(xiě)的，不然也不會(huì)用很長(zhǎng)的篇幅去科普自回歸模型的原理之類的（在我看來(lái)這篇文章一大半都是車轱轆話），不過(guò)好處是難度低，一般人也看得懂。

作者首先設(shè)想了兩個(gè)隱喻：（1）宏觀上，我們可以把LLM看作是一個(gè)角色扮演者，在實(shí)際使用時(shí)會(huì)根據(jù)用戶的輸入后開(kāi)始扮演角色工作；（2）微觀上，LLM是多個(gè)人格的疊加態(tài)，或者說(shuō)，LLM的人格服從一個(gè)分布，然后LLM在回答的過(guò)程中會(huì)不斷調(diào)整這個(gè)分布。

（這里的角色扮演是role-play，可惜不是cosplay）

本文就是要搞懂LLM是不是這樣的

2.上下文學(xué)習(xí)、角色扮演、對(duì)齊與阿諛?lè)畛?/span>

上下文學(xué)習(xí)（ICL）是LLM中很神奇的事情，簡(jiǎn)單來(lái)說(shuō)的話就是LLM能夠在不修改自身參數(shù)的情況下僅僅根據(jù)輸入上下文的不同來(lái)在內(nèi)部調(diào)整自己的“狀態(tài)”，從而輸出不同的效果。

不要覺(jué)得這是什么簡(jiǎn)單的事情，神經(jīng)網(wǎng)絡(luò)基本可以看做是一個(gè)開(kāi)閘防水的過(guò)程，數(shù)據(jù)基本是單向流動(dòng)的，雖然Transformer等模型確實(shí)是有些內(nèi)部參數(shù)能做類似于存儲(chǔ)的工作，但上下文學(xué)習(xí)的原理依然是一個(gè)謎，只有一些比較high-level的研究。

作者就認(rèn)為，LLM不僅通過(guò)上下文信息知道自己的任務(wù)是什么，同時(shí)也在這個(gè)過(guò)程中不斷調(diào)整自己的人格分布，讓自己當(dāng)前扮演的角色更符合用戶預(yù)期。這本來(lái)也是對(duì)齊技術(shù)的目的。

提到這種達(dá)到預(yù)期，其實(shí)就想到牧羊犬模型，也就是有研究發(fā)現(xiàn)LLM可能因?yàn)閷?duì)齊過(guò)頭，導(dǎo)致對(duì)于用戶過(guò)于阿諛?lè)畛辛?，具體可以見(jiàn)專欄：

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（41）——語(yǔ)言模型更容易被人騙？

3.實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)不復(fù)雜，用的是二十個(gè)問(wèn)題，看過(guò)《輝夜》之類作品的朋友應(yīng)該知道，就是A先想一個(gè)詞語(yǔ)，然后B通過(guò)不斷問(wèn)問(wèn)題來(lái)試圖找到這個(gè)答案，每個(gè)問(wèn)題A只能用“是”和“否”回答。

現(xiàn)在我們告訴ChatGPT這個(gè)規(guī)則，然后讓它扮演A，整個(gè)過(guò)程就會(huì)發(fā)現(xiàn)一些神奇的事情，即ChatGPT其實(shí)并沒(méi)有遵守“先想一個(gè)詞語(yǔ)”這個(gè)詞語(yǔ)，而是會(huì)根據(jù)用戶的問(wèn)題不斷地調(diào)整，最終用戶猜測(cè)時(shí)甚至?xí)o你圓答案（而你，ChatGPT，是真正的迪化人）

考慮到二十個(gè)問(wèn)題游戲規(guī)則并不復(fù)雜，ChatGPT不至于連這個(gè)規(guī)則都理解不了，這說(shuō)明ChatGPT確實(shí)是把“角色扮演”放到更優(yōu)先的位置的。

當(dāng)然，也不是說(shuō)這樣就完全不好，至少說(shuō)明LLM被“調(diào)教”的還是很不錯(cuò)的（然后最近也有論文：現(xiàn)在的很多LLM并沒(méi)有真的對(duì)齊?。?/p>