什么是內(nèi)部對(duì)齊?
作者:Jan Leike
時(shí)間:2022年5月9日
用機(jī)器學(xué)習(xí)的語言解釋
https://aligned.substack.com/p/inner-alignment
一個(gè)幾乎正式的定義
讓我們使用深度元強(qiáng)化學(xué)習(xí)(deep meta-reinforcement learning,也被稱為RL2)的設(shè)置:在這個(gè)設(shè)置中,有兩個(gè)不同層次的RL問題,"外部" 和 "內(nèi)部" RL問題。內(nèi)部RL問題可以是任何一組任務(wù),每個(gè)任務(wù)都涉及學(xué)會(huì)一些新的技能,例如在新環(huán)境中導(dǎo)航或玩新游戲。外部RL問題是要學(xué)會(huì)在內(nèi)部RL問題分布上進(jìn)行強(qiáng)化學(xué)習(xí)--因此稱為 "元RL"(meta-RL)。
為了解決元RL問題,我們在?"外部回合" 上訓(xùn)練?"外部策略",其中每個(gè)外部回合是新的內(nèi)部RL問題(新任務(wù))。外部策略在?"內(nèi)部回合" 中與內(nèi)部RL問題互動(dòng),同時(shí)在內(nèi)部回合的邊界上保持記憶狀態(tài)。使用來自內(nèi)部RL問題的獎(jiǎng)勵(lì)(對(duì)新任務(wù)的學(xué)習(xí)效果如何),我們更新外部策略,以更好地解決內(nèi)部RL問題。隨著時(shí)間的推移,它為內(nèi)部RL問題學(xué)會(huì)了一種RL算法。

內(nèi)部對(duì)齊
為了正式形式化內(nèi)部對(duì)齊問題,我們將元RL設(shè)置擴(kuò)展到在測試時(shí)沒有獎(jiǎng)勵(lì),只在訓(xùn)練時(shí)有獎(jiǎng)勵(lì)的情況。稱為 "無獎(jiǎng)勵(lì)元RL" (rewardless meta-RL)設(shè)置。這起初聽起來可能遙不可及,但事實(shí)并非如此;我很快就會(huì)給出例子。
為了解決無獎(jiǎng)勵(lì)元RL問題,需要稍微修改訓(xùn)練設(shè)置,因?yàn)閮?nèi)部RL問題現(xiàn)在不會(huì)在每個(gè)(內(nèi)部)時(shí)間步提供獎(jiǎng)勵(lì)(因?yàn)楠?jiǎng)勵(lì)在測試時(shí)不可用)。相反,我們只在與內(nèi)部RL問題的互動(dòng)中提供觀察反饋。在一個(gè)外部事件結(jié)束時(shí),通過使用訓(xùn)練時(shí)獎(jiǎng)勵(lì)函數(shù)計(jì)算(折現(xiàn))獎(jiǎng)勵(lì)的總和,得到外部策略的訓(xùn)練信號(hào)。
在這種情況下,外部策略需要領(lǐng)悟與獎(jiǎng)勵(lì)函數(shù)的觀察相關(guān)性,并學(xué)會(huì)在內(nèi)部事件之間相應(yīng)地調(diào)整其行為。換句話說,外部策略只有在學(xué)會(huì)了訓(xùn)練時(shí)獎(jiǎng)勵(lì)函數(shù)的表示后才能做得好。此外,當(dāng)外部策略是神經(jīng)網(wǎng)絡(luò)時(shí),這種表示通常是 "隱性" 的,即可能不容易訪問或檢查。

現(xiàn)在我們有了說明內(nèi)部未對(duì)齊問題的所有要素。
如果外部策略隱式表示的獎(jiǎng)勵(lì)函數(shù)在測試時(shí)與內(nèi)部RL問題上的期望獎(jiǎng)勵(lì)函數(shù)不匹配,那么外部策略就會(huì)存在內(nèi)部未對(duì)齊。
雖然明確地對(duì)新的內(nèi)部RL問題進(jìn)行采樣似乎有點(diǎn)不自然,但許多復(fù)雜的任務(wù)實(shí)際上看起來很像RL問題。(RL框架是如此的普遍!) 特別是,在我們并不真正認(rèn)為任務(wù)是RL問題的情況下,內(nèi)部對(duì)齊問題將是最令人驚訝的。在這些情況下,我們并沒有真正意識(shí)到是在元RL設(shè)置中,因此可能沒有考慮到外部策略可能隱式學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)。
實(shí)例
一個(gè)玩具例子
讓我們從一個(gè)玩具例子開始,它受到上面提到的元RL論文的啟發(fā)(類似于不完全監(jiān)督問題,partial monitoring problem)。我們訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),通過從 "無獎(jiǎng)勵(lì)" 多臂老虎機(jī)問題的分布中采樣內(nèi)部RL問題來學(xué)習(xí)外部策略。這些老虎機(jī)問題,不是返回獎(jiǎng)勵(lì),而是返回一個(gè)觀察向量o∈R?,這樣(未觀察到的)訓(xùn)練時(shí)的獎(jiǎng)勵(lì)是r=f(o),針對(duì)一些固定的函數(shù)f。為了做得好,外部策略需要近似f,這樣它才可以解決新的無獎(jiǎng)勵(lì)多臂老虎機(jī)問題。
為了模擬測試時(shí)的分布變化,從一個(gè)稍有不同的無獎(jiǎng)勵(lì)多臂老虎機(jī)分布中采樣,除了觀察向量o的分布不同外,其工作原理是相同的。由于函數(shù)f是由神經(jīng)網(wǎng)絡(luò)近似的,它在訓(xùn)練時(shí)使用的輸入域之外的泛化可能很差,因此在測試時(shí)對(duì)f的近似很差。換句話說,在測試時(shí),外部策略對(duì)函數(shù)f的隱性學(xué)習(xí)表示與真正的f不一致。這意味著外部策略不會(huì)很好地解決問題,因?yàn)樗跍y試時(shí)對(duì)不一致的獎(jiǎng)勵(lì)函數(shù)進(jìn)行了優(yōu)化。
一個(gè)具體的例子
我所看到的關(guān)于內(nèi)部對(duì)齊問題的最好的經(jīng)驗(yàn)性展示是來自Koch和Langosco等人(2021)。他們在一系列二維迷宮游戲上用深度RL訓(xùn)練了外部策略,其獎(jiǎng)勵(lì)與到達(dá)迷宮中的寶石有關(guān)。在訓(xùn)練時(shí),寶石總是黃色的,但在測試時(shí),他們同時(shí)給出一顆黃星和一顆紅寶石。通過迫使外部策略在它們之間做出選擇,他們測試了它如何泛化任務(wù)的目標(biāo)。有趣的是,外部策略始終選擇黃星,偏向于顏色的泛化而非形狀。因此,外部策略在收集寶石的目標(biāo)方面存在著內(nèi)部未對(duì)齊的問題。
從某種程度上說,期望策略知道它應(yīng)該以哪種方式泛化不合理,但這不是重點(diǎn)。問題不在于泛化不容易,而在于泛化的失敗會(huì)導(dǎo)致策略為錯(cuò)誤的目標(biāo)優(yōu)化。
語言模型的內(nèi)部未對(duì)齊
大型語言模型表現(xiàn)出著名的上下文學(xué)習(xí)(in-context learning):它們從輸入文本中獲取在訓(xùn)練集中未曾出現(xiàn)過的新模式。這導(dǎo)致了 "少樣本提示"(few-shot prompting)的流行,在這種情況下,用戶向語言模型指定新任務(wù),給出關(guān)于如何執(zhí)行該任務(wù)的示例清單。
我們可以把 "少樣本提示" 看作是內(nèi)部RL問題和內(nèi)部回合。為了做好少樣本提示,語言模型理解任務(wù)的目標(biāo),然后努力去實(shí)現(xiàn)它是很有用的。例如,如果任務(wù)可以從規(guī)劃中受益,那么模型應(yīng)該嘗試朝著它對(duì)目標(biāo)的理解進(jìn)行規(guī)劃。
假設(shè)使用RL來微調(diào)語言模型,使其更善于遵循少樣本提示。現(xiàn)在我們處于無回報(bào)的元RL設(shè)置中,因此可能會(huì)看到內(nèi)部未對(duì)齊:經(jīng)過微調(diào)的語言模型在測試時(shí)可能會(huì)誤解少樣本提示的目標(biāo),然后在寫回應(yīng)時(shí)為錯(cuò)誤的目標(biāo)做計(jì)劃。
另一個(gè)例子。假設(shè)我們訓(xùn)練語言模型,從自然語言描述的規(guī)則中學(xué)習(xí)玩棋盤游戲。每回合畫一個(gè)新的棋盤游戲,即內(nèi)部RL問題,并讓語言模型與固定的對(duì)手玩幾局。經(jīng)過訓(xùn)練,語言模型學(xué)會(huì)了一個(gè)外部策略,可以玩以前未知的棋盤游戲。為了成功,它需要從提供的規(guī)則描述中提取游戲的目標(biāo),并計(jì)劃其動(dòng)作以實(shí)現(xiàn)這一目標(biāo)。
然而,外部策略提取目標(biāo)的機(jī)制對(duì)我們來說是不可檢查的。在測試時(shí),這個(gè)策略可能與人類玩家一起游戲,這些人類玩家編造了他們想玩的新游戲。如果他們以我們的策略不熟悉的方式描述一個(gè)新游戲(例如使用不同的語言),該策略可能誤解了游戲的目標(biāo)。因此,即使它的計(jì)劃非常好,它的得分仍然可能很低。
自動(dòng)誘導(dǎo)的分布轉(zhuǎn)變
值得注意的是,內(nèi)部RL問題分布的轉(zhuǎn)變不需要來自外部,也可以由外部策略本身引起。這是由于自動(dòng)誘導(dǎo)的分布轉(zhuǎn)變:任何與環(huán)境互動(dòng)的RL智能體被激勵(lì)去改變它自己的輸入狀態(tài)分布(它遇到的狀態(tài)分布):因?yàn)楠?jiǎng)勵(lì)是智能體訪問的狀態(tài)的函數(shù),為了獲得更多的獎(jiǎng)勵(lì),智能體必須增加訪問更高獎(jiǎng)勵(lì)狀態(tài)的概率。
經(jīng)典的例子是推薦系統(tǒng),它通過改變平臺(tái)用戶的分布,使其向自然參與度更高的用戶傾斜,從而提高平臺(tái)上的參與度。
自動(dòng)誘導(dǎo)的分布轉(zhuǎn)變會(huì)導(dǎo)致內(nèi)部對(duì)齊問題:外部策略最終可能會(huì)通過它對(duì)這些內(nèi)部RL問題的反應(yīng)方式直接導(dǎo)致測試時(shí)內(nèi)部RL問題的分布變化,從而帶來它自己的內(nèi)部未對(duì)齊。
例如,我們的棋牌游戲策略可以通過使用過度的有毒語言來改變其用戶群,從而使新的用戶群傾向于選擇他們想玩的不同種類的棋牌游戲。這種不同的棋牌游戲分布可能會(huì)有政策所誤解的獲勝條件。因此,該政策造成了其自身的內(nèi)在錯(cuò)位。
解決內(nèi)部對(duì)齊的路徑
我認(rèn)為可以用簡單的技術(shù)來解決這里描述的內(nèi)部對(duì)齊問題。其核心思想是,只要在內(nèi)部RL問題的新分布上有一個(gè)我們信任的獎(jiǎng)勵(lì)函數(shù),就可以在這個(gè)新分布上重新訓(xùn)練外部策略。換句話說:
可以將內(nèi)部對(duì)齊問題歸約為要實(shí)現(xiàn) "外部" 對(duì)齊,已經(jīng)需要解決的問題。
需要可靠的方法來評(píng)估策略在做什么,這樣才可以在測試時(shí)為外部策略提供訓(xùn)練信號(hào)。
需要檢測分布的變化,這樣才知道是否可以相信策略和獎(jiǎng)勵(lì)函數(shù),還是需要調(diào)整它們。
在高風(fēng)險(xiǎn)的環(huán)境中,需要安全的探索,這樣,在更新內(nèi)部RL問題的新(和未知)分布中,外部策略可以避免不安全狀態(tài)。
這些解決方案需要非常謹(jǐn)慎地應(yīng)用。例如,當(dāng)使用從人類反饋中訓(xùn)練出來的獎(jiǎng)勵(lì)模型時(shí),我們需要在新分布上足夠快地更新它。特別是,自動(dòng)誘導(dǎo)的分布變化可能比獎(jiǎng)勵(lì)模型的更新速度更快。過去根據(jù)人類反饋進(jìn)行的RL工作表明,這種獎(jiǎng)勵(lì)函數(shù)的更新是至關(guān)重要的:如果底層任務(wù)分布發(fā)生變化,而我們不更新獎(jiǎng)勵(lì)模型,智能體將過擬合獎(jiǎng)勵(lì)函數(shù)。例如,這里Atari游戲已經(jīng)說明:

我們該何去何從?
對(duì)于內(nèi)部對(duì)齊的研究,我認(rèn)為最重要的里程碑是在經(jīng)驗(yàn)上表現(xiàn)出令機(jī)器學(xué)習(xí)從業(yè)者驚訝的失敗模式。我真的不認(rèn)為這篇文章中所描述的失敗模式會(huì)讓那些從事過元RL的人感到非常驚訝。其中一些具體的建議可能有希望,但我不知道它們是否已經(jīng)被推進(jìn)了。
感謝Joel Lehman、Katarina Slama、Evan Hubinger、Beth Barnes、Richard Ngo和William Saunders對(duì)本帖的反饋。