OpenAI的對齊研究方法
作者:Jan Leike, John Schulman & Jeffrey Wu
時間:2022年8月24日
我們對齊AGI的方法是經(jīng)驗性的和迭代的。我們正在提高AI系統(tǒng)從人類反饋中學習的能力,并協(xié)助人類評估AI。我們的目標是建立一個充分對齊的AI系統(tǒng),可以幫助我們解決所有其他的對齊問題。
介紹
我們的對齊研究旨在使通用人工智能(AGI)與人類的價值觀保持一致,并遵循人類的意圖。我們采取了一種迭代的、經(jīng)驗性的方法:通過嘗試對齊能力很強的AI系統(tǒng),我們可以了解哪些是有效的,哪些是無效的,從而完善我們的能力,使AI系統(tǒng)更安全、更一致。利用科學實驗,我們研究對齊技術(shù)如何擴展,以及它們會在哪些方面出現(xiàn)問題。
我們既要解決最有能力的AI系統(tǒng)中的對齊問題,也要解決在通往AGI的道路上預(yù)期會遇到的對齊問題。主要目標是盡可能地推動當前的對齊思想,并準確地理解和記錄它們?nèi)绾纬晒驗槭裁磿?。我們相信,即使沒有根本性的新對齊思想,我們也可能建立充分對齊的AI系統(tǒng),以大大推進對齊研究本身。
未對齊的AGI可能會給人類帶來實質(zhì)性的風險,解決AGI對齊問題可能非常困難,需要全人類一起努力。因此,我們致力于在安全的情況下公開分享我們的對齊研究。希望對我們的對齊技術(shù)在實踐中的實際效果保持透明,希望每個AGI開發(fā)者都能使用世界上最好的對齊技術(shù)。
在高層次上,我們的對齊研究方法側(cè)重于為非常聰明的AI系統(tǒng)設(shè)計一個可擴展的訓練信號,與人類的意圖相一致。它有三個主要的支柱:
利用人類的反饋訓練AI系統(tǒng)
訓練AI系統(tǒng)以協(xié)助人類評估
訓練AI系統(tǒng)來進行對齊研究
使AI系統(tǒng)與人類的價值觀相一致也帶來了一系列其他重大的社會技術(shù)挑戰(zhàn),例如決定這些系統(tǒng)應(yīng)該向誰看齊。解決這些問題對實現(xiàn)我們的使命很重要,但我們在這篇文章中不討論這些問題。
使用人類反饋訓練AI系統(tǒng)
來自人類反饋的RL是今天對齊我們部署的語言模型的主要技術(shù)。我們訓練一類叫做InstructGPT的模型,它來自于預(yù)訓練的語言模型,如GPT-3。這些模型被訓練為遵循人類的意圖:既包括指令給出的明確意圖,也包括隱含的意圖,如真實性、公平性和安全性。
我們的結(jié)果表明,現(xiàn)在有很多以對齊為重點的微調(diào)的低垂果實。InstructGPT比100倍大的預(yù)訓練模型更受人類青睞,而它的微調(diào)成本小于GPT-3預(yù)訓練計算量的2%,以及大約20,000小時的人類反饋。我們希望我們的工作能夠激勵行業(yè)中的其他人增加對大型語言模型對齊的投資,并且提高用戶對部署模型安全性的期望值。
我們的自然語言API對于對齊研究是非常有用的環(huán)境。它為我們提供了豐富的反饋回路,讓我們了解到對齊技術(shù)在現(xiàn)實世界中的實際效果,并以客戶愿意付費的一組非常多樣化的任務(wù)為基礎(chǔ)。平均來說,客戶已經(jīng)喜歡使用InstructGPT而不是預(yù)訓練模型。
然而,今天的InstructGPT版本離完全一致還有相當大的距離:它們有時不能遵循簡單的指令,不總是真實,不能可靠地拒絕有害的任務(wù),有時會給出有偏見或有毒的回應(yīng)。一些客戶發(fā)現(xiàn)InstructGPT的反應(yīng)明顯不如預(yù)訓練模型有創(chuàng)造性,這是我們在公開的基準上運行InstructGPT所沒有意識到的。我們還在努力發(fā)展對基于人類反饋的RL以及如何提高人類反饋質(zhì)量的更細致的科學理解。
對齊OpenAI的API要比對齊AGI容易得多,因為API上的大多數(shù)任務(wù)對人類來說并不難監(jiān)督,而且部署的語言模型也不比人類聰明。我們并不期望來自人類反饋的RL足以對齊AGI,但它是我們最感興趣的可擴展對齊思路的核心構(gòu)件塊,因此完善這一方法很有價值。
訓練模型以協(xié)助人類評估
基于人類反饋的RL有一個基本的限制:它假設(shè)人類可以準確地評估AI系統(tǒng)正在做的任務(wù)。今天,人類在這方面相當擅長,但隨著模型的能力越來越強,它們將能夠完成人類更難評價的任務(wù)(例如,在一個大型代碼庫或一篇科學論文中找到所有的缺陷)。模型可能會學會告訴人類評估者他們想聽到的東西,而不是告訴他們真相。為了擴展對齊,我們希望使用遞歸獎勵建模(RRM)、辯論和迭代放大等技術(shù)。
目前我們的主要方向是基于RRM:我們訓練的模型可以協(xié)助人類在那些人類難以直接評估的任務(wù)上評估模型。比如說。
我們訓練了模型來總結(jié)書籍。如果人類不熟悉這本書,評估書籍摘要需要很長的時間,但模型可以通過寫章節(jié)摘要來協(xié)助人類評估。
我們訓練了模型,通過瀏覽網(wǎng)絡(luò)并提供引文和鏈接來協(xié)助人類評價事實的準確性。在簡單的問題上,這個模型的輸出已經(jīng)優(yōu)于人類寫的回答。
我們訓練了模型,讓它對自己的輸出結(jié)果寫出批評意見。在一個基于查詢的總結(jié)任務(wù)中,批評性評論的幫助使人類在模型輸出中發(fā)現(xiàn)的缺陷平均增加了50%。即使要求人類寫出看起來合理但不正確的總結(jié),這一點也是成立的。
我們正在創(chuàng)建一組編碼任務(wù),這些任務(wù)被選定為非常難以對沒有協(xié)助的人類進行可靠的評估。我們希望能很快發(fā)布這個數(shù)據(jù)集。
即使AI系統(tǒng)提出了非常有創(chuàng)意的解決方案(如AlphaGo的第37步棋),我們的對齊技術(shù)也需要發(fā)揮作用,因此我們對訓練模型特別感興趣,以協(xié)助人類區(qū)分正確與誤導或欺騙性的解決方案。我們相信,盡可能多地了解如何使AI輔助評估在實踐中發(fā)揮作用的最好方法是建立AI助手。
訓練AI系統(tǒng)來做對齊研究
目前還沒有已知的可無限擴展的對齊問題的解決方案。隨著AI的不斷進步,我們預(yù)計會遇到一些新的對齊問題,這些問題我們在目前的系統(tǒng)中還沒有觀察到。其中有些問題我們現(xiàn)在就能預(yù)見到,有些將是全新的。
我們相信,找到可以無限擴展的解決方案可能是非常困難的。相反,我們的目標是采取一種更務(wù)實的方法:建立和對齊一個系統(tǒng),使其能夠比人類更快、更好地取得對齊研究進展。
隨著我們在這方面取得進展,AI系統(tǒng)可以接管越來越多的對齊工作,并最終構(gòu)思、實施、研究和開發(fā)比我們現(xiàn)在更好的對齊技術(shù)。它們將與人類一起工作,確保自己的繼任者與人類更加一致。
我們相信,評估對齊研究比生產(chǎn)對齊研究要容易得多,特別是在提供評估幫助的情況下。因此,人類研究人員將把越來越多的精力放在審查AI系統(tǒng)所做的對齊研究上,而不是自己去做這種研究。目標是將模型訓練得如此一致,以至于我們可以轉(zhuǎn)嫁對齊研究所需的幾乎所有認知勞動。
重要的是,我們只需要在相關(guān)領(lǐng)域具有人類水平的能力的 "較窄的 "AI系統(tǒng),就能在對齊研究上做得和人類一樣好。我們期望這些AI系統(tǒng)比通用系統(tǒng)或比人類聰明得多的系統(tǒng)更容易對齊。
語言模型特別適合于自動對齊研究,因為它們 "預(yù)裝 "了很多關(guān)于人類價值的知識和閱讀互聯(lián)網(wǎng)的信息。默認情況下,它們并不是獨立的智能體,因此不會在這個世界上追求自己的目標。為了進行對齊研究,他們不需要不受限制地訪問互聯(lián)網(wǎng)。然而,很多對齊研究任務(wù)可以被表述為自然語言或編碼任務(wù)。
未來版本的WebGPT、InstructGPT和Codex可以提供作為對齊研究助手的基礎(chǔ),但它們還沒有足夠的能力。雖然不知道我們的模型何時能有足夠的能力為對齊研究做出有意義的貢獻,但我們認為提前開始很重要。一旦訓練出可能有用的模型,我們計劃將其提供給外部社區(qū)做對齊研究。
局限性
我們對這種對齊AGI的方法感到非常興奮,但我們預(yù)計,隨著對人工智能技術(shù)的發(fā)展有更多的了解,它需要被調(diào)整和改進。我們的方法也有一些重要的局限。
這里闡述的路徑?jīng)]有強調(diào)魯棒性和可解釋性研究的重要性,而這兩個領(lǐng)域是OpenAI目前投資不足的。如果這符合你的條件,請申請我們的研究科學家職位。
使用AI輔助評估有可能擴大或放大AI助手中存在的甚至微妙的不一致、偏見或漏洞。
對齊AGI可能涉及解決與對齊今天的AI系統(tǒng)非常不同的問題。我們希望這一轉(zhuǎn)變在某種程度上是連續(xù)的,但如果有重大的不連續(xù)性或范式轉(zhuǎn)變,那么從對齊InstructGPT等模型中吸取的大多數(shù)教訓可能不會直接有用。
對齊問題中最難的部分可能與為AI系統(tǒng)設(shè)計一個可擴展的、對齊的訓練信號無關(guān)。即使這是真的,這樣的訓練信號仍是必要的。
從根本上說,能夠有意義地加速對齊研究的模型可能并不比對齊AGI容易。換句話說,能夠幫助對齊研究的最沒有能力的模型如果沒有適當?shù)膶R,可能已經(jīng)太危險了。如果這是真的,我們不會從自己的系統(tǒng)中得到多少幫助來解決對齊問題。
我們正在為這一研究方向招聘更多的優(yōu)秀人才! 如果你對此感興趣,我們正在招聘研究工程師和研究科學家!