最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

為什么我對AI輔助的人類反饋感到振奮?

2023-02-20 16:59 作者:星群譯制組  | 我要投稿

作者:Jan Leike

時間:2022年3月29日


一種已經(jīng)成功地使模型更加對齊的技術(shù)是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。最近,我們使用RLHF使GPT-3與人類的意圖相一致,例如遵循指令。這種方法的要點非常簡單:向人類展示一堆樣本,然后人類說哪一個更接近他們的意圖。然后你用強(qiáng)化學(xué)習(xí)基于這個信號來優(yōu)化模型(在這種情況下是GPT-3);本質(zhì)上,這是優(yōu)化它使其符合人類偏好。


我們能用同樣的方法來解決對齊的困難問題,在人類難以評估的任務(wù)上訓(xùn)練AI系統(tǒng)嗎?不能直接這樣做。


RLHF不具擴(kuò)展性

解決對齊困難問題的一個方法是,從人類反饋中訓(xùn)練一個真正強(qiáng)大的獎勵模型,然后利用其對困難任務(wù)的泛化能力來監(jiān)督非常有能力的智能體。


這種方法的主要動機(jī)是更大的模型有更好泛化能力的趨勢(參見“Scaling Laws for Transfer”論文中的例子)。具體來說,我們在InstructGPT中看到了一些令人印象深刻的泛化能力:盡管在這些任務(wù)上沒有得到監(jiān)督,但該模型遵循英語以外的語言和代碼的指令。然而,這可能不僅僅是獎勵模型的泛化;否則我們就不會在為克隆人類演示而訓(xùn)練的模型("SFT模型")中看到這種行為。雖然我們沒有測量過SFT和RLHF的泛化能力之間的差異,但從概念上看,RLHF的泛化能力應(yīng)該更好,因為對于我們關(guān)心的大多數(shù)任務(wù),評估通常比生成更 "容易"。


在高層次上,如果模型已經(jīng)熟悉了人類,那么我們想要的許多最重要的屬性可能相對容易理解。因此,從互聯(lián)網(wǎng)上預(yù)訓(xùn)練的足夠大的語言模型中微調(diào)出來的獎勵模型最終能很好地泛化 "做人類想要的東西",這是很有道理的。


然而,這種方法有一個很大的問題。對于人類難以評估的任務(wù),我們不會知道獎勵模型是否真的 "正確" 泛化了(以一種真正符合人類意圖的方式),因為我們沒有一個評估程序來檢查。我們所能做的就是通過類比進(jìn)行論證,因為獎勵模型在其他情況下從較容易的任務(wù)到較難的任務(wù)都能很好地泛化。


在過去,我們已經(jīng)看到了過擬合固定獎勵函數(shù)的問題:當(dāng)訓(xùn)練時間足夠長時,策略學(xué)會利用獎勵模型中的 "漏洞"。也許我們成功地使獎勵足夠強(qiáng)大,能夠經(jīng)受住大量的優(yōu)化,但我對此表示懷疑。然而,重要的一點是:


如果我們不能評估AI系統(tǒng)在做什么,我們就不知道它的行為是否符合我們的意圖。


因此,僅僅依靠獎勵模型的泛化的一個大問題是,我們會在黑暗中敲打它是否真的起作用,而不是依靠經(jīng)驗數(shù)據(jù)。我們對對齊標(biāo)準(zhǔn)的要求比這更高。


入口:AI輔助的人類反饋

隨著AI的不斷進(jìn)步,模型將能夠完成越來越難的任務(wù)。在某些規(guī)模上,人類將無法再評估模型在做什么,因為任務(wù)實在太復(fù)雜了。例如,如果模型寫了一個大的代碼庫,或者對一個復(fù)雜的科學(xué)問題產(chǎn)生了一個答案,那么人類就很難找到這個回答中的所有缺陷。


那么,如果我們找到一些方法來評估模型的行為呢?如果我們有一些評估的程序,我們也可以利用這個評估程序來訓(xùn)練系統(tǒng),使其更加對齊。


一般來說,如果我們有一個 "足夠聰明 "的人工智能系統(tǒng)來完成這樣一個艱難的任務(wù),那么我們也應(yīng)該能夠利用這個系統(tǒng)的能力來幫助人類更好地理解這個任務(wù)。這意味著可以訓(xùn)練同樣的AI系統(tǒng)來協(xié)助人類進(jìn)行評估。


這就是遞歸獎勵模型(RRM)的基本思想。RRM是RLHF的自然延伸,使用遞歸程序來處理更難的任務(wù):對于每個任務(wù),要么任務(wù)簡單到足以讓人類直接評估(然后我們使用RLHF),要么我們創(chuàng)建新的任務(wù),其目標(biāo)是幫助人類評估原始任務(wù)的回應(yīng)。這些 "評估協(xié)助任務(wù)" 是在一個更窄的領(lǐng)域中的更簡單的任務(wù)(它們可以只關(guān)注評估的一個方面),因此它們通常更容易評估。我們用RRM遞歸地解決這些任務(wù)。


特別是,對于很多任務(wù)來說,評估輔助應(yīng)該是在一個更狹窄的領(lǐng)域中更容易的任務(wù),所以我們可以把在更難的任務(wù)上對齊系統(tǒng)分解成對齊評估輔助。


我們之前在圖書總結(jié)的背景下探討了這個想法:對于不熟悉這本書的人類來說,評估整本書的總結(jié)需要花費很長的時間,因為他們需要先閱讀這本書。然而,如果我們能夠信任每一章的摘要,那么評估書的摘要就會變得容易得多。


應(yīng)該弄清楚我們能把這個想法推到什么程度??梢酝ㄟ^(遞歸)訓(xùn)練評估助手來對齊模型,最大的一組任務(wù)是什么?我預(yù)計有很多任務(wù)真的很難或不可能用這種技術(shù)來解決(例如,你如何分解對一些困難的哲學(xué)問題的書的評價?),但我樂觀地認(rèn)為它會讓我們走得很遠(yuǎn)。


泛化可能也有幫助。理想情況下,可以利用模型的泛化能力,使昂貴的評估變得便宜很多。在某種意義上,我們用于RLHF的獎勵模型已經(jīng)做到了這一點:在RL訓(xùn)練期間,我們沒有為每一個回合提供比較,而是只為其中的一個子集提供,讓獎勵模型對其余的回合進(jìn)行泛化。


當(dāng)訓(xùn)練模型做評估輔助時,我們希望在輔助任務(wù)中能利用大量的泛化(例如彼此之間或從頂層任務(wù)中)。但是,我們需要能夠使用人類的判斷來達(dá)成一個基礎(chǔ)真實的評估。RRM是做到這一點的一個方法,因為人類可以單獨評估每個輔助任務(wù),然后評估有輔助的更高層次的任務(wù),以此類推。一切都在輔助中 "接地氣",盡管實際做輔助的工作會隨著樹的大小呈指數(shù)增長,所以我們不能經(jīng)常這樣做。


認(rèn)知勞動和偏好輸入

從長遠(yuǎn)來看,我們應(yīng)該將評估所需的認(rèn)知勞動自動化,例如閱讀和交叉檢查大量的材料,推理和數(shù)學(xué),總結(jié),以及回答問題。有了自動化的認(rèn)知勞動,人類評價者就可以完全專注于偏好輸入:解決關(guān)于其意圖的陳述中的歧義,提供更詳細(xì)的偏好,并提供關(guān)于解決方案空間的指令性指導(dǎo)。


例如,假設(shè)我想要一個AI系統(tǒng),為我開發(fā)視頻游戲。我可能有很多關(guān)于流派、圖形、多人游戲等的偏好。這就是偏好的輸入。但我其實根本不想看代碼,也不想考慮游戲能擴(kuò)展到多少玩家,移植到不同的平臺有多難,等等?;卮疬@些問題需要大量的認(rèn)知勞動,但對我的偏好卻一無所知。這些 "認(rèn)知勞動" 問題的答案仍然與我息息相關(guān),但只要我能夠相信這些答案,我就不需要自己去回答,因為這些答案與我對視頻游戲的偏好無關(guān)。


如果我們成功地將人類反饋中涉及的認(rèn)知勞動自動化(大部分),并且我們能夠使RRM這樣的技術(shù)發(fā)揮作用,那么我們應(yīng)該能夠通過 "只 " 讓人類說出他們的偏好,在相當(dāng)大的任務(wù)范圍內(nèi)(所有可以遞歸評估的東西)對齊模型。


感謝Steven Bills和Katarina Slama對本文的反饋。


為什么我對AI輔助的人類反饋感到振奮?的評論 (共 條)

分享到微博請遵守國家法律
江门市| 客服| 乐安县| 社旗县| 龙胜| 临漳县| 万安县| 秦安县| 左云县| 和田县| 汉中市| 上栗县| 长岭县| 长泰县| 怀宁县| 东莞市| 田东县| 潜江市| 渝北区| 成武县| 瑞金市| 富裕县| 侯马市| 札达县| 宜丰县| 长寿区| 同江市| 白玉县| 徐州市| 皋兰县| 莆田市| 桐梓县| 南昌县| 遂平县| 白城市| 扶余县| 绥化市| 团风县| 弥勒县| 丁青县| 奎屯市|