最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

為什么我對我們的對齊方法感到樂觀

2023-02-20 14:45 作者:星群譯制組  | 我要投稿

一些贊成的論點和對常見反對意見的回應(yīng)

作者:Jan Leike

時間:2022年12月6日


OpenAI的對齊研究方法包括完善RLHF、AI輔助的人類評估以及自動對齊研究。為什么說這是一個好的策略?有什么理由對它持樂觀態(tài)度?我的樂觀態(tài)度源于五個方面。

  1. 人工智能的積極進展。過去幾年的許多發(fā)展使人工智能系統(tǒng)比最初看起來更有利于對齊,無論是從人工智能技術(shù)樹如何搖擺,還是從我們迄今為止收集到的關(guān)于對齊的經(jīng)驗證據(jù)來看。

  2. 適度的目標(biāo)。我們不是要解決所有的對齊問題。而只是試圖對齊一個足夠有能力的系統(tǒng),使其在對齊方面比我們?nèi)〉酶嗟倪M展。

  3. 評估比生成容易。這是非常普遍的原則,在許多領(lǐng)域都適用。這對對齊研究也是如此。

  4. 我們正為迭代做好準(zhǔn)備。我們可以為對齊路徑設(shè)置迭代的、可測量的改進。

  5. 對語言模型的確信。語言模型將足夠聰明,可以基于它們實現(xiàn)有用的對齊研究工作。


盡管如此,仍有許多工作要做,關(guān)鍵是要記住,比我們更聰明的系統(tǒng)的對齊方式將與今天模型的對齊方式大不相同。區(qū)分樂觀和謹(jǐn)慎也很重要:證明重點在于證明新系統(tǒng)是充分對齊的,不能將其轉(zhuǎn)換到證明與早期系統(tǒng)相比情況已經(jīng)改變。


最后一節(jié)回應(yīng)了對我們方法的一些常見反對意見。


我感到樂觀的原因

1. 人工智能的積極進展

1.1 人工智能技術(shù)樹看起來生長良好

幾年前,通向AGI的道路似乎是通過在廣泛的游戲和多智能體環(huán)境中從頭開始訓(xùn)練深度RL智能體。這些智能體將被對齊為最大化簡單的得分函數(shù),如生存和贏得游戲,并且對人類的價值觀不甚了解。對齊所產(chǎn)生的智能體將困難重重:我們不僅要從頭開始創(chuàng)建一個與人類相一致的目標(biāo)函數(shù),可能還需要向智能體灌輸實際的新能力,如理解人類社會、人類關(guān)心什么以及人類如何思考。


大型語言模型(LLMs)使這個問題變得容易得多:它們預(yù)裝了很多人類的知識,包括關(guān)于人類偏好和價值觀的詳細(xì)知識。默認(rèn)情況下,它們并不是試圖在這個世界上追求自己目標(biāo)的智能體,它們的目標(biāo)函數(shù)是相當(dāng)可塑的。例如,他們很容易被訓(xùn)練得更乖巧。


1.2 經(jīng)驗性的證據(jù)是有利的

近年來,一些最令人振奮的對齊工作是經(jīng)驗性的:研究人員建立了他們認(rèn)為更加對齊的系統(tǒng)的原型,以了解它的實際運作情況和問題所在。這并不是說要貶低概念性的見解,但如果沒有數(shù)學(xué)定理或經(jīng)驗性證據(jù)的支持,這些見解的基礎(chǔ)總是不穩(wěn)固的。

  • 基于人類偏好的深度RL。在開始工作的時候,我認(rèn)為這很有可能不會真的成功。除了在很小的數(shù)據(jù)集上,GANs最初并沒有真正發(fā)揮作用,然后花了幾年時間和許多研究人員的努力來找出如何使訓(xùn)練穩(wěn)定的訣竅。然而,RLHF工作得非常好,即使是在視覺上非常奇怪的雅達利游戲上,以及在使用真正人類的反饋時。要讓它發(fā)揮作用并不容易。Dario對調(diào)參的直覺對于使它在雅達利游戲上工作相當(dāng)重要。訓(xùn)練在當(dāng)時非常糟糕,因為深度RL通常是這樣的,花了很多迭代來使其工作。但它確實復(fù)現(xiàn)了。

  • 基于人類反饋的摘要總結(jié)。這確實是第一個令人信服的概念證明,證明RLHF在語言模型上是有效的,而且你可以優(yōu)化那些模糊的、有點含糊的目標(biāo)。這一點很重要,因為人類的價值觀是模糊的,在這篇論文之前,還沒有人工智能系統(tǒng)從模糊的目標(biāo)中學(xué)習(xí)的明確示范。雖然從理論上講,學(xué)習(xí)人類的價值觀與學(xué)習(xí)識別圖像中的貓并沒有什么本質(zhì)上的區(qū)別,但不清楚針對這些模糊的目標(biāo)進行優(yōu)化在實踐中是否有效。

  • InstructGPT證明了在語言模型中存在真正的 "對齊盈余",而這并不難獲得。主要的結(jié)果是,在人類的偏好分?jǐn)?shù)上,有效地增加了100倍的模型大小,這絕對瘋狂,如果 "僅僅 " 增加5倍的模型大小,我就會感到超級驚訝。所需的人類反饋量是相當(dāng)適中的,也是可以實現(xiàn)的。~大約50,000次比較,以及大約300,000回合的訓(xùn)練。這個數(shù)字是如此之小,以至于我們實際上可以讓人類對每一個訓(xùn)練回合進行手工標(biāo)記。這是第一次表明,即使是適度的微調(diào)也能在GPT-3大小的模型尺度上使模型的行為上發(fā)生很大的轉(zhuǎn)變,變得更加一致。這是令人難以置信的好消息。

  • 自我批判的模型。在一項對人類來說并不難的任務(wù)上,用一個非超人的模型幫助人類多發(fā)現(xiàn)50%的缺陷,這是一個令人驚訝的結(jié)果,表明我們的模型基本上已經(jīng)可以為反饋幫助增加很多價值。這讓我對遞歸獎勵建模的樂觀態(tài)度增加了許多:有意義地協(xié)助人類評估其實比我之前想象的要容易。也許這是因為我們的人類標(biāo)注者實際上并不那么小心,或者是因為不是很聰明的模型在注意到隨機缺陷方面還是相當(dāng)不錯的。

  • 鑒別者-批評者(DC)差距。DC差距可能是我們現(xiàn)在擁有的最接近經(jīng)驗的衡量標(biāo)準(zhǔn),即我們能從語言模型中引出多少潛在的知識。大的DC差距意味著模型知道他們回應(yīng)中的一堆缺陷,當(dāng)我們好言相勸時,他們并沒有告訴我們。我們在批評論文中測得的DC差距出乎意料地小,從那時起,我們一直在努力尋找一種干凈的方法,在玩具任務(wù)或我們專門為此目的制作的代碼數(shù)據(jù)集上展示這個問題。如果激發(fā)潛在的知識實際上是一個大問題,為什么它在今天的模型中很難表現(xiàn)出來?看起來他們其實很擅長告訴我們他們所做的事情有什么問題。盡管如此,令人擔(dān)憂的是,DC的差距并沒有隨著模型大小變小而縮小。


我們不要被這些證據(jù)所迷惑。到目前為止,它是有利的,但并不意味著它將繼續(xù)有利。人工智能系統(tǒng)還沒有比我們更聰明,所以我們還沒有面臨真正的問題。但迄今為止的證據(jù)仍然算數(shù):如果我們在對齊目前的人工智能系統(tǒng)方面有實質(zhì)性的困難,我們應(yīng)該更擔(dān)心對齊未來的人工智能系統(tǒng)。如果我們不能在簡單模式下贏得游戲,我們就不應(yīng)該期望在困難模式下贏得游戲。但如果我們確實在簡單模式下贏了,我們?nèi)匀豢赡茉诶щy模式下失敗,我們需要做好準(zhǔn)備,努力工作。


2. 適度的目標(biāo)

在考慮解決對齊問題時,我們很自然地會想到要為整個問題找到一勞永逸的解決方案。在LLM興起之前,我也曾經(jīng)這樣想過。找到這個一勞永逸的解決方案可能是非常困難的,而且我們并不真正知道如何做到這一點。這項任務(wù)似乎非常艱巨,很容易讓人對它感到悲觀。


但這并不是我們?nèi)祟愋枰龅氖虑?。相反,我們只需要制作一個最小可行產(chǎn)品:自動化的對齊研究者,幫助我們更快地取得更多的對齊進展。例如,如果我們將大多數(shù)對齊工作的生成自動化,我們就可以專注于它的評估,我聲稱這要容易得多。換句話說,在這條道路上,我們很可能不需要自己去面對對齊問題的所有最難的挑戰(zhàn),而是可以讓人工智能幫助我們解決這些問題。


這有很多好處:

  1. 模型不一定要完全對齊。它只需要足夠?qū)R,以幫助我們完成這個狹窄的任務(wù)。它不必指出它所知道的某個對齊建議中的所有缺陷(它可以有一個DC缺口),只要我們有一些其他方法來找到它們。它不必有最大的幫助,只要有相當(dāng)?shù)膸椭涂梢粤?。反正我們不信任這個模型所做的事情,如果我們不能嚴(yán)格地評估它,就會拋棄它。

  2. 該模型可以 "更窄"。它不需要那么好地理解生物學(xué)、物理學(xué)或人類社會。在實踐中,我們可能會從一個確實了解所有這些東西的LLM開始精調(diào),但我們可以對模型進行一些有針對性的腦損傷,作為一種安全預(yù)防措施。更廣泛地說,模型只需要在少數(shù)領(lǐng)域超過人類水平,而在其他大多數(shù)領(lǐng)域可以比人類更差。

  3. 增加更多的保障措施是很容易的。系統(tǒng)不需要連接到互聯(lián)網(wǎng),不需要與大量的人互動,也不需要運行任意的代碼。這些保障措施不會保護我們不受想要突圍的超級智能系統(tǒng)的影響,但它們將有助于在一段時間內(nèi)增加我們的安全系數(shù)。

  4. 這個模型不需要很多專門機構(gòu)。該系統(tǒng)不需要設(shè)定自己的目標(biāo),也不需要追求跨度很大的目標(biāo)。我們不需要用現(xiàn)實世界中的長期結(jié)果來監(jiān)督它。

  5. 該模型不需要持久性記憶。我們可以對模型需要知道的東西進行微調(diào),并使用一個適度規(guī)模的環(huán)境來保存任務(wù)相關(guān)的信息。我們不需要模型來決定它應(yīng)該記住什么。

  6. 對齊稅并不那么重要。因為這個系統(tǒng)在市場上并不直接與其他可能不那么對齊的系統(tǒng)競爭,只要自動對齊研究的總體成本是可控的,相對于其他訓(xùn)練方法來說,較大的開銷可能不會造成很大的影響。


這些方面都應(yīng)該使我們的工作明顯地比實際嘗試對齊一個通用的數(shù)字代理,在世界范圍內(nèi)像一個CEO一樣行事更容易。


然而,自動對齊研究也需要對研究產(chǎn)品進行更嚴(yán)格的審查:因為這項研究大概會告知下一代人工智能系統(tǒng)是如何構(gòu)建的,這是一條人工智能系統(tǒng)試圖獲得超越人類力量的道路。此外,成功實現(xiàn)這一目標(biāo)并不意味著人類在對齊方面的工作已經(jīng)完成,即使他們不再有足夠的認(rèn)知能力,無法繼續(xù)做出相對于AI有意義的智力貢獻。


3. 評估比生成更容易

這個原則很重要,因為它使我們能夠輕易地從系統(tǒng)中獲得有意義的對齊工作。如果它是真的,這意味著如果我們把時間和精力集中在評估系統(tǒng)在做什么,而不是自己做這項工作(即使他們的生成能力還不如我們),就可以大大加快研究。


這一屬性是遞歸獎勵建模(recursive reward modeling)的基礎(chǔ)(在某種程度上也有爭議)。如果評估比生成更容易,那么協(xié)助的人類比類似的聰明AI生成器更有優(yōu)勢。只要這是真的,我們就可以通過為做這些任務(wù)的AI系統(tǒng)創(chuàng)造評價(從而訓(xùn)練)信號來擴展到越來越難的任務(wù)。雖然遞歸獎勵建模不會無限地擴展,但也不需要。它只需要有足夠的規(guī)模,讓我們能夠用它來監(jiān)督大量的對齊研究。


評估比生成更容易是非常普遍的屬性,在許多領(lǐng)域都適用:

  • 形式化的問題。大多數(shù)計算機科學(xué)家認(rèn)為NP !=P,這意味著有一大類問題,對于這些問題,這一屬性在形式上是真的。這些問題中的大多數(shù)也已經(jīng)被經(jīng)驗證明對我們能想到的算法具有這一屬性。SAT求解,圖算法,證明搜索,模型檢查,等等。

  • 經(jīng)典的體育和游戲。任何值得觀看的運動或游戲都有這個屬性。觀眾不僅需要知道誰贏了比賽,還需要知道誰領(lǐng)先了,誰的動作或打法很厲害。因此,評價需要足夠容易,讓絕大多數(shù)的觀眾成員都能做到。同時,生成(玩好游戲)需要有足夠的難度,使最好的人類可以很容易地將自己從絕大多數(shù)人中區(qū)分出來;否則舉行比賽就沒有什么意思了。例如:在《星際爭霸》中,你可以通過觀察玩家的單位和經(jīng)濟來判斷誰領(lǐng)先;在《DotA》中,你可以通過觀察殺敵/死亡統(tǒng)計和獲得的金幣來判斷誰領(lǐng)先;在國際象棋中,你可以通過觀察棋子和位置來判斷誰領(lǐng)先(盡管很好地評估位置可能很困難);在足球或橄欖球中,你可以通過觀察記分牌和誰的控球時間多來判斷誰獲勝;諸如此類。

  • 很多消費產(chǎn)品。比較不同智能手機的質(zhì)量比制造一個更好的智能手機要容易得多。這不僅適用于容易測量的特性,如內(nèi)存量或像素數(shù),也適用于更模糊的方面,如它的握持感如何,電池能持續(xù)多久。事實上,這對大多數(shù)(科技)產(chǎn)品來說都是如此,這就是人們關(guān)注亞馬遜和YouTube評論的原因。反過來說,對于那些個人消費者難以評價的產(chǎn)品,而且政府的規(guī)定很少,市場上往往充斥著低質(zhì)量的產(chǎn)品。例如,營養(yǎng)補充劑經(jīng)常沒有他們聲稱的好處,不包含他們聲稱的有效成分的量,或者包含不健康的污染。在這種情況下,評估需要擁有昂貴的實驗設(shè)備,所以大多數(shù)做出購買決定的人沒有可靠的信號,他們只能服用補充劑,看看自己感覺如何。

  • 大多數(shù)工作:每當(dāng)公司雇用一名員工時,他們需要知道該員工是否真正幫助他們完成任務(wù)。如果花那么多時間和精力來評估員工的工作表現(xiàn),那是不經(jīng)濟的,所以只能花更少的精力來評估工作表現(xiàn)。這是否有效?我當(dāng)然不會聲稱公司在員工的實際表現(xiàn)上能得到一個完美的信號,但如果他們不能比員工更容易地進行評估,那么像績效改進、晉升和解雇這樣的努力基本上是隨機的,是浪費時間的。因此,那些不在員工績效評估上投入大量時間和精力的公司應(yīng)該會在競爭中勝過其他投入的公司。

  • 學(xué)術(shù)研究。評估學(xué)術(shù)研究是出了名的困難,政府資助機構(gòu)幾乎沒有區(qū)分好壞研究的工具:決定通常需要由非專家做出,很多低質(zhì)量的工作得到了資助,而像引用次數(shù)和發(fā)表論文的數(shù)量這樣的代理指標(biāo)也被稱為過度優(yōu)化。著名的NeurIPS實驗發(fā)現(xiàn)學(xué)術(shù)評審過程中有很多噪聲,但容易被忽視的是也有很多有意義的信號:撰寫一篇NeurIPS論文通常需要至少幾個月的全職工作(比如說>1000小時),而評審?fù)ǔT趲讉€小時內(nèi)完成(比如說4個評審各花3小時共12小時)。然而,審稿人委員會77%的時間在接受/拒絕決定上達成一致,94%的時間在接受口頭/熱點評級的論文上達成一致。這是一個令人難以置信的高一致率(比OpenAI API任務(wù)高得多,在該任務(wù)中,標(biāo)注者與標(biāo)注者的一致率約為70-80%),因為生成的努力比評估多兩個數(shù)量級。關(guān)于破碎的學(xué)術(shù)激勵機制,以及NeurIPS論文是否真正推動了人類的科學(xué)知識,有很多話要講,但似乎至少對于寫一篇進入NeurIPS的論文的任務(wù)來說,這個說法是正確的。


然而,也有一些任務(wù),這一原則通常是不正確的:寫你的簽名比評估一個給定的方塊字是否是你的簽名要容易。加密或哈希一張狗的圖片很容易,但要評估某個給定的二進制數(shù)據(jù)是否是加密或哈希的狗的圖片則非常困難。這根本上使得密碼學(xué)成為可能。


上面的證據(jù)并不意味著該原則對對齊研究也是如此。但它肯定在非常大程度上暗示了這一點。換句話說,如果評估NeurIPS論文比寫論文要難得多,而且審稿人的意見往往不會超過偶然水平,我們是不是應(yīng)該把這一點算作反對對齊研究容易自動化的證據(jù)?


更有甚者,如果對齊研究的評估真的不比它的生成容易,這甚至對純粹的人類驅(qū)動的對齊研究來說也是個壞消息。在這種情況下,找到對齊問題解決方案的人將無法說服其他人使用該解決方案,因為其他人不知道它是否有任何好處。相反,每個AGI開發(fā)者都需要為自己想出一個解決方案。


雖然任何評估對齊研究的代理指標(biāo)都可能被過度優(yōu)化,并會導(dǎo)致對齊研究看起來很有說服力,但從根本上說是有缺陷的,但這并不意味著不會有代理指標(biāo)在一段時間內(nèi)仍有優(yōu)化作用。


然而,有一個重要的警告:對抗性構(gòu)建的輸入可能比非對抗性的輸入難得多(盡管可能仍然比生成更容易評估)。例如,超人的圍棋智能體有簡單的漏洞。對齊研究的一個假設(shè)性的例子:只需在訓(xùn)練期間控制隨機性,就有可能將后門植入模型中。不知道這一點的人類評估者會錯過由惡意的AI系統(tǒng)編寫的訓(xùn)練代碼中的重要缺陷,該系統(tǒng)正在秘密地操縱隨機性源。


另一個重要的開放性問題是,如果你不能依賴來自真實世界的反饋信號,那么評估會容易得多。例如,即使你不被允許運行一段代碼,對它的評估是否比編寫它更容易?如果我們擔(dān)心AI系統(tǒng)編寫的代碼可能包含木馬和破壞沙盒的代碼,那么在仔細(xì)審查之前,我們就不能運行它來 "看看會怎么樣"。在這種情況下,自己從頭開始重寫代碼可能更容易,而不是發(fā)現(xiàn)一個隱藏的缺陷(萊斯定理表明這并不具有防御優(yōu)勢)。


4. 我們正為迭代做好準(zhǔn)備

概念性對齊工作的一個問題是,不清楚什么時候有進展,進展有多大。最好的替代方法是 "其他研究人員是否認(rèn)為正在取得進展",而這是有缺陷的:對齊研究界對任何概念性的工作是否構(gòu)成真正的進展,基本上沒有分歧。


一旦你為迭代做了準(zhǔn)備,很多問題就變得更容易解決了:你有(1)一個基本的系統(tǒng)在工作(即使一開始只是勉強),(2)一個代理指標(biāo)告訴你,你所做的改變是否是改進。這允許對現(xiàn)有的系統(tǒng)進行漸進式的改變,也允許你從現(xiàn)實中獲得信息的反饋循環(huán)。在機器學(xué)習(xí)的比喻中,(1)是一個模型架構(gòu),(2)允許我們計算梯度;它們一起使能了梯度下降步驟。


在這個意義上,對齊研究是非常元的:我們正在優(yōu)化指標(biāo)(2),衡量我們在制作指標(biāo)(如對齊的獎勵模型)上取得的進展,這些指標(biāo)可以被優(yōu)化(如通過RL)來取得進展。我不會贅述明顯的好心免責(zé)聲明,我們不可能無限期地優(yōu)化任何指標(biāo)。然而,有些指標(biāo)是有用的,在需要更好的指標(biāo)之前,可以優(yōu)化它們一段時間。


雖然我們還沒有為對齊AGI的迭代做好準(zhǔn)備,但我們已經(jīng)成功地為很多導(dǎo)致它的小問題做好了準(zhǔn)備。一些例子:


  • 訓(xùn)練InstructGPT以最大化人類對OpenAI API提示的偏好,以及訓(xùn)練ChatGPT以作為對話助手最大化人類的偏好。這讓我們可以評估很多不同的模型:我們可以調(diào)整超參數(shù),改變數(shù)據(jù)組合,改變訓(xùn)練方法(例如SFT與PPO),并看看它們的效果如何。不用說,這不是完美的指標(biāo),因為它不能很好地捕捉一堆問題(例如不安全的回應(yīng))。在某些時候,我們的模型會學(xué)會愚弄人類評估員,但它對改進InstructGPT和ChatGPT非常有價值。

  • 通過人類自動紅隊來衡量安全措施的對抗穩(wěn)健性。如果人類需要花費更多的時間和精力來造成安全故障,那么安全措施就得到了改進。

  • 使用有針對性的擾動來衡量AI對人類評估的幫助程度。通過對模型回應(yīng)引入有針對性的擾動,使其故意變得更好或更壞,我們可以衡量人類在不同環(huán)境下對兩個不同版本的評價有多好。如果我們保持標(biāo)注者和模型能力不變,就可以嘗試不同形式的協(xié)助,并測量人類需要多長時間來評估,以及得到什么樣的準(zhǔn)確性。

  • 訓(xùn)練批判模型和測量判別者-批判者(DC)差距:如果我們減少DC差距,我們就在減少模型的潛在知識,而這些知識是我們無法獲得的。由于鑒別器是用監(jiān)督學(xué)習(xí)和SGD訓(xùn)練的,它們應(yīng)該能夠找到激活的任何簡單函數(shù)來對鑒別任務(wù)進行最佳預(yù)測;在這種情況下,模型很難隱藏相關(guān)知識。

  • 我們想訓(xùn)練對齊研究輔助模型,并在這些模型的完成度上對研究者的偏好進行評估。類似于我們的InstructGPT和ChatGPT設(shè)置,可以用它來衡量我們使模型對對齊研究者的作用有多大。


一勞永逸的對齊解決方案將與我們今天所做的非常不同,目前的指標(biāo)肯定不能一直跟蹤進展。但它們確實能讓我們朝著這個方向迭代前進,這一點非常有價值。對齊研究界不同意這些指標(biāo)是否真的指向正確的方向,但他們可以驗證我們在短期目標(biāo)上取得了進展。隨著時間的推移,我們的進展將變得更加明顯,更容易評估。


5. 語言模型的說服力

在過去的5年里,語言模型已經(jīng)變得非常聰明,我預(yù)計在未來的幾年里,它們將繼續(xù)變得更聰明。我相信,我們自己的認(rèn)知能力本身并沒有什么特別之處,在某些時候,語言模型在任何與我們自己的工作有關(guān)的有限語境下的文入文出任務(wù)中都會比我們做得更好。很多對齊的工作都可以用這種形式來表述,因此它們相當(dāng)適合于此。關(guān)于這個話題,還有很多話要說,但這里不是說這個的地方。


常見的反對意見

我很樂觀,我們可以產(chǎn)生進展,最終說服其他人相信我們方法的優(yōu)點。如果我們的自動對齊研究人員寫了關(guān)于嵌入式機構(gòu)(embedded agency)的論文,從事這個問題的研究人員認(rèn)為在這個議程上有真正的進展,這算不算?如果語言模型產(chǎn)生了新的可解釋性見解,證明在理解Transformer時是有用的呢?如果我們從根本上不信任由AI產(chǎn)生的任何對齊研究,我們就有可能將自己排除在取得進步的巨大機會之外。


下面我將對針對我們的策略提出的具體反對意見作出回應(yīng)。


遞歸獎勵建模不起作用

對術(shù)語做一個簡單的澄清。有些人認(rèn)為遞歸獎勵建模(RRM)是迭代放大的一個實例(放大=使用AI助手,而提煉=RLHF)。然而,大多數(shù)人似乎在更狹義的意義上理解迭代放大與模仿學(xué)習(xí),這是與遞歸獎勵建模不同的算法,并且有不同的缺點(例如,它沒有利用評估比生成更容易的原則)。對迭代放大的反對意見通常是針對模仿學(xué)習(xí)版本(即因子認(rèn)知)或辯論來表述的,但我試圖在此為RRM重新鑄造它們。


混淆的論點

這個反對意見的第一個版本來自于對混淆論點問題的解釋:你可以創(chuàng)造一些允許不正確完成的任務(wù)的例子,對于這些任務(wù),一個對齊的辯論代理將很難贏得一個惡意的對手。簡單地說,存在著一些比生成正確答案更難評估的任務(wù)(即上面討論的原則的反例)。該文章提供了一個使用素數(shù)測試的例子:聲稱一個給定的數(shù)字是素數(shù)很容易,而在辯論中反駁這一說法需要實際找到一個除數(shù)(由于存在統(tǒng)計學(xué)上的素數(shù)測試,這就更難了)。


該帖子聲稱,同樣的弱點也適用于迭代放大法,但沒有提供論據(jù),只提到這將如何適用于事實認(rèn)知版本的放大法。然而,與RRM不同,事實認(rèn)知并不十分依賴評估比生成更容易的原則。對那些評價不比生成容易的任務(wù)進行監(jiān)督,在RRM中不會有好的效果,這就是為什么這個原則對對齊研究很重要。


激發(fā)潛在的知識

激發(fā)潛在知識(ELK)問題是關(guān)于讓AI系統(tǒng)告訴我們他們所知道的一切,即使我們不能切實地監(jiān)督他們這樣做,因為他們知道的比我們更多。作者討論了他們期望這個問題如何與辯論、放大和RRM相互作用。他們勾勒了一個假想的場景,即一個AI系統(tǒng)擅長預(yù)測生物過程的細(xì)節(jié),但卻難以向人類解釋。這樣的系統(tǒng)可以通過預(yù)測它對人類生物學(xué)的影響來制造一種新的藥物,但卻無法解釋它是如何以及為什么發(fā)揮作用。這意味著,即使有類似能力的協(xié)助,如果不實際進行人體試驗,人類也無法判斷這種藥物是否可以安全使用,而且這些試驗也無法檢測到非常緩慢的副作用。在這種情況下,輔助的人類在評估藥物方面并不比模型生成藥物的能力強,除非我們有足夠的安全系數(shù)來根據(jù)現(xiàn)實世界的結(jié)果進行訓(xùn)練,否則RRM不會有好的效果。


回應(yīng)

原始性測試的例子可以很容易地用RRM進行監(jiān)督,因為統(tǒng)計學(xué)上的原始性測試是如何工作的,可以向人類解釋,并被接受為充分的證據(jù)。但對于其他任務(wù)來說,情況可能就不是這樣了。因此,"更深層次的ELK問題 "是與原始性測試相類似的:在這種情況下,模型有一個可靠的 "直覺",但它無法闡明或提供證據(jù)。


讓我們用素數(shù)測試的比喻來說明這一點。例如,主智能體可以寫一些代碼,依靠它的 "直覺" 認(rèn)為一個數(shù)字N是素數(shù),而不能提供素數(shù)的證據(jù)。我們的評估助手可以指出缺乏證據(jù),我們就不得不扔掉這些代碼。這既適用于主智能體的 "直覺 "是正確的,代碼可以工作的情況,也適用于主智能體是欺騙性的,試圖在代碼中嵌入錯誤的情況。


像這樣的情況可能會招致(潛在的)對齊稅,因為我們的模型 "知道 "正確的答案。如果我們不能相信模型的代碼,而不得不運行可能效率低得多的代碼,我們就會產(chǎn)生潛在的大量額外成本,而這些成本僅僅是由錯誤對齊引起的。即使我們的模型能夠很好地完成這些任務(wù),我們也可能很難用RRM來監(jiān)督這些任務(wù)。在沒有另一種對齊技術(shù)的情況下(我們目前還沒有),我們不得不要求人類自己來完成這些任務(wù)。


目前還不清楚這在實踐中到底有多重要。如果這是廣泛存在的問題,我們應(yīng)該能夠用DC差距方法來測量一些。也許我們能夠?qū)Ω蟮哪P突蚋y的任務(wù)檢測到這一點,但現(xiàn)在我們還沒有這個問題足夠干凈的展示來研究。


最近的一篇論文表明,我們也許能夠直接讀出語言模型認(rèn)為哪些語句是真的;如果這能復(fù)現(xiàn),這也許是緩解這個問題的一個途徑,如果它在實踐中顯示出來。此外,更好的可解釋性工具可以對這個問題有很大幫助,因為它們可以讓我們更直接地接觸到一個模型的潛在知識。


即使這個問題在模型中很容易測量,而且不容易解決,這個問題是否很重要,將取決于它所產(chǎn)生的對齊稅有多大。對于對齊研究自動化來說,即使是更大的稅收也可能沒有多大關(guān)系,我們也許能夠利用自動化對齊研究找到ELK問題的規(guī)避方法。


總的來說,我對到目前為止的證據(jù)的解讀是,對齊最困難的障礙不在這里。


對齊研究的自動化與ML研究的自動化太相似了

每天所做的大部分對齊工作只是普通的ML研究:我們看數(shù)據(jù),寫代碼,訓(xùn)練模型,看圖,等等。這意味著,要使大部分工作自動化,我們實際上需要建立自動化的通用ML研究人員。一旦這成為可能,智能爆炸就已經(jīng)開始了,因為自動化的ML研究人員就可以致力于使人工智能系統(tǒng)更有能力,可能會迅速加速進展。這意味著我們可能需要非常迅速地在對齊上取得大量進展才能跟上。


這表明,自動化對齊研究的道路將難以駕馭,以便在能力上有區(qū)別地加速對齊。


回應(yīng)

自動化的ML研究無論如何都會發(fā)生

似乎令人難以置信的是,ML研究人員不會在它變得可行的時候想到這樣做。


我們正在使對齊和ML研究變得可替代。

現(xiàn)在,對齊研究主要受人才的限制。一旦我們達到相當(dāng)程度的自動化,就可以更容易地在對齊和能力研究之間重新分配GPU。特別是,只要對齊技術(shù)不充分,就可以花更多的計算來改進它們。其他人因?qū)R技術(shù)不充分被迫停止做他們很興奮的事情,這時申請額外的資源要容易得多。

一般來說,每個正在開發(fā)AGI的人都有動機使其與自己保持一致。這意味著他們會受到激勵,將資源分配到一致性上,因此我們越容易做到這一點,他們就越有可能遵循這種激勵。


我們可以專注于對對齊研究有不同幫助的任務(wù)

與ML研究相比,對齊研究更具有前范式性,需要理清其基本原理。那種幫助明確正確的路徑、概念、形式和認(rèn)知工具的任務(wù)對對齊更有幫助。


此外,在正確的問題上的工作可以獲得如此多的好處。即使我們不把正在進行的任何ML研究和工程自動化,可能仍然可以通過改善優(yōu)先級和找到更好的項目來獲得對齊工作的效率的大幅提高。然而,這可能是工作的一部分,如果我們對模型的對齊沒有信心的話,我不會愿意把它交給模型,所以這條路要謹(jǐn)慎對待。


一旦有了自動對齊的研究者,最重要和最緊迫的研究將是使它的繼任者比它自己更加對齊。也需要利用它來投資更長期的研究,但是目前還沒有一個清晰的圖景來說明解決當(dāng)前的理論對齊問題會如何幫助我們使下一代的ML模型更加對齊。盡管如此,自動對齊研究有可能幫助我們在什么是正確的長期理論研究問題上取得更多進展。


ML的進展主要由計算而非研究驅(qū)動

這種情緒已經(jīng)被稱為 "苦澀的教訓(xùn)"。過去的趨勢表明,人工智能中的計算用量大約每3.4個月翻一番,而效率的提高每16個月才翻一番。粗略的說,計算用量主要由計算驅(qū)動,而效率則由研究驅(qū)動。這意味著計算量的增加在歷史上主導(dǎo)了ML的進展。


但我不太看重這個論點,因為我不確定這個趨勢是否會繼續(xù)下去,而且總有可能發(fā)現(xiàn)一個 "Transformer殺手" 架構(gòu)或類似的東西。


對齊研究只能由AI系統(tǒng)完成,而AI系統(tǒng)運行起來太危險了

對齊研究需要強有力的后果主義推理

這個反對意見通常是由MIRI和與MIRI相近的研究人員提出的。他們堅信,為了做好對齊研究,你需要善于 "后果推理",即基于模型的規(guī)劃,允許創(chuàng)造性地找出實現(xiàn)目標(biāo)的路徑。這是一種非常普遍的認(rèn)知技術(shù),因此我們應(yīng)該期待智能AI能夠使用它。更有甚者,如果你不使用這種推理,那么你就會錯過它們將如何行為以及它們將如何努力尋求權(quán)力的一些重要方面。


回應(yīng)

試圖對比你聰明得多的系統(tǒng)的思維過程進行建模是相當(dāng)無望的。然而,如果了解系統(tǒng)的激勵機制(即獎勵/損失功能),我們?nèi)匀豢梢詫λ麄儠噲D做什么做出有意義的陳述。僅僅對激勵機制進行推理并不能避免內(nèi)在的錯位(misalignment)問題(見下文),所以需要明確說明這些問題。


似乎很明顯,一個更弱的系統(tǒng)可以幫助進行這種對齊的研究,如果我們是對的,將能夠用相對平凡的AI系統(tǒng)來證明這一點,這些系統(tǒng)并沒有遭受潛在的災(zāi)難性的錯位問題。


一個假想的例子是一個相當(dāng)安全的AI系統(tǒng),它顯然對對齊研究有用,它是一個定理證明引擎:給定一個正式的數(shù)學(xué)語句,它產(chǎn)生一個證明或反例。我們可以用一個證明檢查器程序性地評估這個證明,所以可以確保只產(chǎn)生正確的證明(相對于永遠無法證明為不矛盾的正式公理系統(tǒng))。這樣一個系統(tǒng)應(yīng)該有意義地加速任何基于形式化數(shù)學(xué)的對接研究工作,它也可以幫助正式驗證和發(fā)現(xiàn)計算機程序中的安全漏洞。


內(nèi)部對齊問題

內(nèi)部對齊

我的研究主要集中在 "外部 "對齊:為AI系統(tǒng)在給它們的任務(wù)上獲得一個對齊的訓(xùn)練和評估目標(biāo)。雖然大多數(shù)對齊研究者都認(rèn)為這是我們需要搞好的一個關(guān)鍵問題,但一些對齊研究者認(rèn)為這并不是最困難的部分。例如,可能是我們實際上卡在了內(nèi)部錯位問題上:模型學(xué)會了在內(nèi)部對推斷的目標(biāo)執(zhí)行優(yōu)化算法,而推斷的目標(biāo)在測試時出現(xiàn)了誤導(dǎo)。


回應(yīng)

我們還沒有看到在我們的語言模型中出現(xiàn)令人信服的內(nèi)部錯位的證明,盡管其他人已經(jīng)證明了學(xué)習(xí)的目標(biāo)在測試時可以誤導(dǎo)。我們知道LLMs表現(xiàn)出語境中的學(xué)習(xí),所以在某些時候它們會表現(xiàn)出語境中的RL,這是可信的。


我們可以用簡單的技術(shù)來解決內(nèi)部對齊問題,這是可信的。只要在測試分布上有一個我們可以信任的獎勵函數(shù),就可以在內(nèi)部錯位發(fā)生時發(fā)現(xiàn)它,并在新的分布上重新訓(xùn)練策略。換句話說,我們可以將內(nèi)部對齊問題歸約為為實現(xiàn) "外部 "對齊已經(jīng)需要解決的問題:

  • 我們需要可靠的方法來評估策略正在做什么,這樣才可以在測試時為外部策略提供訓(xùn)練信號。

  • 我們需要檢測分布的變化,這樣我們才知道是否可以相信策略和獎勵函數(shù),或者需要調(diào)整它們。

  • 在高風(fēng)險的環(huán)境中,我們需要安全的探索,這樣外部策略就能在更新內(nèi)部RL問題的新(和未知)分布中避免不安全狀態(tài)。

這些解決方案需要非常謹(jǐn)慎地應(yīng)用。例如,當(dāng)使用從人類反饋中訓(xùn)練出來的獎勵模型時,我們需要在新分布上足夠快地更新它。特別是,自動誘導(dǎo)的分布轉(zhuǎn)移可能會使分布的變化比獎勵模型的更新更快。


我們不知道泛化會有多好的效果

有些人提出了這樣的擔(dān)憂:我們不知道泛化在未來會有多大的作用。到目前為止,它的工作效果相當(dāng)令人難以置信。例如,InstructGPT可以推廣到遵循外語指令。然而,如果我們不能很好地理解獎勵模型,那么依靠獎勵模型來泛化到分布外的任務(wù)是有風(fēng)險的。


回應(yīng)

我同意這一點,但我認(rèn)為這還不夠深入。我們應(yīng)該非常努力地避免依賴泛化,除非有比 "它似乎非常好用" 更好的理由。問題是,一旦我們主要依靠泛化,而不是評估系統(tǒng)在做什么,我們基本上就是在 "盲目飛行":因為沒有評估,所以沒有辦法知道泛化是否仍然有效,可能直到為時已晚。


使用類似于RRM的設(shè)置,我希望我們能得到AI系統(tǒng),在我們?nèi)匀豢梢赃f歸地評估一切的時候,能夠完成相當(dāng)困難的任務(wù)。此外,從長遠來看,我們不應(yīng)該做訓(xùn)練/測試時間的區(qū)分,而是在部署后繼續(xù)評估和監(jiān)督系統(tǒng)。換句話說。我想確保高能力的AI系統(tǒng)總是有一些被監(jiān)督的概率。


這并不意味著泛化不會幫助我們。理想情況下,可以利用泛化來使昂貴的評估變得更便宜??梢哉f,獎勵模型已經(jīng)實現(xiàn)了這個作用:在RL訓(xùn)練期間,我們不需為每個回合提供比較,而只為其中的一個子集提供比較,并讓模型對其余的回合進行推廣。但這是i.i.d.分布內(nèi)的泛化,因為我們從所有的任務(wù)中隨機抽取監(jiān)督的任務(wù)。


當(dāng)使用人工智能輔助的人類反饋時,我們希望在輔助任務(wù)中利用大量的泛化(例如對彼此或從頂級任務(wù))。為了確定模型在困難的任務(wù)上究竟有多大的一致性,我們不應(yīng)該排斥依靠泛化性,但我們希望能夠利用遞歸的人類判斷來達到基礎(chǔ)真相(例如,人類分別評估每個協(xié)助任務(wù),然后評估有協(xié)助的更高層次的任務(wù),以此類推)。


特別感謝Leo Gao、William Saunders、Ajeya Cotra、Paul Christiano和Jeff Wu對這個話題的大量討論和反饋,以及Daniel Kokotajlo、Holden Karnofsky、Daniel Mossing和Carroll Wainwright對這個帖子的反饋。


為什么我對我們的對齊方法感到樂觀的評論 (共 條)

分享到微博請遵守國家法律
唐山市| 唐海县| 左贡县| 长寿区| 易门县| 武功县| 长海县| 禹州市| 嘉善县| 文安县| 巴彦县| 平泉县| 龙泉市| 农安县| 柘荣县| 沁源县| 曲周县| 朝阳县| 柳河县| 静安区| 印江| 金堂县| 阜阳市| 巴里| 龙海市| 呼玛县| 达日县| 泰和县| 大连市| 宜良县| 中西区| 腾冲县| 萝北县| 尼木县| 高陵县| 敖汉旗| 昌乐县| 宽城| 高陵县| 五指山市| 临高县|