最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

OpenAI發(fā)布對(duì)齊研究工作合集

2023-03-20 08:00 作者:小牛翻譯NiuTrans  | 我要投稿

本文首發(fā)于網(wǎng)站 機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請(qǐng)后臺(tái)詢問(wèn)哦

譯者|陳昊

單位|東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室

人工智能對(duì)齊是近年來(lái)被逐漸重視的一個(gè)研究方向,目的是讓AI系統(tǒng)的目標(biāo)和人類價(jià)值觀利益相對(duì)齊。如果AI和人類利益相違背容易造成產(chǎn)生錯(cuò)誤的目標(biāo),損害人類利益甚至脫離控制等不良后果,例如,超大規(guī)模預(yù)訓(xùn)練模型生成大量符合語(yǔ)言規(guī)則但卻失真的信息,甚至發(fā)表歧視性言論,實(shí)現(xiàn)AI對(duì)齊也主要存在三大挑戰(zhàn):選擇合適的價(jià)值觀、將價(jià)值觀編碼進(jìn)AI系統(tǒng)中、選擇合適的訓(xùn)練數(shù)據(jù)[1],更多相關(guān)基本概念可見(jiàn)博客每日AI前沿術(shù)語(yǔ):人工智能對(duì)齊(AI alignment),本文介紹了OpenAI在實(shí)現(xiàn)對(duì)齊研究中的一些技術(shù)方法。

OpenAI的對(duì)齊研究皆在使通用人工智能(Artificial General Intelligence,AGI)與人類價(jià)值觀保持一致并遵循人類意圖。他們采用了一種迭代的、經(jīng)驗(yàn)主義的方法:通過(guò)嘗試對(duì)齊功能強(qiáng)大的人工智能系統(tǒng),可以了解哪些技術(shù)手段是有效的,從而提高使人工智能系統(tǒng)更安全、更協(xié)調(diào)的能力,并通過(guò)實(shí)驗(yàn)研究了對(duì)齊技術(shù)如何擴(kuò)展以及它們將在那里中斷。

該研究解決了OpenAI最強(qiáng)大AI系統(tǒng)中的對(duì)齊問(wèn)題以及在通往AGI的道路上預(yù)計(jì)會(huì)遇到的對(duì)齊問(wèn)題,目標(biāo)是盡可能地推動(dòng)當(dāng)前對(duì)齊工作,并理解記錄成功或失敗的原因。研究人員表示即使沒(méi)有全新的對(duì)齊理念,也可以構(gòu)建充分對(duì)齊的AI系統(tǒng),從而大幅推進(jìn)對(duì)其研究進(jìn)展。

未對(duì)齊的AGI可能對(duì)人類構(gòu)成重大風(fēng)險(xiǎn),但解決AGI對(duì)齊問(wèn)題可能非常困難,需要全人類共同努力。因此,OpenAI致力于在安全的情況下公開分享對(duì)齊研究工作:他們希望他們的對(duì)齊技術(shù)在實(shí)踐中的實(shí)際效果保持透明,以及希望每個(gè)AGI開發(fā)人員都使用世界上最好的技術(shù)。

在高層次上,該對(duì)齊研究方法側(cè)重于為非常智能的AI系統(tǒng)設(shè)計(jì)可擴(kuò)展的訓(xùn)練信號(hào),該系統(tǒng)與人類意圖一致,它主要有以下三大支柱:

1.使用人類反饋訓(xùn)練AI系統(tǒng)

2.訓(xùn)練人工智能系統(tǒng)以協(xié)助人類評(píng)估

3.訓(xùn)練人工智能系統(tǒng)進(jìn)行對(duì)齊研究

使人工智能系統(tǒng)與人類價(jià)值觀保持一致也帶來(lái)了一系列其他重大的社會(huì)技術(shù)挑戰(zhàn),例如決定這些系統(tǒng)應(yīng)該與誰(shuí)保持一致。

使用人類反饋訓(xùn)練AI系統(tǒng)

來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)是OpenAI當(dāng)下調(diào)整語(yǔ)言模型的主要技術(shù)。他們訓(xùn)練了一類稱為InstructGPT的模型,這些模型源自預(yù)訓(xùn)練的語(yǔ)言模型,例如GPT-3,經(jīng)過(guò)訓(xùn)練以遵循人類意圖:指令給出的明確意圖和隱含意圖,如真實(shí)性、公平性和安全性。

結(jié)果表明,目前以對(duì)齊為重點(diǎn)的微調(diào)有很多容易實(shí)現(xiàn)的成果:與100倍大的預(yù)訓(xùn)練模型相比,人類更喜歡InstructGPT,而其微調(diào)成本不到 GPT-3 預(yù)訓(xùn)練計(jì)算的 2%以及需要大約 20,000 小時(shí)的人工反饋。他們希望這個(gè)工作能夠激勵(lì)業(yè)內(nèi)其他人增加對(duì)大型語(yǔ)言模型對(duì)齊的投資,并提高用戶對(duì)部署模型安全性的期望。

OpenAI API為對(duì)齊研究提供了一個(gè)非常有用的環(huán)境:它提供了一個(gè)豐富的反饋循環(huán),以了解對(duì)齊技術(shù)在現(xiàn)實(shí)世界中的實(shí)際效果??傮w來(lái)說(shuō),比起預(yù)訓(xùn)練模型而言,客戶更青睞于 InstructGPT。

然而,當(dāng)前的 InstructGPT 距離完全對(duì)齊仍有非常遙遠(yuǎn)的一段距離:它們有時(shí)不遵循簡(jiǎn)單的指令、并不總是真實(shí)的、不能可靠地拒絕有害的任務(wù)以及有時(shí)會(huì)給出有偏見(jiàn)或不良的反應(yīng)。一些客戶發(fā)現(xiàn) InstructGPT 的響應(yīng)比預(yù)訓(xùn)練模型的創(chuàng)造性要差得多,這是研究人員在公開可用的基準(zhǔn)上運(yùn)行 InstructGPT 時(shí)沒(méi)有意識(shí)到的。研究人員還致力于從人類反饋中發(fā)展對(duì)強(qiáng)化學(xué)習(xí)的更詳細(xì)的科學(xué)理解,以及如何提高人類反饋的質(zhì)量。

OpenAI 研究人員還表示對(duì)齊 API 比對(duì)齊 AGI 容易得多,因?yàn)?API 上的大多數(shù)任務(wù)對(duì)人類來(lái)說(shuō)并不是很難監(jiān)督,而且語(yǔ)言模型并不比人類更聰明。不期望來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)足以對(duì)齊 AGI,但它是可擴(kuò)展對(duì)齊方案的核心構(gòu)建塊,因此完善這種方法很有價(jià)值。

輔助人類評(píng)估的訓(xùn)練模型

來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)有一個(gè)基本限制:它假設(shè)人類可以準(zhǔn)確地評(píng)估AI系統(tǒng)正在執(zhí)行的任務(wù)。目前人類在這方面做得很好,但是隨著模型變得越發(fā)強(qiáng)大,他們將能夠完成人類更難以評(píng)估的任務(wù)(例如找出大型代碼庫(kù)或科學(xué)論文中的所有缺陷)。模型可能會(huì)學(xué)會(huì)告訴人類評(píng)估者他們想聽什么,而不是告訴他們真相。為了擴(kuò)展對(duì)齊,OpenAI希望使用遞歸獎(jiǎng)勵(lì)建模、 辯論和迭代放大等技術(shù)。

OpenAI目前研究的主要方向是基于遞歸獎(jiǎng)勵(lì)模型(Recursive Reward Modeling RRM):訓(xùn)練可以幫助人類在僅憑人力難以直接評(píng)估的任務(wù)上評(píng)估他們模型的模型。例如:

  • 訓(xùn)練了一個(gè)模型來(lái)總結(jié)書籍。如果人們不熟悉這本書,評(píng)估書本摘要需要很長(zhǎng)時(shí)間,但他們的模型可以通過(guò)編寫章節(jié)摘要來(lái)幫助人類評(píng)估。

  • 訓(xùn)練了一個(gè)模型來(lái)幫助人類通過(guò)瀏覽網(wǎng)頁(yè)并提供報(bào)價(jià)和鏈接來(lái)評(píng)估事實(shí)的準(zhǔn)確性。在簡(jiǎn)單的問(wèn)題上,該模型的輸出已經(jīng)優(yōu)于人類編寫的響應(yīng)。

  • 訓(xùn)練了一個(gè)模型讓它在自己的輸出上寫下批評(píng)性評(píng)價(jià):在基于查詢的摘要任務(wù)中,對(duì)批評(píng)性評(píng)論的幫助將人類在模型輸出中發(fā)現(xiàn)的缺陷平均增加了50%。即使他們要求人類編寫看似合理但不正確的摘要,這仍然成立。

  • 他們正在創(chuàng)建一組編碼任務(wù),這些任務(wù)被選擇為非常難以可靠地為無(wú)人協(xié)助的人類進(jìn)行評(píng)估,他們也希望盡快發(fā)布該數(shù)據(jù)集。

即使OpenAI的AI系統(tǒng)提出了非常有創(chuàng)意的解決方案(例如AlphaGo的第37步),對(duì)齊技術(shù)也需要發(fā)揮作用,因此研究人員對(duì)訓(xùn)練模型以幫助人類區(qū)分正確的解決方案和誤導(dǎo)性或欺騙性的解決方案特別感興趣,他們表示盡可能多地了解如何在實(shí)踐中進(jìn)行AI輔助評(píng)估的最佳方法是構(gòu)建AI助手。

訓(xùn)練人工智能系統(tǒng)進(jìn)行對(duì)齊研究

目前還沒(méi)有已知無(wú)限可擴(kuò)展解決方案來(lái)解決對(duì)齊問(wèn)題,隨著人工智能的不斷進(jìn)步,OpenAI預(yù)計(jì)會(huì)遇到一些他們?cè)诋?dāng)前系統(tǒng)中尚未觀察到新對(duì)齊問(wèn)題。

他們認(rèn)為找到一個(gè)無(wú)限可擴(kuò)展的解決方案可能非常困難。所以他們的目標(biāo)是采用更務(wù)實(shí)的方法:構(gòu)建和調(diào)整一個(gè)系統(tǒng),該系統(tǒng)可以比人類更快更好地取得對(duì)齊研究進(jìn)展。

隨著研究人員在這方面取得進(jìn)展,他們的人工智能系統(tǒng)可以接管越來(lái)越多的對(duì)齊工作,并最終構(gòu)思、實(shí)施、研究和開發(fā)比現(xiàn)在更好的對(duì)齊技術(shù)。這些系統(tǒng)將人類一起工作,以確保他們自己的繼承者與人類目標(biāo)更加一致。

研究人員表示,評(píng)估對(duì)齊研究比構(gòu)建它要容易得多,尤其是在提供評(píng)估幫助的情況下。因此,研究人員將越來(lái)越多的精力集中在審查人工智能系統(tǒng)所做的對(duì)齊研究,而不是自己進(jìn)行這項(xiàng)研究,他們的目標(biāo)是訓(xùn)練模型如此對(duì)齊,以便可以省去對(duì)齊研究所需的幾乎所有認(rèn)知?jiǎng)趧?dòng)。

重要的是,他們只需要“更狹義”的AI系統(tǒng),這些系統(tǒng)在相關(guān)領(lǐng)域具有人類水平的能力就可以像人類一樣進(jìn)行對(duì)齊研究,并預(yù)計(jì)這些人工智能系統(tǒng)比通用系統(tǒng)或比人類更智能的系統(tǒng)更容易對(duì)齊。

語(yǔ)言模型特別適合自動(dòng)化對(duì)齊研究,因?yàn)樗鼈儭邦A(yù)裝”了大量來(lái)自閱讀互聯(lián)網(wǎng)的關(guān)于人類價(jià)值觀的知識(shí)和信息,開箱即用,由于它們并不是獨(dú)立的人格,因此也不會(huì)追求自己的目標(biāo),要進(jìn)行對(duì)齊研究,它們不必不受限制地訪問(wèn)互聯(lián)網(wǎng)。許多對(duì)齊研究任務(wù)可以表述為自然語(yǔ)言或編碼任務(wù)。

WebGPT、InstructGPT和Codex的未來(lái)版本可以作為對(duì)齊研究助手提供基礎(chǔ),但它們的能力還不夠,雖然研究人員不知道它們的模型何時(shí)能夠?yàn)閷?duì)齊研究做出有意義的貢獻(xiàn),但他們認(rèn)為提前開始這項(xiàng)研究非常重要。一旦訓(xùn)練了一個(gè)可能有用的模型,他們會(huì)開放研究讓外部對(duì)齊研究團(tuán)隊(duì)可以訪問(wèn)它。

弊端

OpenIAI研究人員對(duì)這種調(diào)整AGI的方法感到非常興奮,隨著AI技術(shù)的發(fā)展,它也需要進(jìn)行調(diào)整和改進(jìn)。同樣該方法也存在一些重要的缺點(diǎn):

  • 低估了穩(wěn)健性和可解釋性研究的重要性,這兩個(gè)領(lǐng)域OpenAI目前投資不足。

  • 使用AI輔助進(jìn)行評(píng)估有可能擴(kuò)大或放大AI輔助中存在的細(xì)微的不一致、偏見(jiàn)或漏洞。

  • 調(diào)整AGI可能涉及解決與調(diào)整當(dāng)今AI系統(tǒng)截然不同的問(wèn)題。他們預(yù)計(jì)過(guò)度會(huì)有些連續(xù),但如果存在重大的不連續(xù)性或范式轉(zhuǎn)變,那么從InstructGPT等對(duì)齊模型中學(xué)到的大部分經(jīng)驗(yàn)可能不會(huì)直接起作用。

  • 對(duì)齊問(wèn)題中最困難的部分可能與為他們的AI系統(tǒng)設(shè)計(jì)可擴(kuò)展且對(duì)齊的訓(xùn)練信號(hào)無(wú)關(guān),即便假設(shè)為真,這樣的訓(xùn)練信號(hào)也是必要的。

  • 從根本上來(lái)說(shuō),對(duì)齊能夠有意義地加速對(duì)齊研究的模型可能并不比對(duì)齊AGI更容易。換句話說(shuō),如果沒(méi)有正確對(duì)齊,能力最差的模型幫助對(duì)齊研究可能太危險(xiǎn)了,他們將不會(huì)從自己的系統(tǒng)中獲得太多幫助來(lái)解決對(duì)齊問(wèn)題。

參考鏈接:

[1]每日AI前沿術(shù)語(yǔ):人工智能對(duì)齊(AI alignment):https://hub.baai.ac.cn/view/16083
[2]Our approach to alignment research:https://openai.com/blog/our-approach-to-alignment-research/


hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)

筆芯~??

往期精彩文章


OpenAI發(fā)布對(duì)齊研究工作合集的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
五河县| 博罗县| 紫阳县| 湘潭市| 射洪县| 小金县| 剑阁县| 江城| 阿荣旗| 辽宁省| 孟连| 积石山| 米易县| 罗定市| 嘉荫县| 嵊州市| 滦南县| 利川市| 和林格尔县| 军事| 武威市| 潢川县| 新平| 娱乐| 卢氏县| 镇宁| 新平| 娄底市| 若羌县| 南靖县| 建阳市| 准格尔旗| 溆浦县| 石狮市| 平湖市| 玉田县| 海淀区| 金秀| 南召县| 惠水县| 墨玉县|