最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

通過獎勵建模實現(xiàn)可擴展的智能體對齊

2023-02-21 16:56 作者:星群譯制組  | 我要投稿

作者:Jan Leike

時間:2018年11月21日

https://deepmindsafetyresearch.medium.com/scalable-agent-alignment-via-reward-modeling-bf4ab06dfd84


這篇文章概述了我們的新論文,勾勒了解決智能體對齊問題的研究方向。我們的方法依賴于獎勵建模的遞歸應(yīng)用,以符合用戶意圖的方式解決復(fù)雜的現(xiàn)實世界問題。

https://arxiv.org/abs/1811.07871


近年來,強化學(xué)習(xí)在復(fù)雜的游戲環(huán)境中產(chǎn)生了令人印象深刻的表現(xiàn),從雅達利、圍棋、國際象棋到《Dota2》和《星際爭霸II》,AI智能體在越來越復(fù)雜的領(lǐng)域迅速超越了人類的水平。游戲是開發(fā)和測試機器學(xué)習(xí)算法的理想平臺。游戲任務(wù)帶來的挑戰(zhàn)需要一系列的認(rèn)知能力來完成,反映了解決現(xiàn)實世界問題所需的技能。機器學(xué)習(xí)研究人員可以在云端并行運行成千上萬的模擬實驗,產(chǎn)生大量的訓(xùn)練數(shù)據(jù)來滿足系統(tǒng)學(xué)習(xí)的需求。


其中的關(guān)鍵是,游戲往往有明確的目標(biāo),以及分?jǐn)?shù)來近似實現(xiàn)該目標(biāo)的進展。這個分?jǐn)?shù)為強化學(xué)習(xí)智能體提供了有用的獎勵信號,并使我們能夠迅速獲得反饋,判斷哪些算法和架構(gòu)的選擇效果最好。


智能體對齊問題

最終,人工智能進步的目標(biāo)是使我們能夠解決現(xiàn)實世界中日益復(fù)雜的挑戰(zhàn),從而造福人類。但現(xiàn)實世界并沒有內(nèi)置的獎勵功能。這帶來了一些挑戰(zhàn),因為這些任務(wù)的表現(xiàn)并不容易定義。我們需要一個好的方法來提供反饋,并使人工智能體可靠地理解我們想要的東西,以幫助我們實現(xiàn)它。換句話說,我們想用人類的反饋來訓(xùn)練人工智能系統(tǒng),使系統(tǒng)的行為與我們的意圖相一致。為了這個目的,我們將智能體的對齊問題定義如下。


我們?nèi)绾尾拍軇?chuàng)造出行為符合用戶意圖的智能體?


對齊問題可以在強化學(xué)習(xí)的框架內(nèi)進行,只是智能體不接受數(shù)字獎勵信號,而是通過互動協(xié)議與用戶互動,讓用戶向代理傳達他們的意圖。這個協(xié)議可以有多種形式:例如,用戶可以提供示范、偏好、最佳行動,或傳達獎勵函數(shù)等。智能體對齊問題的解決方案是按照用戶意圖行事的策略。


通過這篇新論文,我們概述了正面解決智能體對齊問題的研究方向。在我們早期對AI安全問題的分類以及對AI安全問題的大量闡述的基礎(chǔ)上,我們描繪了一幅連貫的圖畫,說明這些領(lǐng)域的進展如何能夠產(chǎn)生對智能體對齊問題的解決方案。這為構(gòu)建系統(tǒng)打開了大門,這些系統(tǒng)可以更好地理解如何與用戶互動,從他們的反饋中學(xué)習(xí),并預(yù)測他們的偏好--無論是在近期的狹窄、簡單的領(lǐng)域,還是在長期的更復(fù)雜、抽象的領(lǐng)域,都需要超越人類水平的理解。


通過獎勵建模實現(xiàn)對齊

我們研究方向的主旨是基于獎勵模型:通過用戶的反饋來訓(xùn)練獎勵模型,以捕捉他們的意圖。同時,用強化學(xué)習(xí)來訓(xùn)練策略,使獎勵模型的獎勵最大化。換句話說,我們將學(xué)習(xí)做什么(獎勵模型)與學(xué)習(xí)如何做(策略)分開。

獎勵模型的示意圖:從用戶的反饋中訓(xùn)練出獎勵模型來捕捉他們的意圖;這個獎勵模型為用強化學(xué)習(xí)訓(xùn)練的智能體提供獎勵。


例如,在以前的工作中,我們根據(jù)用戶的喜好教智能體做后空翻,用目標(biāo)狀態(tài)的例子把物體排列成不同形狀,根據(jù)用戶的喜好和專家的示范玩雅達利游戲。在未來,我們希望設(shè)計出能夠?qū)W習(xí)適應(yīng)用戶提供反饋方式(例如,使用自然語言)的算法。


擴大規(guī)模

從長遠來看,我們希望將獎勵建模擴展到那些人類無法直接評估的復(fù)雜領(lǐng)域。要做到這一點,我們需要提高用戶評估結(jié)果的能力。我們討論了獎勵建模如何可以遞歸應(yīng)用:可以使用獎勵建模來訓(xùn)練智能體,以協(xié)助用戶進行評估過程本身。如果評估比行為更容易,這可以讓我們從更簡單的任務(wù)引導(dǎo)到越來越普遍和更復(fù)雜的任務(wù)。這可以被認(rèn)為是迭代放大(iterated amplification)的一個實例。

遞歸獎勵模型的示意圖:用遞歸獎勵模型訓(xùn)練的代理(右邊的小圓圈)協(xié)助用戶對當(dāng)前被訓(xùn)練的智能體(大圓圈)產(chǎn)生的結(jié)果進行評估。


例如,設(shè)想我們要訓(xùn)練智能體來設(shè)計計算機芯片。為了評估提議的芯片設(shè)計,用獎勵模型訓(xùn)練其他的 "助手" 智能體,在模擬中對芯片的性能進行基準(zhǔn)測試,計算散熱,估計芯片的壽命,試圖找到安全漏洞,等等??偟膩碚f,這些輔助智能體的輸出使用戶能夠通過協(xié)助評估擬議的芯片設(shè)計來訓(xùn)練芯片設(shè)計者智能體。雖然每一個輔助智能體都要解決非常困難的任務(wù),這些任務(wù)對于今天的ML系統(tǒng)來說是遙不可及的,但這些任務(wù)首先要比設(shè)計芯片更容易完成:要設(shè)計計算機芯片,你必須了解這些評估任務(wù)中的每一個,但反過來就不是這樣。在這個意義上,遞歸獎勵建模可以使我們站在智能體 "腳手架"?上解決越來越難的任務(wù),同時與用戶的意圖保持一致。


研究挑戰(zhàn)

為了將獎勵模型擴展到如此復(fù)雜的問題上,有幾個挑戰(zhàn)需要解決。下面列出了其中的五個挑戰(zhàn),并在論文中對其進行了更深入的描述,以及解決這些問題的方法。

我們預(yù)期在擴展獎勵模型時遇到的挑戰(zhàn)(左)和解決這些挑戰(zhàn)的有希望的方法(右)。


這把我們帶到了智能體對齊的最后一個重要組成部分:當(dāng)在現(xiàn)實世界中部署智能體時,我們需要向用戶提供證據(jù),證明智能體確實是充分對齊的。本文討論了五個不同的研究途徑,可以幫助增加對智能體的信任:設(shè)計選擇、測試、可解釋性、形式化驗證和理論保證。一個雄心勃勃的目標(biāo)是制作安全證書:可以用來證明技術(shù)開發(fā)是負(fù)責(zé)任的人工制品,并使用戶有信心依賴經(jīng)過訓(xùn)練的智能體。


展望

雖然我們相信遞歸獎勵建模是一個非常有前途的訓(xùn)練對齊智能體的方向,但我們目前不知道它的擴展性有多好(需要更多的研究!)。不過值得慶幸的是,智能體對齊還有幾個其他的研究方向正在同時向前發(fā)展:

  • 模仿學(xué)習(xí) (Imitation learning)

  • 短視強化學(xué)習(xí)(Myopic reinforcement learning)

  • 逆強化學(xué)習(xí)(Inverse reinforcement learning)

  • 合作式逆強化學(xué)習(xí)(Cooperative inverse reinforcement learning)

  • 迭代擴增(Iterated amplification)?

  • 通過爭論學(xué)習(xí)(Debate)

  • 智能體基礎(chǔ)組件設(shè)計(Agent foundations)

本文進一步探討了這些方向的異同。


主動開展計算機視覺系統(tǒng)對于對抗性輸入的魯棒性研究,對當(dāng)今的ML應(yīng)用至關(guān)重要。類似的,智能體對齊研究有望成為機器學(xué)習(xí)系統(tǒng)在復(fù)雜現(xiàn)實世界進行部署的關(guān)鍵。我們有理由感到樂觀:雖然我們預(yù)計在擴展獎勵建模時將面臨挑戰(zhàn),但這些挑戰(zhàn)是我們可以取得進展的具體的技術(shù)性研究問題。從這個意義上說,這研究方向今天已經(jīng)準(zhǔn)備就緒,可以進行深度強化學(xué)習(xí)智能體的實證研究了。


在這些研究問題上取得進展是DeepMind持續(xù)工作的主題。如果你是一名研究員、工程師或有興趣加入我們的優(yōu)秀通才,請查看我們的空缺職位,并在申請時注明你對對齊研究的興趣。


感謝David Krueger、Tom Everitt、Miljan Martic、Vishal Maini、Shane Legg,以及DeepMind、OpenAI和人類未來研究所的許多人對這項工作的貢獻。


通過獎勵建模實現(xiàn)可擴展的智能體對齊的評論 (共 條)

分享到微博請遵守國家法律
东海县| 南投县| 博客| 禹州市| 开阳县| 定西市| 本溪市| 双牌县| 剑川县| 宣城市| 凌海市| 松阳县| 湖南省| 鲁山县| 梁山县| 彰化县| 曲松县| 马关县| 内江市| 靖远县| 西青区| 佛教| 红原县| 乌拉特后旗| 锡林浩特市| 哈巴河县| 岱山县| 合川市| 屏东市| 凤山市| 馆陶县| 临海市| 马鞍山市| 中江县| 无为县| 太保市| 北安市| 化州市| 五原县| 调兵山市| 双牌县|