最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

用迭代放大法學(xué)習(xí)復(fù)雜目標(biāo)

2023-02-20 17:34 作者:星群譯制組  | 我要投稿

作者:

時(shí)間:2018年10月22日

https://openai.com/blog/amplifying-ai-training/


我們提出了一種叫做迭代放大(Iterated Amplification)的AI安全技術(shù),它可以讓我們指定超出人類規(guī)模的復(fù)雜行為和目標(biāo),通過演示如何將一個(gè)任務(wù)分解成更簡單的子任務(wù),而不是通過提供標(biāo)注的數(shù)據(jù)或獎(jiǎng)勵(lì)函數(shù)。雖然這個(gè)想法處于非常早期的階段,只在簡單的玩具算法領(lǐng)域完成了實(shí)驗(yàn),但我們決定在其初步狀態(tài)下提出它,因?yàn)槲覀冋J(rèn)為它可以證明是一種可擴(kuò)展的AI安全方法。


https://arxiv.org/abs/1810.08575


如果想訓(xùn)練ML系統(tǒng)來執(zhí)行一項(xiàng)任務(wù),我們需要一個(gè)訓(xùn)練信號(hào)--一種評估它做得如何的方法,以幫助它學(xué)習(xí)。例如,監(jiān)督學(xué)習(xí)中的標(biāo)簽或強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)就是訓(xùn)練信號(hào)。ML的形式主義通常假設(shè)訓(xùn)練信號(hào)已經(jīng)存在,并專注于從它那里學(xué)習(xí),但在現(xiàn)實(shí)中,訓(xùn)練信號(hào)必須來自某處。如果沒有訓(xùn)練信號(hào),就不能學(xué)習(xí)任務(wù),如果有錯(cuò)誤的訓(xùn)練信號(hào),會(huì)得到非預(yù)期的,有時(shí)是危險(xiǎn)的行為。因此,提高產(chǎn)生訓(xùn)練信號(hào)的能力,對學(xué)習(xí)新任務(wù)和AI的安全都很有價(jià)值。


目前是如何產(chǎn)生訓(xùn)練信號(hào)的?有時(shí),我們想要的目標(biāo)可以通過算法進(jìn)行評估,比如在圍棋比賽中計(jì)算分?jǐn)?shù),或者檢查一組數(shù)字是否被成功排序(下圖的左側(cè)面板)。大多數(shù)現(xiàn)實(shí)世界的任務(wù)并不適合用算法訓(xùn)練信號(hào),但我們往往可以通過讓人類執(zhí)行任務(wù)(例如,標(biāo)記訓(xùn)練集或演示RL任務(wù)),或判斷人工智能在任務(wù)上的表現(xiàn)來獲得訓(xùn)練信號(hào)(下圖中間部分)。然而,許多任務(wù)是如此復(fù)雜,以至于人類無法判斷或執(zhí)行它們--例子可能是設(shè)計(jì)一個(gè)復(fù)雜的交通系統(tǒng)或管理一個(gè)大型計(jì)算機(jī)網(wǎng)絡(luò)安全的每一個(gè)細(xì)節(jié)(下圖的右面板)。


迭代放大是一種在某些假設(shè)下為后一類任務(wù)生成訓(xùn)練信號(hào)的方法。也就是說,雖然人不能直接執(zhí)行或判斷整個(gè)任務(wù),但我們假設(shè)人可以在給定任務(wù)的一部分后,明確識(shí)別它由哪些小的部分組成。例如,在聯(lián)網(wǎng)計(jì)算機(jī)的例子中,人類可以將 "保衛(wèi)服務(wù)器和路由器的集合" 分解為 "考慮對服務(wù)器的攻擊","考慮對路由器的攻擊",以及 "考慮前兩種攻擊可能的互動(dòng)"。此外,我們假設(shè)人類可以完成非常小的任務(wù)實(shí)例,例如 "識(shí)別一個(gè)日志文件中的特定行是否可疑"。如果這兩點(diǎn)成立,那么我們可以從人類對小任務(wù)的訓(xùn)練信號(hào)中建立起大任務(wù)的訓(xùn)練信號(hào),用人類來協(xié)調(diào)它們的組裝。


在我們的放大實(shí)現(xiàn)中,我們首先對小的子任務(wù)進(jìn)行采樣,并通過向人類(能做這些小任務(wù)的人)征求示范,來訓(xùn)練AI系統(tǒng)做這些任務(wù)。然后,我們開始對稍大的任務(wù)進(jìn)行采樣,通過要求人類將其分解成小塊來解決這些任務(wù),經(jīng)過前一步訓(xùn)練的AI系統(tǒng)現(xiàn)在可以解決這些任務(wù)。我們使用這些在人類幫助下獲得的稍難的任務(wù)的解決方案作為訓(xùn)練信號(hào),訓(xùn)練AI系統(tǒng)直接解決這些二級任務(wù)(沒有人類幫助)。然后,我們繼續(xù)進(jìn)一步合成任務(wù),一邊迭代一邊建立訓(xùn)練信號(hào)。如果這個(gè)過程奏效,最終的結(jié)果是一個(gè)完全自動(dòng)化的系統(tǒng),盡管開始時(shí)沒有這些任務(wù)的直接訓(xùn)練信號(hào),但也能解決高度復(fù)合的任務(wù)。這個(gè)過程有點(diǎn)類似于專家迭代(AlphaGo Zero中使用的方法),只不過專家迭代是強(qiáng)化現(xiàn)有的訓(xùn)練信號(hào),而迭代放大是從頭開始建立訓(xùn)練信號(hào)。它還與最近的一些學(xué)習(xí)算法有共同之處,這些算法在測試時(shí)使用問題分解來解決一個(gè)問題,但不同的是,它在沒有事先訓(xùn)練信號(hào)的環(huán)境中運(yùn)行。


實(shí)驗(yàn)

正如我們之前通過辯論(debate)進(jìn)行的AI安全工作一樣,直接對超出人類規(guī)模的任務(wù)進(jìn)行研究,對于一個(gè)原型項(xiàng)目來說太難了。另外,使用一個(gè)真正的人作為訓(xùn)練信號(hào)會(huì)帶來復(fù)雜的問題,所以我們還沒有這樣做(盡管計(jì)劃在未來這樣做)。在第一次實(shí)驗(yàn)中,我們轉(zhuǎn)而嘗試放大一個(gè)算法訓(xùn)練信號(hào),以表明迭代放大在這個(gè)簡單的環(huán)境中是可行的。我們還將注意力限制在監(jiān)督學(xué)習(xí)上(與之前在RL中對人類訓(xùn)練信號(hào)的工作不同)。我們在五個(gè)玩具算法任務(wù)上嘗試了這個(gè)方法。這些任務(wù)有直接的算法解決方案,我們假裝不知道(例如,找到圖形上兩點(diǎn)之間最短的路徑)。這些問題也可以通過拼湊小的單步推理來解決(例如,將兩條路徑合并成一條較長的路徑),但手動(dòng)拼湊一切需要花費(fèi)指數(shù)級的努力。我們使用迭代放大法來學(xué)習(xí)直接算法,只使用碎片作為訓(xùn)練信號(hào),從而模擬人類知道如何組合解決方案的子碎片,但無法提供直接的訓(xùn)練信號(hào)的情況。


在這五項(xiàng)任務(wù)中的每一項(xiàng)(排列組合、順序分配、通配符搜索、最短路徑和聯(lián)合查找),我們都能夠通過監(jiān)督學(xué)習(xí)直接學(xué)習(xí)任務(wù),盡管因?yàn)闆]有直接的訓(xùn)練信號(hào)而受到阻礙(這里的目標(biāo)是用較少的信息來匹配監(jiān)督學(xué)習(xí),而不是超越它)。


迭代放大法的性能與監(jiān)督學(xué)習(xí)相當(dāng),而不需要看到真實(shí)標(biāo)簽


放大法與我們之前通過辯論進(jìn)行的AI安全工作有共同的特點(diǎn)。與辯論一樣,它試圖通過一個(gè)允許人類提供間接監(jiān)督的迭代過程來訓(xùn)練那些超出人類能力的任務(wù)--然而具體方法是不同的。它還建立在關(guān)于人類反饋的工作之上,通過實(shí)現(xiàn)一個(gè)獎(jiǎng)勵(lì)預(yù)測系統(tǒng),它的后期版本可能會(huì)包括來自實(shí)際人類的反饋。到目前為止,我們已經(jīng)初步探索了所有這些方法,現(xiàn)在正在努力擴(kuò)大它們的規(guī)模,以解決更多有趣和現(xiàn)實(shí)的問題。


如果你有興趣幫助我們擴(kuò)展像迭代放大這樣的工具來建立安全、強(qiáng)大的人工智能,那么可以考慮加入OpenAI。


用迭代放大法學(xué)習(xí)復(fù)雜目標(biāo)的評論 (共 條)

分享到微博請遵守國家法律
洪江市| 望城县| 宜都市| 大新县| 襄汾县| 奉贤区| 前郭尔| 定兴县| 南川市| 比如县| 三河市| 怀宁县| 平邑县| 屏南县| 治多县| 兴城市| 武胜县| 德昌县| 华安县| 藁城市| 喀什市| 老河口市| 顺昌县| 淳化县| 玉溪市| 常山县| 信丰县| 山东省| 抚顺市| 镇原县| 荔浦县| 澄迈县| 铁岭县| 修武县| 扶余县| 鄂伦春自治旗| 神农架林区| 开平市| 中阳县| 察隅县| 宝丰县|