最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

對(duì)齊問(wèn)題的解決方案可能是什么樣子的?

2023-03-06 15:09 作者:星群譯制組  | 我要投稿

作者:Jan Leike

時(shí)間:2022年9月27日

對(duì)難以捉摸的一勞永逸解決方案的高層次觀點(diǎn)

https://aligned.substack.com/p/alignment-solution


我目前贊成的對(duì)齊研究方法是建立比我們更擅長(zhǎng)做對(duì)齊研究的系統(tǒng)。但這個(gè)系統(tǒng)究竟會(huì)做什么呢?


明顯的答案是 "我們現(xiàn)在正在做的事情"。這并不令人滿意,因?yàn)槲覀儗?shí)際上并沒(méi)有試圖解決整個(gè)對(duì)齊問(wèn)題--我們只是試圖建立一個(gè)更好的對(duì)齊研究機(jī)構(gòu)。在某些時(shí)候,我們需要將注意力轉(zhuǎn)移到對(duì)所有未來(lái)人工智能系統(tǒng)進(jìn)行對(duì)齊的資助目標(biāo)上。


確保所有未來(lái)的AI系統(tǒng)都是對(duì)齊的,一般有兩條路徑。

  • (A) 對(duì)齊永遠(yuǎn)領(lǐng)先于AI的能力。對(duì)齊研究的進(jìn)展足夠快,以確保最有能力的AI系統(tǒng)總是充分地對(duì)齊,并且永遠(yuǎn)不會(huì)壓倒我們。為了在這條道路上取得成功,需要能夠放慢能力研究的速度(我預(yù)計(jì)這是很困難的),以便對(duì)齊研究能夠跟上,或者能夠在自動(dòng)對(duì)齊研究上花費(fèi)足夠的計(jì)算量,以得出足以滿足下一代AI系統(tǒng)的技術(shù)。

  • (B) 找到一個(gè)一勞永逸的解決方案。這是對(duì)對(duì)齊問(wèn)題的全面解決方案,可以無(wú)限地?cái)U(kuò)展。一旦有了這個(gè)解決方案,"我們所需要做的" 就是確保它在各地得到實(shí)施。


默認(rèn)情況下,我們將繼續(xù)推動(dòng)A,直到我們發(fā)現(xiàn)B。但我們目前不知道B(甚至A)是否可能。盡管如此,我還是想試著給出一個(gè)B可能是什么樣子的高層次的草圖。它有4個(gè)部分。

  1. 一個(gè)正式的對(duì)齊理論

  2. 一個(gè)適當(dāng)?shù)倪^(guò)程來(lái)激發(fā)價(jià)值

  3. 訓(xùn)練AI系統(tǒng)的技術(shù),使它們充分對(duì)齊

  4. 最先進(jìn)的AI系統(tǒng)的形式化驗(yàn)證工具

下面的內(nèi)容主要是問(wèn)題和高層次的期望,而不是答案和解決方案。


1. 對(duì)齊的形式化理論

我們開(kāi)發(fā)了一個(gè)形式化的對(duì)齊理論,以捕捉系統(tǒng)與主體(人類(lèi)用戶)對(duì)齊的含義。這個(gè)形式化的理論需要以數(shù)學(xué)為基礎(chǔ),并允許我們對(duì)任何系統(tǒng)做出精確的陳述,要么是真的,要么是假的。它沒(méi)有留下任何含糊不清的空間,并且可以由定理檢驗(yàn)器自動(dòng)檢查。


我們現(xiàn)在還沒(méi)有這樣的東西,我也不確定如何去做。關(guān)于這個(gè)形式理論的一些松散的要求。

  • 它需要給出一個(gè)研究人員普遍認(rèn)同的關(guān)于對(duì)齊問(wèn)題的精確定義。

  • 它需要抓住對(duì)齊問(wèn)題的關(guān)鍵困難,即如何處理主體無(wú)法理解的任務(wù)。

  • 它需要能夠處理人類(lèi)表達(dá)其偏好時(shí)出現(xiàn)的不一致和偏見(jiàn)。

  • 它需要可以擴(kuò)展到多個(gè)主體和多個(gè)智能體。

  • 它需要回答或規(guī)避復(fù)雜系統(tǒng)中哪些部分構(gòu)成智能體的問(wèn)題。

  • 它可能需要能夠處理邏輯上的不確定性、嵌入式機(jī)構(gòu)、內(nèi)部未對(duì)齊和其他奇怪的問(wèn)題。

  • 它需要捕捉AI系統(tǒng)的魯棒性,并處理概率性的輸入分布。

最接近的現(xiàn)有工作可能是合作逆強(qiáng)化學(xué)習(xí),但不幸的是,這項(xiàng)工作沒(méi)有通過(guò)上述大部分要點(diǎn)。


2. 激發(fā)價(jià)值的適當(dāng)過(guò)程

在基于人類(lèi)偏好訓(xùn)練AI系統(tǒng)時(shí),我們總是回到這樣一個(gè)問(wèn)題:"誰(shuí)的偏好?" 現(xiàn)在我們使用的過(guò)程大致如下:我們?cè)诨ヂ?lián)網(wǎng)上雇了一群人,請(qǐng)他們對(duì)模型的反應(yīng)進(jìn)行排名。對(duì)于敏感的話題(例如有毒的反應(yīng)),我們使用由標(biāo)注者提供的人口統(tǒng)計(jì)信息來(lái)重新權(quán)衡標(biāo)簽。


顯然,這是非常不令人滿意的,只是比我們能做的最懶惰的事情稍微好一點(diǎn)。真正可接受的過(guò)程會(huì)是什么樣子呢?一些需要考慮的問(wèn)題:

  • 包容性。這個(gè)過(guò)程需要對(duì)整個(gè)人類(lèi)具有包容性。人類(lèi)是非常多樣化的,不同的群體需要能夠?yàn)檫@個(gè)過(guò)程提供有意義的投入。它必須跨越文化、語(yǔ)言、收入水平、年齡等。它不能無(wú)視對(duì)少數(shù)人非常重要的少數(shù)人意見(jiàn)。

  • 公平性。這個(gè)過(guò)程必須是公平的,它不能偏袒精英或個(gè)人而忽視其他人。

  • 代表性。這個(gè)過(guò)程需要以一種讓每個(gè)人都有平等的權(quán)力來(lái)塑造結(jié)果的方式來(lái)匯總價(jià)值,并決定如何交換相互沖突的價(jià)值。

  • 動(dòng)機(jī)的對(duì)齊。這個(gè)過(guò)程需要在任何科技公司之外進(jìn)行。每當(dāng)公司負(fù)責(zé)這個(gè)過(guò)程時(shí),總是有風(fēng)險(xiǎn),即公司的動(dòng)機(jī)可能會(huì)干擾這個(gè)過(guò)程。如果這個(gè)過(guò)程被安置在任何國(guó)家,也是如此。

  • 合法性。這個(gè)過(guò)程需要在現(xiàn)有的規(guī)則和機(jī)構(gòu)內(nèi)運(yùn)作,而不是繞過(guò)它們。

  • 適應(yīng)性:人類(lèi)的價(jià)值觀隨時(shí)間而改變。鎖定人類(lèi)21世紀(jì)初的價(jià)值觀并阻止道德進(jìn)步很可能是災(zāi)難性的,就像我們現(xiàn)在發(fā)現(xiàn)幾個(gè)世紀(jì)前普遍存在的一些人類(lèi)價(jià)值觀和規(guī)范是可鄙的(如奴隸制)。

  • 透明度。任何人都應(yīng)該能夠看到這個(gè)過(guò)程,看到它是如何運(yùn)作的。

  • 簡(jiǎn)單性。過(guò)程應(yīng)該簡(jiǎn)單到大多數(shù)人都能很好地理解它。

  • 實(shí)用性。這個(gè)過(guò)程需要足夠?qū)嵱?,在人工智能快速發(fā)展的情況下,它不需要花幾十年的時(shí)間來(lái)實(shí)施。

也許對(duì)這個(gè)過(guò)程的一個(gè)很好的測(cè)試是通過(guò)無(wú)知的面紗:如果不知道我們?cè)诘厍蛏铣錾牡攸c(diǎn)和時(shí)間,我們都能同意什么過(guò)程?


在理論上完全滿足所有這些要求可能是不可能的,類(lèi)似于阿羅的社會(huì)選擇理論的不可能結(jié)果。然而,這并不意味著它在實(shí)踐中不能發(fā)揮作用:盡管阿羅的不可能結(jié)果,投票仍然是有意義的。


要實(shí)現(xiàn)理想化過(guò)程的結(jié)果,有一條可能的途徑,就是建立一個(gè)有足夠能力的、統(tǒng)一的AI系統(tǒng),讓它來(lái)計(jì)算出結(jié)果。然而,我預(yù)計(jì)大多數(shù)人不會(huì)把這種替代過(guò)程視為合法。


因此,與來(lái)自人類(lèi)每個(gè)子群體的人類(lèi)交談將是這種過(guò)程的關(guān)鍵組成部分。例如,我們可以制作一個(gè)聊天機(jī)器人,用人們的母語(yǔ)與他們交談,了解他們的價(jià)值觀,然后把它們寫(xiě)下來(lái)。在理論上,互聯(lián)網(wǎng)提供了這樣的基礎(chǔ)設(shè)施,但在實(shí)踐中,人類(lèi)的大部分地區(qū)都與互聯(lián)網(wǎng)隔絕。


3. 訓(xùn)練AI系統(tǒng)的技術(shù),使它們充分對(duì)齊

這就是我們今天工作的主要部分。只是標(biāo)準(zhǔn)要低得多:只想建立一個(gè)充分對(duì)齊的系統(tǒng),以便可以用它來(lái)做更多的對(duì)齊研究,而不會(huì)造成傷害或攫取權(quán)力。我們甚至不知道一個(gè)系統(tǒng)充分對(duì)齊的確切含義是什么。


現(xiàn)在,我們正在迭代地接近這一部分,并基于一些概念上的動(dòng)機(jī)(例如 "評(píng)估比生成更容易")而不是任何正式的理論。相當(dāng)不令人滿意,但我們?nèi)栽谌〉谜嬲倪M(jìn)展。


如何長(zhǎng)期做下去,希望能從我們對(duì)第一部分的解決方案中得到啟發(fā):一旦有了解決對(duì)齊問(wèn)題的正式概念,在理論上,我們可以自動(dòng)搜索算法空間,尋找一個(gè)能根據(jù)這個(gè)定義取得進(jìn)展的算法。此外,有了自動(dòng)對(duì)齊研究者,我們不需要把搜索空間限制在人類(lèi)可以設(shè)計(jì)的對(duì)齊技術(shù)上。


4. 尖端AI系統(tǒng)的形式驗(yàn)證工具

鑒于我們根據(jù)第3部分訓(xùn)練的系統(tǒng)和根據(jù)第2部分引出的一組數(shù)值,我們可以使用第1部分的理論來(lái)表達(dá)數(shù)學(xué)中的形式定理 "這個(gè)系統(tǒng)是充分對(duì)齊的"。現(xiàn)在 "我們需要做的" 就是證明這個(gè)定理。由于一些原因,這是令人難以置信的困難。


該定理可能大得驚人。如果我們想證明一個(gè)GPT-3大小的1750億個(gè)參數(shù)的模型,我們的定理的大小將至少是175GB。輸入和輸出空間也大得令人難以置信。對(duì)于GPT-3來(lái)說(shuō),可能的輸入是~101??。


要驗(yàn)證的系統(tǒng)規(guī)范本身是模糊的(第二部分的值)。因此,需要相對(duì)于一個(gè)學(xué)習(xí)到的規(guī)范(另一個(gè)神經(jīng)網(wǎng)絡(luò)?)進(jìn)行驗(yàn)證,而這個(gè)規(guī)范本身是有缺陷的。我們?nèi)绾未_保這實(shí)際上解決了問(wèn)題,甚至是取得了進(jìn)展?


我們的輸入是分布式的,但驗(yàn)證需要覆蓋所有的邊緣情況。大部分的輸入空間都是隨機(jī)噪音。我們?nèi)绾翁幚磉@個(gè)問(wèn)題?


今天,我們根本不知道如何在這種規(guī)模下進(jìn)行形式化驗(yàn)證:最先進(jìn)的方法是驗(yàn)證MNIST和CIFAR圖像分類(lèi)器的局部對(duì)抗性魯棒性(不可察覺(jué)的擾動(dòng)),相對(duì)于最大的語(yǔ)言模型來(lái)說(shuō),這些網(wǎng)絡(luò)是比較小的。近年來(lái),在可擴(kuò)展的驗(yàn)證方面取得了很好的進(jìn)展,但是對(duì)于我們今天擁有的最大的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),我們離實(shí)用的東西還很遠(yuǎn)。


在實(shí)踐中,這種形式上的驗(yàn)證可能最終看起來(lái)更像是可解釋性的:我們實(shí)際證明定理的方式是獲得對(duì)模型中每個(gè)神經(jīng)元的充分理解,然后利用這些知識(shí)來(lái)寫(xiě)一個(gè)更緊湊的證明。


展望

這里列出的部分是非常高層次的,目前還不清楚如何在這些方面取得實(shí)際進(jìn)展。最難的部分可能是第1部分或第4部分。第4部分肯定非常難,但我對(duì)第1部分的難度的不確定性跨越了很多數(shù)量級(jí)。我的理解是,大多數(shù)聲稱在對(duì)齊問(wèn)題上沒(méi)有取得有意義的進(jìn)展的人,大多指的是在第一部分上缺乏進(jìn)展。


第1、2、4部分的很多工作,以及最終的第3部分的工作看起來(lái)將與我們今天所做的工作非常不同,而且我預(yù)計(jì)只有使用大量的自動(dòng)化才能做到這一點(diǎn)。但如果成功了,我們將真正擁有可證明的有益的人工智能。


感謝Hendrik Kirchner、William Saunders、Jeff Wu、Leo Gao和John Schulman的反饋,感謝Andrew Trask的討論,促使我們寫(xiě)下這篇文章。


對(duì)齊問(wèn)題的解決方案可能是什么樣子的?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
都江堰市| 大丰市| 佛冈县| 宁海县| 金门县| 博白县| 长阳| 龙州县| 建瓯市| 离岛区| 彰化县| 惠水县| 中山市| 屏边| 当雄县| 南充市| 南丹县| 新干县| 朝阳区| 宁城县| 大渡口区| 武宣县| 开平市| 洮南市| 安多县| 鲁山县| 海晏县| 阜阳市| 巴楚县| 武穴市| 石景山区| 嘉善县| 临汾市| 灵川县| 靖边县| 于都县| 乌鲁木齐市| 滨海县| 广元市| 柏乡县| 大余县|