手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 生活 »日常 » 對(duì)齊問(wèn)題的解決方案可能是什么樣子的？

對(duì)齊問(wèn)題的解決方案可能是什么樣子的？

2023-03-06 15:09 作者:星群譯制組 0人讀過(guò) | 我要投稿

作者：Jan Leike

時(shí)間：2022年9月27日

對(duì)難以捉摸的一勞永逸解決方案的高層次觀點(diǎn)

https://aligned.substack.com/p/alignment-solution

我目前贊成的對(duì)齊研究方法是建立比我們更擅長(zhǎng)做對(duì)齊研究的系統(tǒng)。但這個(gè)系統(tǒng)究竟會(huì)做什么呢？

明顯的答案是 "我們現(xiàn)在正在做的事情"。這并不令人滿意，因?yàn)槲覀儗?shí)際上并沒(méi)有試圖解決整個(gè)對(duì)齊問(wèn)題--我們只是試圖建立一個(gè)更好的對(duì)齊研究機(jī)構(gòu)。在某些時(shí)候，我們需要將注意力轉(zhuǎn)移到對(duì)所有未來(lái)人工智能系統(tǒng)進(jìn)行對(duì)齊的資助目標(biāo)上。

確保所有未來(lái)的AI系統(tǒng)都是對(duì)齊的，一般有兩條路徑。

(A) 對(duì)齊永遠(yuǎn)領(lǐng)先于AI的能力。對(duì)齊研究的進(jìn)展足夠快，以確保最有能力的AI系統(tǒng)總是充分地對(duì)齊，并且永遠(yuǎn)不會(huì)壓倒我們。為了在這條道路上取得成功，需要能夠放慢能力研究的速度（我預(yù)計(jì)這是很困難的），以便對(duì)齊研究能夠跟上，或者能夠在自動(dòng)對(duì)齊研究上花費(fèi)足夠的計(jì)算量，以得出足以滿足下一代AI系統(tǒng)的技術(shù)。
(B) 找到一個(gè)一勞永逸的解決方案。這是對(duì)對(duì)齊問(wèn)題的全面解決方案，可以無(wú)限地?cái)U(kuò)展。一旦有了這個(gè)解決方案，"我們所需要做的" 就是確保它在各地得到實(shí)施。

默認(rèn)情況下，我們將繼續(xù)推動(dòng)A，直到我們發(fā)現(xiàn)B。但我們目前不知道B（甚至A）是否可能。盡管如此，我還是想試著給出一個(gè)B可能是什么樣子的高層次的草圖。它有4個(gè)部分。

一個(gè)正式的對(duì)齊理論
一個(gè)適當(dāng)?shù)倪^(guò)程來(lái)激發(fā)價(jià)值
訓(xùn)練AI系統(tǒng)的技術(shù)，使它們充分對(duì)齊
最先進(jìn)的AI系統(tǒng)的形式化驗(yàn)證工具

下面的內(nèi)容主要是問(wèn)題和高層次的期望，而不是答案和解決方案。

1. 對(duì)齊的形式化理論

我們開(kāi)發(fā)了一個(gè)形式化的對(duì)齊理論，以捕捉系統(tǒng)與主體（人類(lèi)用戶）對(duì)齊的含義。這個(gè)形式化的理論需要以數(shù)學(xué)為基礎(chǔ)，并允許我們對(duì)任何系統(tǒng)做出精確的陳述，要么是真的，要么是假的。它沒(méi)有留下任何含糊不清的空間，并且可以由定理檢驗(yàn)器自動(dòng)檢查。

我們現(xiàn)在還沒(méi)有這樣的東西，我也不確定如何去做。關(guān)于這個(gè)形式理論的一些松散的要求。

它需要給出一個(gè)研究人員普遍認(rèn)同的關(guān)于對(duì)齊問(wèn)題的精確定義。
它需要抓住對(duì)齊問(wèn)題的關(guān)鍵困難，即如何處理主體無(wú)法理解的任務(wù)。
它需要能夠處理人類(lèi)表達(dá)其偏好時(shí)出現(xiàn)的不一致和偏見(jiàn)。
它需要可以擴(kuò)展到多個(gè)主體和多個(gè)智能體。
它需要回答或規(guī)避復(fù)雜系統(tǒng)中哪些部分構(gòu)成智能體的問(wèn)題。
它可能需要能夠處理邏輯上的不確定性、嵌入式機(jī)構(gòu)、內(nèi)部未對(duì)齊和其他奇怪的問(wèn)題。
它需要捕捉AI系統(tǒng)的魯棒性，并處理概率性的輸入分布。

最接近的現(xiàn)有工作可能是合作逆強(qiáng)化學(xué)習(xí)，但不幸的是，這項(xiàng)工作沒(méi)有通過(guò)上述大部分要點(diǎn)。

2. 激發(fā)價(jià)值的適當(dāng)過(guò)程

在基于人類(lèi)偏好訓(xùn)練AI系統(tǒng)時(shí)，我們總是回到這樣一個(gè)問(wèn)題："誰(shuí)的偏好？" 現(xiàn)在我們使用的過(guò)程大致如下：我們?cè)诨ヂ?lián)網(wǎng)上雇了一群人，請(qǐng)他們對(duì)模型的反應(yīng)進(jìn)行排名。對(duì)于敏感的話題（例如有毒的反應(yīng)），我們使用由標(biāo)注者提供的人口統(tǒng)計(jì)信息來(lái)重新權(quán)衡標(biāo)簽。

顯然，這是非常不令人滿意的，只是比我們能做的最懶惰的事情稍微好一點(diǎn)。真正可接受的過(guò)程會(huì)是什么樣子呢？一些需要考慮的問(wèn)題：

包容性。這個(gè)過(guò)程需要對(duì)整個(gè)人類(lèi)具有包容性。人類(lèi)是非常多樣化的，不同的群體需要能夠?yàn)檫@個(gè)過(guò)程提供有意義的投入。它必須跨越文化、語(yǔ)言、收入水平、年齡等。它不能無(wú)視對(duì)少數(shù)人非常重要的少數(shù)人意見(jiàn)。
公平性。這個(gè)過(guò)程必須是公平的，它不能偏袒精英或個(gè)人而忽視其他人。
代表性。這個(gè)過(guò)程需要以一種讓每個(gè)人都有平等的權(quán)力來(lái)塑造結(jié)果的方式來(lái)匯總價(jià)值，并決定如何交換相互沖突的價(jià)值。
動(dòng)機(jī)的對(duì)齊。這個(gè)過(guò)程需要在任何科技公司之外進(jìn)行。每當(dāng)公司負(fù)責(zé)這個(gè)過(guò)程時(shí)，總是有風(fēng)險(xiǎn)，即公司的動(dòng)機(jī)可能會(huì)干擾這個(gè)過(guò)程。如果這個(gè)過(guò)程被安置在任何國(guó)家，也是如此。
合法性。這個(gè)過(guò)程需要在現(xiàn)有的規(guī)則和機(jī)構(gòu)內(nèi)運(yùn)作，而不是繞過(guò)它們。
適應(yīng)性：人類(lèi)的價(jià)值觀隨時(shí)間而改變。鎖定人類(lèi)21世紀(jì)初的價(jià)值觀并阻止道德進(jìn)步很可能是災(zāi)難性的，就像我們現(xiàn)在發(fā)現(xiàn)幾個(gè)世紀(jì)前普遍存在的一些人類(lèi)價(jià)值觀和規(guī)范是可鄙的（如奴隸制）。
透明度。任何人都應(yīng)該能夠看到這個(gè)過(guò)程，看到它是如何運(yùn)作的。
簡(jiǎn)單性。過(guò)程應(yīng)該簡(jiǎn)單到大多數(shù)人都能很好地理解它。
實(shí)用性。這個(gè)過(guò)程需要足夠?qū)嵱?，在人工智能快速發(fā)展的情況下，它不需要花幾十年的時(shí)間來(lái)實(shí)施。

也許對(duì)這個(gè)過(guò)程的一個(gè)很好的測(cè)試是通過(guò)無(wú)知的面紗：如果不知道我們?cè)诘厍蛏铣錾牡攸c(diǎn)和時(shí)間，我們都能同意什么過(guò)程？

在理論上完全滿足所有這些要求可能是不可能的，類(lèi)似于阿羅的社會(huì)選擇理論的不可能結(jié)果。然而，這并不意味著它在實(shí)踐中不能發(fā)揮作用：盡管阿羅的不可能結(jié)果，投票仍然是有意義的。

要實(shí)現(xiàn)理想化過(guò)程的結(jié)果，有一條可能的途徑，就是建立一個(gè)有足夠能力的、統(tǒng)一的AI系統(tǒng)，讓它來(lái)計(jì)算出結(jié)果。然而，我預(yù)計(jì)大多數(shù)人不會(huì)把這種替代過(guò)程視為合法。

因此，與來(lái)自人類(lèi)每個(gè)子群體的人類(lèi)交談將是這種過(guò)程的關(guān)鍵組成部分。例如，我們可以制作一個(gè)聊天機(jī)器人，用人們的母語(yǔ)與他們交談，了解他們的價(jià)值觀，然后把它們寫(xiě)下來(lái)。在理論上，互聯(lián)網(wǎng)提供了這樣的基礎(chǔ)設(shè)施，但在實(shí)踐中，人類(lèi)的大部分地區(qū)都與互聯(lián)網(wǎng)隔絕。

3. 訓(xùn)練AI系統(tǒng)的技術(shù)，使它們充分對(duì)齊

這就是我們今天工作的主要部分。只是標(biāo)準(zhǔn)要低得多：只想建立一個(gè)充分對(duì)齊的系統(tǒng)，以便可以用它來(lái)做更多的對(duì)齊研究，而不會(huì)造成傷害或攫取權(quán)力。我們甚至不知道一個(gè)系統(tǒng)充分對(duì)齊的確切含義是什么。

現(xiàn)在，我們正在迭代地接近這一部分，并基于一些概念上的動(dòng)機(jī)（例如 "評(píng)估比生成更容易"）而不是任何正式的理論。相當(dāng)不令人滿意，但我們?nèi)栽谌〉谜嬲倪M(jìn)展。

如何長(zhǎng)期做下去，希望能從我們對(duì)第一部分的解決方案中得到啟發(fā)：一旦有了解決對(duì)齊問(wèn)題的正式概念，在理論上，我們可以自動(dòng)搜索算法空間，尋找一個(gè)能根據(jù)這個(gè)定義取得進(jìn)展的算法。此外，有了自動(dòng)對(duì)齊研究者，我們不需要把搜索空間限制在人類(lèi)可以設(shè)計(jì)的對(duì)齊技術(shù)上。

4. 尖端AI系統(tǒng)的形式驗(yàn)證工具

鑒于我們根據(jù)第3部分訓(xùn)練的系統(tǒng)和根據(jù)第2部分引出的一組數(shù)值，我們可以使用第1部分的理論來(lái)表達(dá)數(shù)學(xué)中的形式定理 "這個(gè)系統(tǒng)是充分對(duì)齊的"。現(xiàn)在 "我們需要做的" 就是證明這個(gè)定理。由于一些原因，這是令人難以置信的困難。

該定理可能大得驚人。如果我們想證明一個(gè)GPT-3大小的1750億個(gè)參數(shù)的模型，我們的定理的大小將至少是175GB。輸入和輸出空間也大得令人難以置信。對(duì)于GPT-3來(lái)說(shuō)，可能的輸入是~101??。

要驗(yàn)證的系統(tǒng)規(guī)范本身是模糊的（第二部分的值）。因此，需要相對(duì)于一個(gè)學(xué)習(xí)到的規(guī)范（另一個(gè)神經(jīng)網(wǎng)絡(luò)？）進(jìn)行驗(yàn)證，而這個(gè)規(guī)范本身是有缺陷的。我們?nèi)绾未_保這實(shí)際上解決了問(wèn)題，甚至是取得了進(jìn)展？

我們的輸入是分布式的，但驗(yàn)證需要覆蓋所有的邊緣情況。大部分的輸入空間都是隨機(jī)噪音。我們?nèi)绾翁幚磉@個(gè)問(wèn)題？

今天，我們根本不知道如何在這種規(guī)模下進(jìn)行形式化驗(yàn)證：最先進(jìn)的方法是驗(yàn)證MNIST和CIFAR圖像分類(lèi)器的局部對(duì)抗性魯棒性（不可察覺(jué)的擾動(dòng)），相對(duì)于最大的語(yǔ)言模型來(lái)說(shuō)，這些網(wǎng)絡(luò)是比較小的。近年來(lái)，在可擴(kuò)展的驗(yàn)證方面取得了很好的進(jìn)展，但是對(duì)于我們今天擁有的最大的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，我們離實(shí)用的東西還很遠(yuǎn)。

在實(shí)踐中，這種形式上的驗(yàn)證可能最終看起來(lái)更像是可解釋性的：我們實(shí)際證明定理的方式是獲得對(duì)模型中每個(gè)神經(jīng)元的充分理解，然后利用這些知識(shí)來(lái)寫(xiě)一個(gè)更緊湊的證明。

展望

這里列出的部分是非常高層次的，目前還不清楚如何在這些方面取得實(shí)際進(jìn)展。最難的部分可能是第1部分或第4部分。第4部分肯定非常難，但我對(duì)第1部分的難度的不確定性跨越了很多數(shù)量級(jí)。我的理解是，大多數(shù)聲稱在對(duì)齊問(wèn)題上沒(méi)有取得有意義的進(jìn)展的人，大多指的是在第一部分上缺乏進(jìn)展。

第1、2、4部分的很多工作，以及最終的第3部分的工作看起來(lái)將與我們今天所做的工作非常不同，而且我預(yù)計(jì)只有使用大量的自動(dòng)化才能做到這一點(diǎn)。但如果成功了，我們將真正擁有可證明的有益的人工智能。

感謝Hendrik Kirchner、William Saunders、Jeff Wu、Leo Gao和John Schulman的反饋，感謝Andrew Trask的討論，促使我們寫(xiě)下這篇文章。

標(biāo)簽：