手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 區(qū)分三種對(duì)齊稅

區(qū)分三種對(duì)齊稅

2023-02-22 16:58 作者:星群譯制組 0人讀過 | 我要投稿

不同對(duì)齊稅的影響取決于環(huán)境

作者：Jan Leike

時(shí)間：202212月20日

?

在一般意義上，對(duì)齊稅是指在對(duì)齊AI系統(tǒng)的過程中產(chǎn)生的額外成本。讓我們來區(qū)分三種不同類型的對(duì)齊稅：

性能稅。與未對(duì)齊的基線相比，通過對(duì)齊造成的性能退步。
開發(fā)稅。為調(diào)整模型而產(chǎn)生的努力或費(fèi)用：研究人員的時(shí)間、計(jì)算成本、人類反饋的補(bǔ)償，等等。
部署時(shí)間稅。從一個(gè)預(yù)訓(xùn)練的模型產(chǎn)生一個(gè)充分對(duì)齊的模型所需的壁鐘時(shí)間1。

對(duì)齊稅是不想要的，因?yàn)樗璧K了對(duì)齊技術(shù)的采用。在一個(gè)高度競(jìng)爭(zhēng)的市場(chǎng)中，如果沒有普遍的對(duì)齊標(biāo)準(zhǔn)的執(zhí)行，公司就無法支付大量的對(duì)齊稅。然而，即使在沒有任何競(jìng)爭(zhēng)的情況下，也有動(dòng)力反對(duì)采用高稅率的對(duì)齊技術(shù)：性能較差的模型對(duì)客戶的價(jià)值較低，高額的開發(fā)稅抑制了投資，如果你的客戶愿意付費(fèi)使用未對(duì)齊的模型，那么每延遲一天就會(huì)產(chǎn)生商業(yè)機(jī)會(huì)成本。因此，我們希望有對(duì)齊技術(shù)，其中的稅收盡可能的低。

讓我們依次討論這些稅。

三種對(duì)齊稅

性能稅

如果未對(duì)齊的預(yù)訓(xùn)練模型在能力X上的性能為Z，而更對(duì)齊的模型在能力X上的性能為Z'<Z，那么我們就說在能力X上有一個(gè)性能稅。

在過去，這種性能稅是通過模型在微調(diào)后在標(biāo)準(zhǔn)基準(zhǔn)上的得分減少多少來衡量的。在訓(xùn)練InstructGPT的第一個(gè)版本時(shí)，OpenAI觀察到在回答問題和翻譯的一些標(biāo)準(zhǔn)基準(zhǔn)上出現(xiàn)了性能退步。通過將預(yù)訓(xùn)練數(shù)據(jù)混合到微調(diào)過程中，這些問題大多得到了緩解，但并未完全消除。Anthropic、DeepMind和谷歌也研究了對(duì)齊稅，作為他們對(duì)齊工作的一部分，有時(shí)對(duì)齊微調(diào)甚至可以提高幾個(gè)基準(zhǔn)的性能，對(duì)應(yīng)于負(fù)性能稅。

然而，可以用一種更自然的方式來量化這種稅，讓我們把這種稅更直接地轉(zhuǎn)化為貨幣術(shù)語，測(cè)量在推理時(shí)需要花費(fèi)多少額外的計(jì)算來補(bǔ)償性能回歸。如果更對(duì)齊的模型需要多花T%的推理時(shí)間計(jì)算來從性能Z'回到能力X的性能Z，那么我們說有一個(gè)T%的對(duì)齊稅。例如，如果我們總是需要運(yùn)行best-of-2，這相當(dāng)于100%的對(duì)齊稅。如果我們需要在10%的任務(wù)中運(yùn)行best-of-4，這相當(dāng)于4*10%=40%的對(duì)齊稅。

開發(fā)稅

今天的開發(fā)稅包括建立RLHF代碼庫(kù)、雇用和管理人類標(biāo)簽員、計(jì)算和研究人員的努力。我（相當(dāng)粗略）的猜測(cè)是，InstructGPT的總開發(fā)成本大概相當(dāng)于GPT-3開發(fā)成本的5-20%。然而，大部分的開發(fā)成本與模型的大小無關(guān)，同樣地，改進(jìn)一個(gè)10倍小的或更大的語言模型的對(duì)齊方式也會(huì)花費(fèi)類似的努力。事實(shí)上，在現(xiàn)實(shí)中可能是相反的情況：更大的語言模型的更高的開發(fā)成本證明了在使其更對(duì)齊上花更大的努（例如更大的團(tuán)隊(duì)做這個(gè)工作）是正當(dāng)?shù)摹?/p>

我們也可以把對(duì)齊研究社區(qū)的一般努力看作是AGI開發(fā)稅的一部分。如果存在一個(gè)可以無限擴(kuò)展的對(duì)齊問題的解決方案，那么尋找這個(gè)解決方案的總成本將是一次性的開發(fā)成本。然而，這個(gè)解決方案并不是讓今天的AI更加對(duì)齊所需要的，因此不應(yīng)該占用這些工作的預(yù)算。

部署時(shí)間稅

對(duì)于部署時(shí)間稅，與性能稅的考慮相似。今天，由InstructGPT、ChatGPT、Sparrow和Anthropic的助手所做的對(duì)齊訓(xùn)練需要幾個(gè)連續(xù)的步驟：收集提示、收集示范、監(jiān)督微調(diào)、收集比較、訓(xùn)練獎(jiǎng)勵(lì)模型、RL微調(diào)和人類評(píng)價(jià)。這些步驟中的每一步通常都需要一些迭代和調(diào)試，這很容易增加整個(gè)時(shí)間線。對(duì)于GPT-3，這個(gè)管道花費(fèi)了我們大約9個(gè)月的時(shí)間，而今天我們的基礎(chǔ)設(shè)施足以在3個(gè)月內(nèi)產(chǎn)生相當(dāng)好的模型，因?yàn)榭梢灾赜么罅楷F(xiàn)有數(shù)據(jù)和代碼。

這種計(jì)算方法有一個(gè)重要的缺陷：在某些時(shí)候，更有能力的模型不能用同樣的技術(shù)來對(duì)齊。因此，簡(jiǎn)單地優(yōu)們現(xiàn)有的訓(xùn)練循環(huán)并不能幫助減少未來模型的部署時(shí)間。特別是，一旦模型的能力足以完成人類難以評(píng)估的艱巨任務(wù)，我們就會(huì)希望使用AI輔助評(píng)估來訓(xùn)練它們。然而，做好這項(xiàng)工作的基礎(chǔ)設(shè)施仍在開發(fā)之中。

這些稅收什么時(shí)候重要？

競(jìng)爭(zhēng)性市場(chǎng)要求低對(duì)齊稅

有幾家公司在大型語言模型上進(jìn)行競(jìng)爭(zhēng)。在一個(gè)公平的競(jìng)爭(zhēng)環(huán)境中，每個(gè)人都會(huì)有大致相同能力的預(yù)訓(xùn)練語言模型。如果你訓(xùn)練了更多的對(duì)齊模型，但它們?cè)谀芰上承擔(dān)了性能稅，那么關(guān)心能力X的客戶就會(huì)被激勵(lì)轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手，因?yàn)樗麄儾渴鹆四芰ο嗨频珜?duì)齊度較低的模型，在能力X上表現(xiàn)更好，因?yàn)樗麄儾皇苓@種稅的影響。因此，性能稅會(huì)導(dǎo)致對(duì)齊的模型失去市場(chǎng)份額，從而阻礙了對(duì)齊技術(shù)的采用。

例如，OpenAI的DALL-E 2模型在推出時(shí)采用了更保守的安全保障措施，這使得它們?cè)谝恍┖戏ǖ挠美懈y使用。這是一種性能稅，因?yàn)樵撃Ｐ驮谝恍┯美系谋憩F(xiàn)實(shí)際上比沒有這些保障措施時(shí)更差。DALL-E 2的競(jìng)爭(zhēng)模型Stable Diffusion和Midjourney在推出時(shí)采用了較少的安全保障措施，這些模型得到了更廣泛的采用（盡管這只是相關(guān)的，因?yàn)槠渌麕讉€(gè)方面也不同）。

在這種競(jìng)爭(zhēng)性市場(chǎng)中，即使是10%的性能稅也可能令人望而卻步，因?yàn)閺拈L(zhǎng)遠(yuǎn)來看，比你的競(jìng)爭(zhēng)對(duì)手貴10%可能意味著失去很多客戶。API模型的轉(zhuǎn)換成本特別低，所以這類產(chǎn)品對(duì)性能稅非常敏感。

在實(shí)踐中，語言模型也有與模型的 "可用性" 相對(duì)應(yīng)的性能稅，而這些性能稅并沒有被今天的標(biāo)準(zhǔn)基準(zhǔn)評(píng)估所很好地反映出來。相對(duì)于大多數(shù)用例的預(yù)訓(xùn)練模型來說，這些性能稅是相當(dāng)明顯的：預(yù)訓(xùn)練的語言模型很難駕馭，因?yàn)樗鼈儾]有試圖幫助你。與類似規(guī)模的基礎(chǔ)模型相比，OpenAI的大多數(shù)客戶更喜歡InstructGPT，即使我們?cè)诨A(chǔ)模型上花費(fèi)了大量的推理時(shí)間計(jì)算，他們也可能會(huì)喜歡。例如，在人類對(duì)OpenAI的Playground的提示的評(píng)估中，即使是小得多的1.3b參數(shù)的InstructGPT，平均來說也明顯優(yōu)于少樣本學(xué)習(xí)的175b的GPT-3基礎(chǔ)模型。然而，這個(gè)統(tǒng)計(jì)沒有考慮到任何內(nèi)容限制和其他安全保障措施，這些可能會(huì)產(chǎn)生額外的性能稅（例如，如果模型拒絕合法的用例）。

性能稅在自動(dòng)對(duì)齊研究中優(yōu)先級(jí)較低

雖然對(duì)齊的AGI可能要在某些市場(chǎng)上競(jìng)爭(zhēng)，但在對(duì)齊問題上取得進(jìn)展不應(yīng)該是一種競(jìng)爭(zhēng)。我們都從AI與人類更加一致中受益，因此應(yīng)該自由地分享對(duì)齊研究的進(jìn)展。

當(dāng)使用人工智能系統(tǒng)進(jìn)行自動(dòng)對(duì)齊研究時(shí)，這些AI系統(tǒng)也將受到對(duì)齊稅的影響。然而，在這種情況下，我們的AI系統(tǒng)并不直接與其他AI系統(tǒng)在市場(chǎng)上競(jìng)爭(zhēng)，因此性能稅不會(huì)那么重要。然而，部署時(shí)間稅仍然很重要：如果對(duì)齊進(jìn)度跟不上AI的能力，我們就不得不放慢或暫停AI的進(jìn)展，這將是非常難以協(xié)調(diào)的問題。

自動(dòng)對(duì)齊研究可以持續(xù)的性能稅在很大程度上取決于系統(tǒng)需要做的工作總量。在這些情況下，開發(fā)稅將是主導(dǎo)因素?？紤]一下兩種可能的情況。

需要為每一代新的AI系統(tǒng)做固定數(shù)量的對(duì)齊工作，例如從GPT-2到GPT-3時(shí)。在這種情況下，所能承受的對(duì)齊稅取決于需要做多少工作。例如，如果自動(dòng)對(duì)齊工作的 "稅前" 計(jì)算成本是新AI系統(tǒng)開發(fā)成本的1%，那么1000%的稅只使總對(duì)齊成本達(dá)到AI系統(tǒng)整體成本的11%。然而，這只有在下一代的（對(duì)象層面）性能稅不比這一代的性能稅高很多的情況下才行得通，否則性能稅最終會(huì)一代比一代復(fù)雜。
需要投入固定數(shù)量的對(duì)齊工作來發(fā)現(xiàn)對(duì)齊問題的不確定的可擴(kuò)展的解決方案。在這種情況下，關(guān)鍵問題不是發(fā)現(xiàn)這個(gè)解決方案所支付的性能稅，而只是發(fā)現(xiàn)這個(gè)解決方案的稅后美元總成本X。如果人類可以在太晚之前籌集到Y(jié)美元投資于發(fā)現(xiàn)不確定可擴(kuò)展的解決方案，那么重要的是Y>X。如果X較低（例如因?yàn)槎愂蛰^低），更有可能出現(xiàn)這種情況。然而，除非稅前成本實(shí)際上非常接近于Y，否則對(duì)齊稅對(duì)結(jié)果并不那么重要；這主要是一種成本節(jié)約的做法。

因此，根據(jù)數(shù)字的變化，在這種情況下，10倍甚至100倍的性能稅都可以接受。

總結(jié)

這篇文章討論了三種主要的對(duì)齊稅：性能、開發(fā)和部署時(shí)間稅。隨著部署語言模型的商業(yè)競(jìng)爭(zhēng)的升溫，減少對(duì)齊稅的壓力會(huì)越來越大。然而，對(duì)于自動(dòng)化對(duì)齊研究來說，性能稅并不重要，因?yàn)橹饕繕?biāo)不是在市場(chǎng)上競(jìng)爭(zhēng)，而是在對(duì)齊研究上取得進(jìn)展。對(duì)于這一行的研究，我們的重點(diǎn)應(yīng)該是盡量減少開發(fā)和部署時(shí)間稅，所以需要盡早開始這項(xiàng)工作。

感謝Jeff Wu、Richard Ngo和Daniel Kokotajlo，以及Reimar Leike對(duì)本帖的反饋。

標(biāo)簽：