區(qū)分三種對(duì)齊稅
不同對(duì)齊稅的影響取決于環(huán)境
作者:Jan Leike
時(shí)間:202212月20日
?
在一般意義上,對(duì)齊稅是指在對(duì)齊AI系統(tǒng)的過程中產(chǎn)生的額外成本。讓我們來區(qū)分三種不同類型的對(duì)齊稅:
性能稅。與未對(duì)齊的基線相比,通過對(duì)齊造成的性能退步。
開發(fā)稅。為調(diào)整模型而產(chǎn)生的努力或費(fèi)用:研究人員的時(shí)間、計(jì)算成本、人類反饋的補(bǔ)償,等等。
部署時(shí)間稅。從一個(gè)預(yù)訓(xùn)練的模型產(chǎn)生一個(gè)充分對(duì)齊的模型所需的壁鐘時(shí)間1。
對(duì)齊稅是不想要的,因?yàn)樗璧K了對(duì)齊技術(shù)的采用。在一個(gè)高度競(jìng)爭(zhēng)的市場(chǎng)中,如果沒有普遍的對(duì)齊標(biāo)準(zhǔn)的執(zhí)行,公司就無法支付大量的對(duì)齊稅。然而,即使在沒有任何競(jìng)爭(zhēng)的情況下,也有動(dòng)力反對(duì)采用高稅率的對(duì)齊技術(shù):性能較差的模型對(duì)客戶的價(jià)值較低,高額的開發(fā)稅抑制了投資,如果你的客戶愿意付費(fèi)使用未對(duì)齊的模型,那么每延遲一天就會(huì)產(chǎn)生商業(yè)機(jī)會(huì)成本。因此,我們希望有對(duì)齊技術(shù),其中的稅收盡可能的低。
讓我們依次討論這些稅。
三種對(duì)齊稅
性能稅
如果未對(duì)齊的預(yù)訓(xùn)練模型在能力X上的性能為Z,而更對(duì)齊的模型在能力X上的性能為Z'<Z,那么我們就說在能力X上有一個(gè)性能稅。
在過去,這種性能稅是通過模型在微調(diào)后在標(biāo)準(zhǔn)基準(zhǔn)上的得分減少多少來衡量的。在訓(xùn)練InstructGPT的第一個(gè)版本時(shí),OpenAI觀察到在回答問題和翻譯的一些標(biāo)準(zhǔn)基準(zhǔn)上出現(xiàn)了性能退步。通過將預(yù)訓(xùn)練數(shù)據(jù)混合到微調(diào)過程中,這些問題大多得到了緩解,但并未完全消除。Anthropic、DeepMind和谷歌也研究了對(duì)齊稅,作為他們對(duì)齊工作的一部分,有時(shí)對(duì)齊微調(diào)甚至可以提高幾個(gè)基準(zhǔn)的性能,對(duì)應(yīng)于負(fù)性能稅。
然而,可以用一種更自然的方式來量化這種稅,讓我們把這種稅更直接地轉(zhuǎn)化為貨幣術(shù)語,測(cè)量在推理時(shí)需要花費(fèi)多少額外的計(jì)算來補(bǔ)償性能回歸。如果更對(duì)齊的模型需要多花T%的推理時(shí)間計(jì)算來從性能Z'回到能力X的性能Z,那么我們說有一個(gè)T%的對(duì)齊稅。例如,如果我們總是需要運(yùn)行best-of-2,這相當(dāng)于100%的對(duì)齊稅。如果我們需要在10%的任務(wù)中運(yùn)行best-of-4,這相當(dāng)于4*10%=40%的對(duì)齊稅。
開發(fā)稅
今天的開發(fā)稅包括建立RLHF代碼庫(kù)、雇用和管理人類標(biāo)簽員、計(jì)算和研究人員的努力。我(相當(dāng)粗略)的猜測(cè)是,InstructGPT的總開發(fā)成本大概相當(dāng)于GPT-3開發(fā)成本的5-20%。然而,大部分的開發(fā)成本與模型的大小無關(guān),同樣地,改進(jìn)一個(gè)10倍小的或更大的語言模型的對(duì)齊方式也會(huì)花費(fèi)類似的努力。事實(shí)上,在現(xiàn)實(shí)中可能是相反的情況:更大的語言模型的更高的開發(fā)成本證明了在使其更對(duì)齊上花更大的努(例如更大的團(tuán)隊(duì)做這個(gè)工作)是正當(dāng)?shù)摹?/p>
我們也可以把對(duì)齊研究社區(qū)的一般努力看作是AGI開發(fā)稅的一部分。如果存在一個(gè)可以無限擴(kuò)展的對(duì)齊問題的解決方案,那么尋找這個(gè)解決方案的總成本將是一次性的開發(fā)成本。然而,這個(gè)解決方案并不是讓今天的AI更加對(duì)齊所需要的,因此不應(yīng)該占用這些工作的預(yù)算。
部署時(shí)間稅
對(duì)于部署時(shí)間稅,與性能稅的考慮相似。今天,由InstructGPT、ChatGPT、Sparrow和Anthropic的助手所做的對(duì)齊訓(xùn)練需要幾個(gè)連續(xù)的步驟:收集提示、收集示范、監(jiān)督微調(diào)、收集比較、訓(xùn)練獎(jiǎng)勵(lì)模型、RL微調(diào)和人類評(píng)價(jià)。這些步驟中的每一步通常都需要一些迭代和調(diào)試,這很容易增加整個(gè)時(shí)間線。對(duì)于GPT-3,這個(gè)管道花費(fèi)了我們大約9個(gè)月的時(shí)間,而今天我們的基礎(chǔ)設(shè)施足以在3個(gè)月內(nèi)產(chǎn)生相當(dāng)好的模型,因?yàn)榭梢灾赜么罅楷F(xiàn)有數(shù)據(jù)和代碼。
這種計(jì)算方法有一個(gè)重要的缺陷:在某些時(shí)候,更有能力的模型不能用同樣的技術(shù)來對(duì)齊。因此,簡(jiǎn)單地優(yōu)們現(xiàn)有的訓(xùn)練循環(huán)并不能幫助減少未來模型的部署時(shí)間。特別是,一旦模型的能力足以完成人類難以評(píng)估的艱巨任務(wù),我們就會(huì)希望使用AI輔助評(píng)估來訓(xùn)練它們。然而,做好這項(xiàng)工作的基礎(chǔ)設(shè)施仍在開發(fā)之中。
這些稅收什么時(shí)候重要?
競(jìng)爭(zhēng)性市場(chǎng)要求低對(duì)齊稅
有幾家公司在大型語言模型上進(jìn)行競(jìng)爭(zhēng)。在一個(gè)公平的競(jìng)爭(zhēng)環(huán)境中,每個(gè)人都會(huì)有大致相同能力的預(yù)訓(xùn)練語言模型。如果你訓(xùn)練了更多的對(duì)齊模型,但它們?cè)谀芰上承擔(dān)了性能稅,那么關(guān)心能力X的客戶就會(huì)被激勵(lì)轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手,因?yàn)樗麄儾渴鹆四芰ο嗨频珜?duì)齊度較低的模型,在能力X上表現(xiàn)更好,因?yàn)樗麄儾皇苓@種稅的影響。因此,性能稅會(huì)導(dǎo)致對(duì)齊的模型失去市場(chǎng)份額,從而阻礙了對(duì)齊技術(shù)的采用。
例如,OpenAI的DALL-E 2模型在推出時(shí)采用了更保守的安全保障措施,這使得它們?cè)谝恍┖戏ǖ挠美懈y使用。這是一種性能稅,因?yàn)樵撃P驮谝恍┯美系谋憩F(xiàn)實(shí)際上比沒有這些保障措施時(shí)更差。DALL-E 2的競(jìng)爭(zhēng)模型Stable Diffusion和Midjourney在推出時(shí)采用了較少的安全保障措施,這些模型得到了更廣泛的采用(盡管這只是相關(guān)的,因?yàn)槠渌麕讉€(gè)方面也不同)。
在這種競(jìng)爭(zhēng)性市場(chǎng)中,即使是10%的性能稅也可能令人望而卻步,因?yàn)閺拈L(zhǎng)遠(yuǎn)來看,比你的競(jìng)爭(zhēng)對(duì)手貴10%可能意味著失去很多客戶。API模型的轉(zhuǎn)換成本特別低,所以這類產(chǎn)品對(duì)性能稅非常敏感。
在實(shí)踐中,語言模型也有與模型的 "可用性" 相對(duì)應(yīng)的性能稅,而這些性能稅并沒有被今天的標(biāo)準(zhǔn)基準(zhǔn)評(píng)估所很好地反映出來。相對(duì)于大多數(shù)用例的預(yù)訓(xùn)練模型來說,這些性能稅是相當(dāng)明顯的:預(yù)訓(xùn)練的語言模型很難駕馭,因?yàn)樗鼈儾]有試圖幫助你。與類似規(guī)模的基礎(chǔ)模型相比,OpenAI的大多數(shù)客戶更喜歡InstructGPT,即使我們?cè)诨A(chǔ)模型上花費(fèi)了大量的推理時(shí)間計(jì)算,他們也可能會(huì)喜歡。例如,在人類對(duì)OpenAI的Playground的提示的評(píng)估中,即使是小得多的1.3b參數(shù)的InstructGPT,平均來說也明顯優(yōu)于少樣本學(xué)習(xí)的175b的GPT-3基礎(chǔ)模型。然而,這個(gè)統(tǒng)計(jì)沒有考慮到任何內(nèi)容限制和其他安全保障措施,這些可能會(huì)產(chǎn)生額外的性能稅(例如,如果模型拒絕合法的用例)。
性能稅在自動(dòng)對(duì)齊研究中優(yōu)先級(jí)較低
雖然對(duì)齊的AGI可能要在某些市場(chǎng)上競(jìng)爭(zhēng),但在對(duì)齊問題上取得進(jìn)展不應(yīng)該是一種競(jìng)爭(zhēng)。我們都從AI與人類更加一致中受益,因此應(yīng)該自由地分享對(duì)齊研究的進(jìn)展。
當(dāng)使用人工智能系統(tǒng)進(jìn)行自動(dòng)對(duì)齊研究時(shí),這些AI系統(tǒng)也將受到對(duì)齊稅的影響。然而,在這種情況下,我們的AI系統(tǒng)并不直接與其他AI系統(tǒng)在市場(chǎng)上競(jìng)爭(zhēng),因此性能稅不會(huì)那么重要。然而,部署時(shí)間稅仍然很重要:如果對(duì)齊進(jìn)度跟不上AI的能力,我們就不得不放慢或暫停AI的進(jìn)展,這將是非常難以協(xié)調(diào)的問題。
自動(dòng)對(duì)齊研究可以持續(xù)的性能稅在很大程度上取決于系統(tǒng)需要做的工作總量。在這些情況下,開發(fā)稅將是主導(dǎo)因素??紤]一下兩種可能的情況。
需要為每一代新的AI系統(tǒng)做固定數(shù)量的對(duì)齊工作,例如從GPT-2到GPT-3時(shí)。在這種情況下,所能承受的對(duì)齊稅取決于需要做多少工作。例如,如果自動(dòng)對(duì)齊工作的 "稅前" 計(jì)算成本是新AI系統(tǒng)開發(fā)成本的1%,那么1000%的稅只使總對(duì)齊成本達(dá)到AI系統(tǒng)整體成本的11%。然而,這只有在下一代的(對(duì)象層面)性能稅不比這一代的性能稅高很多的情況下才行得通,否則性能稅最終會(huì)一代比一代復(fù)雜。
需要投入固定數(shù)量的對(duì)齊工作來發(fā)現(xiàn)對(duì)齊問題的不確定的可擴(kuò)展的解決方案。在這種情況下,關(guān)鍵問題不是發(fā)現(xiàn)這個(gè)解決方案所支付的性能稅,而只是發(fā)現(xiàn)這個(gè)解決方案的稅后美元總成本X。如果人類可以在太晚之前籌集到Y(jié)美元投資于發(fā)現(xiàn)不確定可擴(kuò)展的解決方案,那么重要的是Y>X。如果X較低(例如因?yàn)槎愂蛰^低),更有可能出現(xiàn)這種情況。然而,除非稅前成本實(shí)際上非常接近于Y,否則對(duì)齊稅對(duì)結(jié)果并不那么重要;這主要是一種成本節(jié)約的做法。
因此,根據(jù)數(shù)字的變化,在這種情況下,10倍甚至100倍的性能稅都可以接受。
總結(jié)
這篇文章討論了三種主要的對(duì)齊稅:性能、開發(fā)和部署時(shí)間稅。隨著部署語言模型的商業(yè)競(jìng)爭(zhēng)的升溫,減少對(duì)齊稅的壓力會(huì)越來越大。然而,對(duì)于自動(dòng)化對(duì)齊研究來說,性能稅并不重要,因?yàn)橹饕繕?biāo)不是在市場(chǎng)上競(jìng)爭(zhēng),而是在對(duì)齊研究上取得進(jìn)展。對(duì)于這一行的研究,我們的重點(diǎn)應(yīng)該是盡量減少開發(fā)和部署時(shí)間稅,所以需要盡早開始這項(xiàng)工作。
感謝Jeff Wu、Richard Ngo和Daniel Kokotajlo,以及Reimar Leike對(duì)本帖的反饋。