Confident Adaptive（上）

2023-06-30 15:41 作者:小牛翻譯NiuTrans 0人讀過 | 我要投稿

本文首發(fā)于網(wǎng)站機器翻譯學(xué)堂

轉(zhuǎn)載事宜請后臺詢問哦

作者 | 蒙龍
單位 | 東北大學(xué)自然語言處理實驗室

論文概況

大模型在許多任務(wù)中獲得了顯著的性能提升，這些收益往往伴隨著模型規(guī)模的急劇增加，導(dǎo)致模型在推理時的緩慢和昂貴。條件計算是一種動態(tài)模型推理加速方法，根據(jù)輸入的難易程度不同來分配不同的計算量。這次的分享通過兩篇論文來為大家分享條件計算中的Confident Adaptive方法。這兩篇論文分別是Consistent Accelerated via Confident Adaptive Transformers[1]以及Confident Adaptive Language Modeling[2]。這兩者一脈相承，都用了Confident Adaptive的方法，后者在前者的基礎(chǔ)上，對問題進(jìn)行進(jìn)一步的泛化和討論。第一篇論文收錄在2021的EMNLP，第二篇是在2022年的NIPS上。

條件計算

在正式介紹這兩篇文章之前，筆者先給大家介紹一下什么是條件計算以及條件計算中的一個基本范式是什么。條件計算是一種動態(tài)的模型推理加速方法，它的一個基本的假設(shè)是輸入的難易程度不同，它所需要的計算量是不一樣的，這樣我們就可以根據(jù)難易程度的不同來動態(tài)分配不同的計算量。條件計算中比較常用的兩個方式是早退以及MoE，它們分別是在模型的深度和寬度上來調(diào)整計算量。

自適應(yīng)早期退出

對于Transformers這種多層架構(gòu)，一種流行的方法是自適應(yīng)早期退出，也就是早退。舉一個簡單的例子來說，給定一個比較深的三十二層的一個網(wǎng)絡(luò)，我們可以在中間的某一層例如第20層退出，這樣就不需要完整地計算三十二層這么深的一個網(wǎng)絡(luò)。但是它和簡單地把模型砍到為20層不同，它依然保留了在深層輸出的一個能力，讓模型自己去為不同的輸入選擇最適合它的那一層進(jìn)行輸出。因此，從這里我們可以看出來，早退里面有兩個比較基本的問題。一個是模型如何再中間層輸出結(jié)果。

第一個問題相對比較直接，目前比較主流的一種方式就是隨時結(jié)構(gòu)化預(yù)測，也就是我們在每一個中間層的后面都接上一個輸出的分類器，這個分類器和最后一層的分類器一樣，輸入中間層的隱藏狀態(tài)表示，輸出一個分類類別維度的分布。然后使用對齊訓(xùn)練的方式同時優(yōu)化這幾個分類器。

第二個問題是給定一個輸入，我們應(yīng)該在第幾層退出，怎么去找到這一個最適合它的層。對于第二個問題相對比較開放，百家爭鳴。這個問題目前沒有一個說百分百ground truth的標(biāo)簽，不同的文章提出不同的假設(shè)，也就是不同的oracle，再根據(jù)不同的oracle構(gòu)建出不同的偽標(biāo)簽。例如有的人認(rèn)為我們應(yīng)該在分?jǐn)?shù)最高的那一層退出，有的人認(rèn)為我們應(yīng)該正確token數(shù)最多的那一層退出，有的人認(rèn)為應(yīng)該用互信息表示來衡量，有的人認(rèn)為用語言模型的重建損失進(jìn)行衡量等等。

Confident Adaptive

我們今天要介紹的Confident Adaptive的方式也是這樣的模式，文章的作者認(rèn)為，我們應(yīng)該在哪里退出呢，當(dāng)中間某一層的結(jié)果和最后一層結(jié)果一致的時候，我們就可以進(jìn)行早退了。我們?nèi)绾稳ダ斫馑@個中間層的結(jié)果和最后一層一致呢。

我們不妨來看這個圖，這是一個Vitamin C的數(shù)據(jù)集，它給一個Claim和Evidence，然后模型需要判斷這個Evidence有沒有支持這個Claim，他一共是有三個標(biāo)簽分別是Support，Refuse和Not Enough Info，橫坐標(biāo)是模型的層數(shù)，對于圖片中例子2，我們可以看到最后一層的輸出結(jié)果是Refuse，所謂的一致層就是和最后一層結(jié)果一樣的層，例如這里的第10層和第17層，其余的就是不一致層。當(dāng)我們在進(jìn)行早退時，只需要找到最早的那一個一致層就可以了。它這種做法其實還是比較直觀比較好理解的。然后就是我們要用什么辦法去找到這一個層。

模型一致性

給定一個固定的、深層的原始模型 $%5Cmathcal%7BF%7D$ , 我們創(chuàng)建了一個可以早退的模型 $G(x)$ ， $%5Cmathcal%7BG%7D$ 里面包括早退的中間分類器 $%5C%7B%5Cmathcal%7BF%7D_1%2C%5Ccdots%5Ccdots%2C%5Cmathcal%7BF%7D_l%5C%7D$ 。然后, 我們以任意高的概率 (如 95%的樣本) 保證 $%5Cmathcal%7BG%7D$ 與原始模型 $%5Cmathcal%7BF%7D$ 一致。

$%5Cmathbb%7BP%7D(%5Cmathcal%7BG%7D(x)%3D%5Cmathcal%7BF%7D(x))%5Cgeq1-%5Cepsilon$

怎么去理解這一個公式呢, 簡單來說, 給定 $n$ 個樣本,? $x_i%5Cin%20X%2Ci%3D1%2C%5Cldots%2Cn$ ?如果誤差頻率 $G%5Cleft(x_i%5Cright)%5Cneq%5Cmathcal%7BF%7D%5Cleft(x_i%5Cright)$ 不超過 $%5Cepsilon%20$ ?, 那么我們就認(rèn)為這個模型 $%5Cmathcal%7BG%7D$ 是 $%5Cepsilon%20-consistent$ 的。通過這樣的設(shè)計, 確保了 $%5Cmathcal%7BG%7D$ 至少保留了 $%5Cmathcal%7BF%7D$ 的 $(1-%5Cepsilon%20)$ 原始性能, 就可以保證模型的性能的一個穩(wěn)定性。在這些約束條件下, 剩下的問題是如何使 $%5Cmathcal%7BG%7D$ 相對高效。例如, 一個肯定一致的, 但沒有實際加速的做法, 就是讓 $%5Cmathcal%7BG%7D$ 恒等 $%5Cmathcal%7BF%7D$ 。

這里有一個比較重要的點需要注意一下,目前在早退中比較重要的一個問題是模型的效果不穩(wěn)定。筆者現(xiàn)在做的一些實驗里面也會有這種問題，簡單隨意地決定什么時候進(jìn)行早退, 可能會導(dǎo)致模型精度的不可預(yù)測的下降。因此如何去量化模型預(yù)測中的這種不穩(wěn)定, 這對于在不過度犧牲性能的情況下, 同時能夠加快預(yù)測是至關(guān)重要的。

CATs 模型結(jié)構(gòu)

我們首先來看 Confident Adaptive Transformers (CATs) 模型結(jié)構(gòu)的一個形式化表示, 具體來說, 給定一個模型 $%5Cmathcal%7BF%7D(x)%3Dy$ , 在預(yù)測 $y$ 之前,? $%5Cmathcal%7BF%7D$ 將輸入 $x$ 映射到一系列的特征表示,? $%5Cmathcal%7BF%7D$ 在這里就是一個 $l$ 層的 Transformer。CATs 做的是分類和回歸任務(wù)。一個基本的模式就是, 對于下游任務(wù), 我們假設(shè)輸入中包含一個[CLS]token, 專門表示用于預(yù)測。產(chǎn)生一系列[CLS]token 的隱藏狀態(tài)表示, 每一個對應(yīng)一層的隱藏層表示

$%5Cleft%5C%7B%5Coperatorname%7Bh%7D_%7B%5B%5Coperatorname%7BCLS%7D%5D%7D%5E%7B(1)%7D%2C%5Cdots%2C%5Coperatorname%7Bh%7D_%7B%5B%5Coperatorname%7BCLS%7D%5D%7D%5E%7B(l)%7D%5Cright%5C%7D$

在每一層的后面我們接上一個分類器，對于分類任務(wù)我們使用的分類器如下，

$%5Cmathcal%7BF%7D_k(x)%3D%5Cmathrm%7Bsoftmax%7D%5Cleft(%5Cmathrm%7BW%7D_o%5Cleft(%5Cphi%5Cleft(%5Cmathrm%7BW%7D_p%5Cmathrm%7Bh%7D_%7B%5Cleft%5B%5Cmathrm%7BCLS%7D%5Cright%5D%7D%5Cright)%5Cright)%5Cright)$

最后一層的分類器 $%5Cmathcal%7BF%7D_l(x)$ 和原始模型 $%5Cmathcal%7BF%7D$ 的最后一層分類器保持一致, 額外的產(chǎn)生的參數(shù)一共是 $(l-1)%5Ctimes(%5Cmathrm%7Bd%7D_%5Cmathrm%7Be%7D%5Ctimes%5Cmathrm%7Bd%7D%2B%5Cmathrm%7Bd%7D_%5Cmathrm%7Be%7D%5Ctimes%7Cy%7C)$ , 在原來的訓(xùn)練數(shù)據(jù)上可以比較快速的微調(diào)。

為了找到一個高效的 $%5Cmathcal%7BG%7D$ , 我們需要一個可靠的信號來告訴模型當(dāng)前的預(yù)測是否有已經(jīng)是和最后一層的預(yù)測一致 $%5Cmathcal%7BF%7D_k(x)%3D%5Cmathcal%7BF%7D(x)$ 。這里和之前的很多工作一樣, 使用了一個額外的比較小的一個專用分類器 $%5Cmathcal%7BM%7D_k(x)$ ?。

$%5Cmathcal%7BM%7D_k(x)%5Cin%7BR%7D$

然后我們在另一個無標(biāo)簽的數(shù)據(jù)集上來訓(xùn)練這個 $%5Cmathcal%7BM%7D_k(x)$ ，當(dāng)前的 “早期” 的隱藏狀態(tài)以及其他幾個已處理過的特征作為輸入,

$%5Cphi%5Cleft(%5Coperatorname%7BW%7D_p%5E%7B(k)%7D%5Coperatorname%7Bh%7D_%7B%5Cleft%5B%5Coperatorname%7BCLS%7D%5Cright%5D%7D%5E%7B%5Cleft(k%5Cright)%7D%5Cright)$

用交叉熵來訓(xùn)練，目標(biāo)函數(shù)是當(dāng)前層輸出和原始模型輸出一致的示性函數(shù)

$1%5Cleft%5C%7B%5Cmathcal%7BF%7D_k%5Cleft(x_i%5Cright)%3D%5Cmathcal%7BF%7D%5Cleft(x_i%5Cright)%5Cright%5C%7D$

有了中間分類器 $%5Cmathcal%7BF%7D_k(x)$ 和給出早退信號的 $%5Cmathcal%7BM%7D_k(x)$ 這兩個零件之后, 我們就可以將 $%5Cmathcal%7BG%7D$ 完整的表示出來

$%5Cmathcal%7BG%7D(%5Cmathbb%7Bx%7D%3B%5Ctau)%3A%3D%5Cleft%5C%7B%5Cbegin%7Barray%7D%7Bll%7D%5Cmathcal%7BF%7D_1(%5Cmathbb%7Bx%7D)%26%5Ctext%7Bif%7D%5Cmathcal%7BM%7D_1(%5Cmathbb%7Bx%7D)%3E%5Ctau_1%2C%5C%5C%20%5Cmathcal%7BF%7D_2(%5Cmathbb%7Bx%7D)%26%5Ctext%7Belse%20if%7D%5Cmathcal%7BM%7D_2(%5Cmathbb%7Bx%7D)%3E%5Ctau_2%2C%5C%5C%20%26%5Cvdots%5C%5C%20%5Cmathcal%7BF%7D_l(%5Cmathbb%7Bx%7D)%26%5Ctext%7Botherwise%7D%5Cend%7Barray%7D%5Cright.$

其中,? $%5Ctau%3D%5Cleft(%5Ctau_1%2C%5Cldots%2C%5Ctau_%7Bl-1%7D%5Cright)$ 是置信度閾值。關(guān)鍵的挑戰(zhàn)是如何校準(zhǔn) $%5Ctau_%5Cmathrm%7Bk%7D$ , 使 $%5Cmathcal%7BG%7D$ 保證是? $?$ ?-consistent 的。

校準(zhǔn)預(yù)熱

一個比較簡單的校準(zhǔn) $%5Ctau_%5Cmathrm%7Bk%7D$ 的做法是在校驗集上優(yōu)化，但是需要滿足如下的經(jīng)驗一致性約束,

其中 exit(.) 指的是模型在第幾層退出 $%5Cwidehat%7B%5Coperatorname%20E%7D_%7B%5Coperatorname%7Bdev%7D%7D$ ,指的是在校驗集上的算術(shù)平均, 但是這種校準(zhǔn)的方法效率較低。因此文章使用了一種叫 Conformal Prediction 保形預(yù)測的方法用來校準(zhǔn) $%5Ctau_%5Cmathrm%7Bk%7D$ 。

保形預(yù)測

保形預(yù)測是由Vovk，Gammerman，Shafer（2005）[3]提出的。并且它統(tǒng)計的理論由Lei, Robins and Wasserman (2013), Lei and Wasserman (2014), Lei, G’Sell, Rinaldo, Tibshirani and Wasserman (2017), Sadinle, Lei and Wasserman (2018)等人不斷發(fā)展。

Conformal Prediction（CP）將區(qū)間估計的思想用在預(yù)測問題上。在進(jìn)行點估計時，我們給位置參數(shù)只給出一個點的估計值，而區(qū)間估計是給出一段區(qū)間，這時我們就有更大的把握讓未知參數(shù)落在這個區(qū)間里面。對預(yù)測也有同樣的概念，相比于只給一個點的預(yù)測，我們可以給出一個預(yù)測的集合。

$CP$ ?的一個基本的模式是, 給定 $n$ 個數(shù)據(jù)輸入和標(biāo)簽的數(shù)據(jù)對,? $(x_1%2Cy_1)%2C%5Cldots%2C(x_n%2Cy_n)$ $, CP$ ?根據(jù)這? $n$ 個數(shù)據(jù)構(gòu)造一個集值函數(shù)? $C_n$ ?, 這個集值函數(shù) $C_n$ 需要滿足, 再來一個 $x_%7Bn%2B1%7D$ 時,? $y_%7Bn%2B1%7D$ 落在我們估計的區(qū)間 (也就是 $C_n$ 的輸出) 的概率要大于 $1-%5Calpha$

$%5Coperatorname%7BP%7D%5Cleft(y_%7Bn%2B1%7D%5Cin%20C_n%5Cleft(x_%7Bn%2B1%7D%5Cright)%5Cright)%5Cgeq1-%5Calpha$

它具體是怎么使用的呢, 大家不要忘了, 我們校準(zhǔn)的目的是為了找個一個高效的 $%5Cmathcal%7BG%7D$ , 也就說我們需要給定一個輸入后, 我們要找到最早的那一個一致層。

我們假設(shè)集合 $%5CPhi(x)$ 是與原始模型最后一層預(yù)測不一致的層的索引。為了保證? $?$ ?-consistent, 我們應(yīng)該盡量避免在這些層退出,

$%5CPhi(x)%3A%3D%5C%7Bi%3A%5Cmathcal%7BF%7D_i(x)%5Cneq%5Cmathcal%7BF%7D(x)%5C%7D$

同樣, 假設(shè)我們現(xiàn)在從訓(xùn)練數(shù)據(jù)里面拿了 $n$ 個樣本? $x_i%2Ci%3D1%2C%5Cldots%2Cn$ 出來, 我們現(xiàn)在把這? $n$ ?個樣本輸入到模型 $%5Cmathcal%7BG%7D$ 中, 我們就可以得到這些樣本各自的一個? $%5Cmathcal%7BG%7D(x_i)$ , 如就是相當(dāng)于? $y$ ?, 我們將? $%5Cmathcal%7BM%7D_%7B1%3A1-1%7D$ 與保形程序配對, 通校準(zhǔn)的閾值? $%5Ctau%3D%5Cbegin%7Bpmatrix%7D%5Ctau_1%2C%5Cldots%2C%5Ctau_%7B1-1%7D%5Cend%7Bpmatrix%7D$ , 得到了? $%5Cmathcal%7BJ%7D(x)$ 的保形預(yù)測,? $C_%5Cepsilon(x)%3A%3D%5C%7Bk%3A%5Cmathcal%7BM%7D_k(x)%5Cle%5Ctau_k%5C%7D$ ?, 使得

$%5Cmathrm%7BC%7D_f%5Cleft(%5Cmathrm%7Bx%7D%5Cright)$

現(xiàn)在先不看為什么保形預(yù)測會是這種形式, 然后我們對? $C_%5Cvarepsilon$ ?取補集? $C%5Ec_%5Cvarepsilon$ ?, 因為? $C_%5Cvarepsilon$ ?是不一致層的集合, 我們?nèi)⊙a集之后就得等到了一致層的集合, 然后我們?nèi)≌覀€補集中最小的值就作為? $%5Cmathcal%7BG%7D$ ?選擇退出的層, 就可以保證模型 $%5Cmathcal%7BG%7D$ ?是? $?$ ?-consistent。

$%5Cbegin%7Bgathered%7D%0A%5Coperatorname%7BK%7D%3A%3D%5Cmin%5Cleft%5C%7Bj%3Aj%5Cin%20C_%5Cepsilon%5Ec(x_%7Bn%2B1%7D)%5Cright%5C%7D%20%5C%5C%0A%5Cmathbb%7BP%7D%5Cleft(G%5Cleft(x_%7Bn%2B1%7D%5Cright)%3D%5Cmathcal%7BF%7D_%7B%5Ctext%7BK%7D%7D%5Cleft(x_%7Bn%2B1%7D%5Cright)%3D%5Cmathcal%7BF%7D%5Cleft(x_%7Bn%2B1%7D%5Cright)%5Cright)%5Cgeq1-%5Cepsilon%20%0A%5Cend%7Bgathered%7D$

我們現(xiàn)在回過頭來看為什么不一致層的保形預(yù)測? $%5Cmathrm%7BC%7D_f%5Cleft(%5Cmathrm%7Bx%7D%5Cright)$ ?會是這樣的一種形式。

參考文獻(xiàn):

[1] Schuster T, Fisch A, Jaakkola T, et al. Consistent accelerated inference via confident adaptive transformers[J]. arXiv preprint arXiv:2104.08803, 2021.

[2] Schuster T, Fisch A, Gupta J, et al. Confident adaptive language modeling[J]. Advances in Neural Information Processing Systems, 2022, 35: 17456-17472.

[3] Vovk V, Gammerman A, Shafer G. Algorithmic learning in a random world[M]. New York: Springer, 2005.

[4] Angelopoulos A N, Bates S, Candès E J, et al. Learn then test: Calibrating predictive algorithms to achieve risk control[J]. arXiv preprint arXiv:2110.01052, 2021.

hi，這里是小牛翻譯~

想要看到更多我們的文章，可以關(guān)注下

機器翻譯學(xué)堂（公號或網(wǎng)站）

筆芯~

往期精彩文章

標(biāo)簽：論文解讀條件計算深度自適應(yīng)

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频