散文網(wǎng) » 生活 »日常 » 主動學(xué)習(xí)（Active Learning）簡介綜述匯總以及主流技術(shù)方案

主動學(xué)習(xí)（Active Learning）簡介綜述匯總以及主流技術(shù)方案

2022-11-30 13:13 作者:汀丶人工智能 0人讀過 | 我要投稿

主動學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項目鏈接fork一下，含實踐程序，因篇幅有限就沒放在本博客中，如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

0.引言

在機器學(xué)習(xí)(Machine learning)領(lǐng)域，監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)(Unsupervised learning)以及半監(jiān)督學(xué)習(xí)(Semi-supervised learning)是三類研究比較多，應(yīng)用比較廣的學(xué)習(xí)技術(shù)，wiki上對這三種學(xué)習(xí)的簡單描述如下：

監(jiān)督學(xué)習(xí)：通過已有的一部分輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的對應(yīng)關(guān)系，生成一個函數(shù)，將輸入映射到合適的輸出，例如分類。
非監(jiān)督學(xué)習(xí)：直接對輸入數(shù)據(jù)集進行建模，例如聚類。
半監(jiān)督學(xué)習(xí)：綜合利用有類標(biāo)的數(shù)據(jù)和沒有類標(biāo)的數(shù)據(jù)，來生成合適的分類函數(shù)。

其實很多機器學(xué)習(xí)都是在解決類別歸屬的問題，即給定一些數(shù)據(jù)，判斷每條數(shù)據(jù)屬于哪些類，或者和其他哪些數(shù)據(jù)屬于同一類等等。這樣，如果我們上來就對這一堆數(shù)據(jù)進行某種劃分(聚類)，通過數(shù)據(jù)內(nèi)在的一些屬性和聯(lián)系，將數(shù)據(jù)自動整理為某幾類，這就屬于非監(jiān)督學(xué)習(xí)。如果我們一開始就知道了這些數(shù)據(jù)包含的類別，并且有一部分?jǐn)?shù)據(jù)(訓(xùn)練數(shù)據(jù))已經(jīng)標(biāo)上了類標(biāo)，我們通過對這些已經(jīng)標(biāo)好類標(biāo)的數(shù)據(jù)進行歸納總結(jié)，得出一個 “數(shù)據(jù)-->類別” 的映射函數(shù)，來對剩余的數(shù)據(jù)進行分類，這就屬于監(jiān)督學(xué)習(xí)。而半監(jiān)督學(xué)習(xí)指的是在訓(xùn)練數(shù)據(jù)十分稀少的情況下，通過利用一些沒有類標(biāo)的數(shù)據(jù)，提高學(xué)習(xí)準(zhǔn)確率的方法。

我們使用一些傳統(tǒng)的監(jiān)督學(xué)習(xí)方法做分類的時候，往往是訓(xùn)練樣本規(guī)模越大，分類的效果就越好。但是在現(xiàn)實生活的很多場景中，標(biāo)記樣本地獲取是比較困難的，這需要領(lǐng)域內(nèi)的專家來進行人工標(biāo)注，所花費的時間成本和經(jīng)濟成本都是很大的。而且，如果訓(xùn)練樣本的規(guī)模過于龐大，訓(xùn)練的時間花費也會比較多。那么有沒有辦法，能夠使用較少的訓(xùn)練樣本來獲得性能較好的分類器呢？主動學(xué)習(xí)(Active Learning)為我們提供了這種可能。主動學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本，并交由專家進行標(biāo)記，然后用查詢到的樣本訓(xùn)練分類模型來提高模型的精確度。

1.主動學(xué)習(xí)簡介

主動學(xué)習(xí)是指對需要標(biāo)記的數(shù)據(jù)進行優(yōu)先排序的過程，這樣可以確定哪些數(shù)據(jù)對訓(xùn)練監(jiān)督模型產(chǎn)生最大的影響。
主動學(xué)習(xí)是一種學(xué)習(xí)算法可以交互式查詢用戶(teacher 或 oracle)，用真實標(biāo)簽標(biāo)注新數(shù)據(jù)點的策略。主動學(xué)習(xí)的過程也被稱為優(yōu)化實驗設(shè)計。
主動學(xué)習(xí)的動機在于認(rèn)識到并非所有標(biāo)有標(biāo)簽的樣本都同等重要。

主動學(xué)習(xí)是一種策略/算法，是對現(xiàn)有模型的增強。而不是新模型架構(gòu)。主動學(xué)習(xí)背后的關(guān)鍵思想是，如果允許機器學(xué)習(xí)算法選擇它學(xué)習(xí)的數(shù)據(jù)，這樣就可以用更少的訓(xùn)練標(biāo)簽實現(xiàn)更高的準(zhǔn)確性。——Active Learning Literature Survey, Burr Settles。通過為專家的標(biāo)記工作進行優(yōu)先級排序可以大大減少訓(xùn)練模型所需的標(biāo)記數(shù)據(jù)量。降低成本，同時提高準(zhǔn)確性。

主動學(xué)習(xí)不是一次為所有的數(shù)據(jù)收集所有的標(biāo)簽，而是對模型理解最困難的數(shù)據(jù)進行優(yōu)先級排序，并僅對那些數(shù)據(jù)要求標(biāo)注標(biāo)簽。然后模型對少量已標(biāo)記的數(shù)據(jù)進行訓(xùn)練，訓(xùn)練完成后再次要求對最不確定數(shù)據(jù)進行更多的標(biāo)記。

通過對不確定的樣本進行優(yōu)先排序，模型可以讓專家（人工）集中精力提供最有用的信息。這有助于模型更快地學(xué)習(xí)，并讓專家跳過對模型沒有太大幫助的數(shù)據(jù)。這樣在某些情況下，可以大大減少需要從專家那里收集的標(biāo)簽數(shù)量，并且仍然可以得到一個很好的模型。這樣可以為機器學(xué)習(xí)項目節(jié)省時間和金錢!

1.1 active learning的基本思想

主動學(xué)習(xí)的模型如下:

A=(C,Q,S,L,U)，

其中 C 為一組或者一個分類器，L是用于訓(xùn)練已標(biāo)注的樣本。Q 是查詢函數(shù)，用于從未標(biāo)注樣本池U中查詢信息量大的信息，S是督導(dǎo)者，可以為U中樣本標(biāo)注正確的標(biāo)簽。學(xué)習(xí)者通過少量初始標(biāo)記樣本L開始學(xué)習(xí)，通過一定的查詢函數(shù)Q選擇出一個或一批最有用的樣本，并向督導(dǎo)者詢問標(biāo)簽，然后利用獲得的新知識來訓(xùn)練分類器和進行下一輪查詢。主動學(xué)習(xí)是一個循環(huán)的過程，直至達(dá)到某一停止準(zhǔn)則為止。 這個準(zhǔn)則可以是迭代次數(shù)，也可以是準(zhǔn)確率等指標(biāo)達(dá)到設(shè)定值

在各種主動學(xué)習(xí)方法中，查詢函數(shù)的設(shè)計最常用的策略是：不確定性準(zhǔn)則（uncertainty）和差異性準(zhǔn)則（diversity）。 不確定性越大代表信息熵越大，包含的信息越豐富；而差異性越大代表選擇的樣本能夠更全面地代表整個數(shù)據(jù)集。

對于不確定性，我們可以借助信息熵的概念來進行理解。我們知道信息熵是衡量信息量的概念，也是衡量不確定性的概念。信息熵越大，就代表不確定性越大，包含的信息量也就越豐富。事實上，有些基于不確定性的主動學(xué)習(xí)查詢函數(shù)就是使用了信息熵來設(shè)計的，比如熵值裝袋查詢（Entropy query-by-bagging）。所以，不確定性策略就是要想方設(shè)法地找出不確定性高的樣本，因為這些樣本所包含的豐富信息量，對我們訓(xùn)練模型來說就是有用的。

那么差異性怎么來理解呢？之前說到或查詢函數(shù)每次迭代中查詢一個或者一批樣本。我們當(dāng)然希望所查詢的樣本提供的信息是全面的，各個樣本提供的信息不重復(fù)不冗余，即樣本之間具有一定的差異性。在每輪迭代抽取單個信息量最大的樣本加入訓(xùn)練集的情況下，每一輪迭代中模型都被重新訓(xùn)練，以新獲得的知識去參與對樣本不確定性的評估可以有效地避免數(shù)據(jù)冗余。但是如果每次迭代查詢一批樣本，那么就應(yīng)該想辦法來保證樣本的差異性，避免數(shù)據(jù)冗余。

從上圖也可以看出來，在相同數(shù)目的標(biāo)注數(shù)據(jù)中，主動學(xué)習(xí)算法比監(jiān)督學(xué)習(xí)算法的分類誤差要低。這里注意橫軸是標(biāo)注數(shù)據(jù)的數(shù)目，對于主動學(xué)習(xí)而言，相同的標(biāo)注數(shù)據(jù)下，主動學(xué)習(xí)的樣本數(shù)>監(jiān)督學(xué)習(xí)，這個對比主要是為了說明兩者對于訓(xùn)練樣本的使用效率不同：主動學(xué)習(xí)訓(xùn)練使用的樣本都是經(jīng)過算法篩選出來對于模型訓(xùn)練有幫助的數(shù)據(jù)，所以效率高。但是如果是相同樣本的數(shù)量下去對比兩者的誤差，那肯定是監(jiān)督學(xué)習(xí)占優(yōu)，這是毋庸置疑的。

1.2active learning與半監(jiān)督學(xué)習(xí)的不同

　　很多人認(rèn)為主動學(xué)習(xí)也屬于半監(jiān)督學(xué)習(xí)的范疇了，但實際上是不一樣的，半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)(transductive learning)以及主動學(xué)習(xí)，都屬于利用未標(biāo)記數(shù)據(jù)的學(xué)習(xí)技術(shù)，但基本思想還是有區(qū)別的。

　　如上所述，主動學(xué)習(xí)的“主動”，指的是主動提出標(biāo)注請求，也就是說，還是需要一個外在的能夠?qū)ζ湔埱筮M行標(biāo)注的實體(通常就是相關(guān)領(lǐng)域人員)，即主動學(xué)習(xí)是交互進行的。

　　而半監(jiān)督學(xué)習(xí)，特指的是學(xué)習(xí)算法不需要人工的干預(yù)，基于自身對未標(biāo)記數(shù)據(jù)加以利用。

2.主動學(xué)習(xí)基礎(chǔ)策略(小試牛刀)

2.1常見主動學(xué)習(xí)策略

在未標(biāo)記的數(shù)據(jù)集上使用主動學(xué)習(xí)的步驟是：

首先需要做的是需要手動標(biāo)記該數(shù)據(jù)的一個非常小的子樣本。
一旦有少量的標(biāo)記數(shù)據(jù)，就需要對其進行訓(xùn)練。該模型當(dāng)然不會很棒，但是將幫助我們了解參數(shù)空間的哪些領(lǐng)域需要首標(biāo)記。
訓(xùn)練模型后，該模型用于預(yù)測每個剩余的未標(biāo)記數(shù)據(jù)點的類別。
根據(jù)模型的預(yù)測，在每個未標(biāo)記的數(shù)據(jù)點上選擇分?jǐn)?shù)
一旦選擇了對標(biāo)簽進行優(yōu)先排序的最佳方法，這個過程就可以進行迭代重復(fù):在基于優(yōu)先級分?jǐn)?shù)進行標(biāo)記的新標(biāo)簽數(shù)據(jù)集上訓(xùn)練新模型。一旦在數(shù)據(jù)子集上訓(xùn)練完新模型，未標(biāo)記的數(shù)據(jù)點就可以在模型中運行并更新優(yōu)先級分值，繼續(xù)標(biāo)記。
通過這種方式，隨著模型變得越來越好，我們可以不斷優(yōu)化標(biāo)簽策略。

2.1.1基于數(shù)據(jù)流的主動學(xué)習(xí)方法

基于流(stream-based)的主動學(xué)習(xí)中，未標(biāo)記的樣例按先后順序逐個提交給選擇引擎，由選擇引擎決定是否標(biāo)注當(dāng)前提交的樣例，如果不標(biāo)注，則將其丟棄。

在基于流的主動學(xué)習(xí)中，所有訓(xùn)練樣本的集合以流的形式呈現(xiàn)給算法。每個樣本都被單獨發(fā)送給算法。算法必須立即決定是否標(biāo)記這個示例。從這個池中選擇的訓(xùn)練樣本由oracle（人工的行業(yè)專家）標(biāo)記，在顯示下一個樣本之前，該標(biāo)記立即由算法接收。

于基于流的算法不能對未標(biāo)注樣例逐一比較，需要對樣例的相應(yīng)評價指標(biāo)設(shè)定閾值，當(dāng)提交給選擇引擎的樣例評價指標(biāo)超過閾值，則進行標(biāo)注，但這種方法需要針對不同的任務(wù)進行調(diào)整，所以難以作為一種成熟的方法投入使用。

2.1.2基于數(shù)據(jù)池的主動學(xué)習(xí)方法

基于池(pool-based)的主動學(xué)習(xí)中則維護一個未標(biāo)注樣例的集合，由選擇引擎在該集合中選擇當(dāng)前要標(biāo)注的樣例。

在基于池的抽樣中，訓(xùn)練樣本從一個大的未標(biāo)記數(shù)據(jù)池中選擇。從這個池中選擇的訓(xùn)練樣本由oracle標(biāo)記。

2.1.3 基于查詢的主動學(xué)習(xí)方法

這種基于委員會查詢的方法使用多個模型而不是一個模型。

委員會查詢(Query by Committee)，它維護一個模型集合(集合被稱為委員會)，通過查詢（投票）選擇最“有爭議”的數(shù)據(jù)點作為下一個需要標(biāo)記的數(shù)據(jù)點。通過這種委員會可的模式以克服一個單一模型所能表達(dá)的限制性假設(shè)（并且在任務(wù)開始時我們也不知道應(yīng)該使用什么假設(shè)）。

有兩個假設(shè)前提：

所有模型在已標(biāo)注數(shù)據(jù)上結(jié)果一致
所有模型對于未標(biāo)注結(jié)果樣本集存在部分分歧

2.2 不確定性度量

識別接下來需要標(biāo)記的最有價值的樣本的過程被稱為“抽樣策略”或“查詢策略”。在該過程中的評分函數(shù)稱為“acquisition function”。該分?jǐn)?shù)的含義是：得分越高的數(shù)據(jù)點被標(biāo)記后，對模型訓(xùn)練后的產(chǎn)生價值就越高。有很多中不同的采樣策略，例如不確定性抽樣，多樣性采樣等，在本節(jié)中，我們將僅關(guān)注最常用策略的不確定性度量。

不確定性抽樣是一組技術(shù)，可以用于識別當(dāng)前機器學(xué)習(xí)模型中的決策邊界附近的未標(biāo)記樣本。這里信息最豐富的例子是分類器最不確定的例子。模型最不確定性的樣本可能是在分類邊界附近的數(shù)據(jù)。而我們模型學(xué)習(xí)的算法將通過觀察這些分類最困難的樣本來獲得有關(guān)類邊界的更多的信息。

讓我們以一個具體的例子，假設(shè)正在嘗試建立一個多類分類，以區(qū)分3類貓，狗，馬。該模型可能會給我們以下預(yù)測：

{ ? ?"Prediction": { ? ? ? ?"Label": "Cat", ? ? ? ?"Prob": { ? ? ? ? ? ?"Cat": 0.9352784428596497, ? ? ? ? ? ?"Horse": 0.05409964170306921, ? ? ? ? ? ?"Dog": 0.038225741147994995, ? ? ? ?} ? ?} }

這個輸出很可能來自softmax，它使用指數(shù)將對數(shù)轉(zhuǎn)換為0-1范圍的分?jǐn)?shù)。

2.2.1最小置信度：（Least confidence)

最小置信度=1（100％置信度）和每個項目的最自信的標(biāo)簽之間的差異。

雖然可以單獨按置信度的順序進行排名，但將不確定性得分轉(zhuǎn)換為0-1范圍，其中1是最不確定的分?jǐn)?shù)可能很有用。因為在這種情況下，我們必須將分?jǐn)?shù)標(biāo)準(zhǔn)化。我們從1中減去該值，將結(jié)果乘以N/（1-N），n為標(biāo)簽數(shù)。這時因為最低置信度永遠(yuǎn)不會小于標(biāo)簽數(shù)量（所有標(biāo)簽都具有相同的預(yù)測置信度的時候)。

讓我們將其應(yīng)用到上面的示例中，不確定性分?jǐn)?shù)將是：（1-0.9352） *（3/2）= 0.0972。

最小置信度是最簡單，最常用的方法，它提供預(yù)測順序的排名，這樣可以以最低的置信度對其預(yù)測標(biāo)簽進行采樣。

2.2.2置信度抽樣間距（margin of confidence sampling）

不確定性抽樣的最直觀形式是兩個置信度做高的預(yù)測之間的差值。也就是說，對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大？這被定義為：

同樣我們可以將其轉(zhuǎn)換為0-1范圍，必須再次使用1減去該值，但是最大可能的分?jǐn)?shù)已經(jīng)為1了，所以不需要再進行其他操作。

讓我們將置信度抽樣間距應(yīng)用于上面的示例數(shù)據(jù)?！柏垺焙汀榜R”是前兩個。使用我們的示例，這種不確定性得分將為1.0 - （0.9352–0.0540）= 0.1188。

2.2.3抽樣比率（Ratio sampling）

置信度比是置信度邊緣的變化，是兩個分?jǐn)?shù)之間的差異比率而不是間距的差異的絕對值。

2.2.4 熵抽樣（Entropy Sampling）

應(yīng)用于概率分布的熵包括將每個概率乘以其自身的對數(shù)，然后求和取負(fù)數(shù):

讓我們在示例數(shù)據(jù)上計算熵：

得到 0 - sum（–0.0705，–0.0903，–0.2273）= 0.3881

除以標(biāo)簽數(shù)的log得到0.3881/ log2（3）= 0.6151

3.主動學(xué)習(xí)方法歸類

3.1 基于不確定性的主動學(xué)習(xí)方法

基于不確定性的主動學(xué)習(xí)方法將最小化條件熵作為尋找判定函數(shù)的依據(jù)。

Bayesian Active Learning for Classification and Preference Learning（論文 2011年）通過貪婪地找到一個能使當(dāng)前模型熵最大程度減少的數(shù)據(jù)點x，但由于模型參數(shù)維度很高，直接求解困難，因此在給定數(shù)據(jù)D和新增數(shù)據(jù)點x條件下，模型預(yù)測和模型參數(shù)之間的互信息。

Deep Bayesian Active Learning with Image Data（論文，代碼 2017年）中實現(xiàn)了這一思路，過程如下：

（1）從整體的數(shù)據(jù)中選一個子集作為初始訓(xùn)練集，來訓(xùn)練任務(wù)模型（分類，分割等等）

（2）用訓(xùn)好的模型在剩余未標(biāo)注的圖像上以train模式跑多組預(yù)測，記錄對每個樣本的輸出。

（3）計算對每個樣本的熵作為不確定性分?jǐn)?shù)。

（4）從大到小依次選擇下一組數(shù)據(jù)標(biāo)注好后加入訓(xùn)練集，更新訓(xùn)練模型（在上一代模型上fine-tuning），直到滿足停止條件。

考慮到深度學(xué)習(xí)中，不能每次選一個數(shù)據(jù)樣本就重新訓(xùn)練一次模型，而是以批數(shù)據(jù)的形式進行訓(xùn)練，BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning（論文 2019年）中，把原來的一個樣本變成了一批樣本。

3.2基于最近鄰和支持向量的分類器的方法

基于不確定性的主動學(xué)習(xí)方法依賴模型預(yù)測的分類概率來確定模型對該樣本的不確定性，但這個概率并不可靠，因為使用softmax分類器的神經(jīng)網(wǎng)絡(luò)并不能識別分布外樣本，且很容易對OOD樣本做出過度自信的預(yù)測。

OOD（Out of Distribution(OOD) detection指的是模型能夠檢測出 OOD 樣本，而 OOD 樣本是相對于 In Distribution(ID) 樣本來說的。傳統(tǒng)的機器學(xué)習(xí)方法通常的假設(shè)是模型訓(xùn)練和測試的數(shù)據(jù)是獨立同分布的(IID, Independent Identical Distribution)，這里訓(xùn)練和測試的數(shù)據(jù)都可以說是 In Distribution(ID) 。在實際應(yīng)用當(dāng)中，模型部署上線后得到的數(shù)據(jù)往往不能被完全控制的，也就是說模型接收的數(shù)據(jù)有可能是 OOD樣本，也可以叫異常樣本(outlier, abnormal)。

基于深度模型的Out of Distribution(OOD)檢測相關(guān)方法介紹

在主動學(xué)習(xí)中，初始階段使用非常少的標(biāo)注樣本訓(xùn)練模型，意味著大量的未標(biāo)注樣本可能都是OOD樣本，若模型過早的給這部分樣本一個過度自信的預(yù)測概率，就可能使我們錯失一些有價值的OOD樣本。如圖所示，初始訓(xùn)練階段，模型缺乏虛線框以外的區(qū)域的訓(xùn)練數(shù)據(jù)，但softmax分類器仍然會對這些區(qū)域給出很自信的預(yù)測，導(dǎo)致選擇新的待標(biāo)注樣本時，圖中的q點會被忽略，而若q點正好不是class B，則會影響主動學(xué)習(xí)的性能。

3.2.1 NNClassifier

針對這個問題NNclassifier中設(shè)計了一個基于最近鄰和支持向量的分類器來取代softmax, 使模型能對遠(yuǎn)離已有訓(xùn)練數(shù)據(jù)的區(qū)域產(chǎn)生較高的不確定性。

具體而言，每類訓(xùn)練學(xué)習(xí)N個支持向量，基于樣本特征與各類的支持向量之間的距離，就可以定義分類概率為與這N個支持向量的核函數(shù)的最大距離：

$pc\left(fx\right)=\max n \delta\left(-d\left(fx, m_{c, n}\right)\right)$

定義了新的可以意識到OOD樣本的分類器之后，作者給出了對應(yīng)的主動學(xué)習(xí)策略：

Rejection confidence，用于度量遠(yuǎn)離所有支持向量的樣本，如圖(b)所示; confusion confidence，用于度量遠(yuǎn)離支持向量以及同時靠近多個不同類支持向量的樣本，如圖?所示。

$\begin{aligned} &M{\text {rejection }}(x)=\sumc\left(1-pc\left(fx\right)\right) \ &M{\text {confusion }}(x)=\sumc\left(1+pc\left(fx\right)-\max c pc\left(f_x\right)\right) \end{aligned}$

3.2.2 RBF network + Gradient Penalty

Amersfoort用RBF神經(jīng)網(wǎng)絡(luò)來促使網(wǎng)絡(luò)具有良好的OOD樣本不確定性，同時給出了基于梯度范數(shù)的雙邊正則來削弱特征崩潰(feature collapse)的問題。與NNClassifier相同，本文的作者也定義了一個與各類特征距離的函數(shù)K來幫助檢測OOD樣本，損失函數(shù)同樣定義成逐類的二值交叉熵。不同于NNClassifier的是，這里的距離是每個樣本與該類樣本的指數(shù)滑動平均得到的。 $Kc\left(f\theta(x), ec\right)=\exp \left(-\left|Wc f\theta(x)-ec\right|_2^2 /\left(2 n \sigma^2\right)\right)$

另一個不同點在于本文加入了一個雙邊梯度正則項。 $\max \left(0,\left|\operatorname{grad}z \sumc K{\mathrm{c}}\right|F^2-1\right)$

這個正則項的作用有兩個，一個是保證平滑性，也就是相似的輸入有相似的輸出，這個是由max()中的梯度部分保證的，而梯度-1則起到避免特征崩潰的作用，也就是相比單純的使用特征范數(shù)正則，-1能夠避免模型將很多不同的輸入映射到完全相同的特征，也就是feature collapse。

3.3基于特征空間覆蓋的方法

接下來主要介紹基于特征空間覆蓋的主動學(xué)習(xí)代表性工作：coreset。coreset的主要貢獻(xiàn)：給出了基于特征空間覆蓋的主動學(xué)習(xí)算法的近似損失上界；證明了新添加的樣本在能夠縮小標(biāo)注樣本對剩余樣本的覆蓋半徑時，才能提高近似效果。

coreset認(rèn)為主動學(xué)習(xí)目標(biāo)就是縮小核心集誤差，即主動學(xué)習(xí)選出的樣本損失與全體樣本損失之間的差別。

我們在主動學(xué)習(xí)挑選新樣本時，并不知道樣本的標(biāo)簽，也就沒法直接求核心集損失。作者把核心集損失的上界轉(zhuǎn)換做剩余訓(xùn)練樣本與挑選出的標(biāo)注樣本間的最大距離。因此，主動學(xué)習(xí)問題等價于選擇添加一組標(biāo)注樣本，使得其他樣本對標(biāo)注樣本集的最大距離$\delta_s$ 最小，也就是k-center集覆蓋問題。如圖所示，藍(lán)色為挑選出的標(biāo)注樣本，紅色為其他樣本。

3.4 基于對抗學(xué)習(xí)的方法

3.4.1VAAL

Variational Adversarial Active Learning（地址 2019年）描述了一種基于池的半監(jiān)督主動學(xué)習(xí)算法，它以對抗的方式（關(guān)于對抗學(xué)習(xí)的詳細(xì)介紹參見這里）隱式地學(xué)習(xí)了這種采樣機制。與傳統(tǒng)的主動學(xué)習(xí)算法不同，VAAL與任務(wù)無關(guān)，也就是說，它不依賴于試圖獲取標(biāo)注數(shù)據(jù)的任務(wù)的性能。VAAL使用變分自編碼器(VAE)和訓(xùn)練好的對抗網(wǎng)絡(luò)來學(xué)習(xí)潛在空間，以區(qū)分未標(biāo)注和標(biāo)注的數(shù)據(jù)。

核心思想 本文的出發(fā)點可以理解如下：之前很多方法的uncertainty都是基于模型的，也就是說需要有個分割/分類等模型計算預(yù)測結(jié)果，然后從結(jié)果的好壞去分析相應(yīng)的被預(yù)測樣本的價值。而本文的uncertainty是基于數(shù)據(jù)本身的，也就是說并非基于預(yù)測結(jié)果本身去分析，而是直接基于樣本自身的特征去處理。

核心思想：利用VAE對已標(biāo)注的數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)進行編碼。因此，對于一個未標(biāo)注的數(shù)據(jù)，如果其編碼向量與潛在空間中向量的差異足夠大，那么我們就認(rèn)為該樣本是有價值的。

而對于樣本的選擇，是通過一個對抗網(wǎng)絡(luò)來實現(xiàn)的，該對抗網(wǎng)絡(luò)被用來區(qū)分一個樣本是已標(biāo)注還是未標(biāo)注。因此上文的VAE還有一個額外的任務(wù)，即他的編碼要讓判別器難以區(qū)分已經(jīng)標(biāo)注還是沒有標(biāo)注。

網(wǎng)絡(luò)結(jié)構(gòu) VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進行的：VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測，所有的數(shù)據(jù)點都來自已標(biāo)注池；對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下：

VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進行的：VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測，所有的數(shù)據(jù)點都來自已標(biāo)注池；對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下：

主動學(xué)習(xí)策略

一開始隨機選擇10%的圖像開始訓(xùn)練，此時記訓(xùn)練的網(wǎng)絡(luò)為版本1。對于版本1，訓(xùn)練會迭代max_iterations次，與一般網(wǎng)絡(luò)訓(xùn)練過程的差別在于每個iteration除了訓(xùn)練"任務(wù)模型"外，還得去訓(xùn)練VAE與判別器。而當(dāng)?shù)Y(jié)束后，訓(xùn)練得到的"任務(wù)模型"其實與直接隨機抽取10%的圖像訓(xùn)練沒有區(qū)別，因為VAE與判別器只對下一個網(wǎng)絡(luò)版本有貢獻(xiàn)。
利用VAE與判別器內(nèi)包含的經(jīng)驗，一次性抽取5%的新數(shù)據(jù)加入訓(xùn)練集，此時開始訓(xùn)練網(wǎng)絡(luò)版本2。而這里特別關(guān)鍵的一點是，版本2仍然是從預(yù)訓(xùn)練VGG開始從頭訓(xùn)練的(而非在版本1的基礎(chǔ)上繼續(xù)finetune)。至此一直迭代到選取50%的數(shù)據(jù)結(jié)束。

模型特點 本文的強化學(xué)習(xí)有點"離線"的味道，即最后選取出的50%數(shù)據(jù)可以很輕松的遷移至其他模型中，選擇的過程只依賴VAE與判別器，而與具體的任務(wù)無關(guān)。

此外該模型訓(xùn)練十分耗時——從10%逐步提升5%至50%，相當(dāng)于順序訓(xùn)練了9個相同的模型，再考慮訓(xùn)練VAE與判別器的耗時，訓(xùn)練該主動學(xué)習(xí)框架的所需時間可能高達(dá)原有基礎(chǔ)網(wǎng)絡(luò)的10倍。

3.4.2SRAAL

SRAAL（論文 https://openaccess.thecvf.com/contentCVPR2020/html/ZhangState-RelabelingAdversarialActiveLearningCVPR2020_paper.html）是VAAL的一個改進版。在VAAL中，判別器的訓(xùn)練的時候只有兩種狀態(tài)，標(biāo)注/未標(biāo)注。SRAAL的作者認(rèn)為這樣忽略了一些信息，有時候任務(wù)模型已經(jīng)能很確信的對某個未標(biāo)注樣本做預(yù)測了，就應(yīng)該降低選擇這個樣本的優(yōu)先級。

為了實現(xiàn)這個思路，作者給出了一個任務(wù)模型預(yù)測不確定度的計算函數(shù)，用這個函數(shù)的輸出結(jié)果作為生成對抗網(wǎng)絡(luò)的判別器訓(xùn)練過程中，無標(biāo)注樣本的標(biāo)簽，而不用簡單的個一個二值變量。

3.4.3ARAL

VAAL有效的一個關(guān)鍵的因素實際上是同時利用標(biāo)注/無標(biāo)注的樣本共同訓(xùn)練產(chǎn)生特征映射，而不像之前基于特征的coreset等主動學(xué)習(xí)方法，僅用標(biāo)注數(shù)據(jù)訓(xùn)練產(chǎn)生特征。

ARAL（https://arxiv.org/abs/1912.09720 2019.11）更進一步，也用這些個無標(biāo)注樣本來訓(xùn)練任務(wù)模型(如分類器)本身，整體仍然是在VAAL基礎(chǔ)上做的，只是增加了cgan的判別器來實現(xiàn)半監(jiān)督訓(xùn)練任務(wù)模型。整體來說，基于池的主動學(xué)習(xí)用標(biāo)注樣本來訓(xùn)練任務(wù)模型，合成的主動學(xué)習(xí)標(biāo)注合成的樣本來訓(xùn)練任務(wù)模型。

相比之下，VAAL用標(biāo)注數(shù)據(jù)訓(xùn)練任務(wù)模型，用所有數(shù)據(jù)來訓(xùn)練產(chǎn)生特征；ARAL用所有的訓(xùn)練數(shù)據(jù)，合成數(shù)據(jù)來訓(xùn)練任務(wù)模型、產(chǎn)生特征映射。相當(dāng)于使用了半監(jiān)督的學(xué)習(xí)方法，與和之前純基于監(jiān)督訓(xùn)練的主動學(xué)習(xí)方法比較自然有所提升。

4.融合不確定性和多樣性的學(xué)習(xí)方法☆

之前介紹了基于不確定性的方法，以及基于多樣性的方法。接下來我們來看看融合兩者的方法。就動機而言，如果只用不確定性標(biāo)準(zhǔn)來選樣本，在批量選擇的場景中，很容易出現(xiàn)選到冗余樣本的問題。而在深度學(xué)習(xí)中，由于訓(xùn)練開銷的緣故，通常都采用批主動學(xué)習(xí)，所以為了提高主動學(xué)習(xí)的效率，就得考慮批量選擇高不確定性樣本時的多樣性問題。而從多樣性樣本選擇方法的角度來說，單純的特征空間覆蓋算法不能區(qū)分模型是否已經(jīng)能很好預(yù)測某部分樣本，會限制這類方法所能達(dá)到的上限。

融合不確定性和多樣性的思路主要有三種：

完全延續(xù)信息論的分析思路，也就是batchBALD，在批量選擇的過程中不采取每個樣本互信息直接相加，而用求并的方法來避免選到冗余樣本;
先用不確定性標(biāo)準(zhǔn)選出大于budget size的候選集，再用集覆蓋的思路來選擇特征差異大的樣本；
是2的擴展，通過在梯度嵌入空間聚類來選樣本，從而避開人工給定候選樣本集大小的問題。

4.1信息論思路

第一種從理論上來看很優(yōu)雅，從信息論的角度推出怎么在批量選擇的場景里選到對模型參數(shù)改善最有效的一組樣本。但計算復(fù)雜度很高，可能并不是很實用，該論文中的實驗部分也都是在很小的數(shù)據(jù)集上完成的。

4.2 構(gòu)建候選集+大差異樣本——SA

這類方法實現(xiàn)起來最簡單，非常啟發(fā)式。整個主動學(xué)習(xí)分兩步來做，第一步先用不確定性(熵，BALD等)選超出主動學(xué)習(xí)budget size的候選樣本集，在用多樣性的方法，選擇能最好覆蓋這個候選集的一組樣本。

SA 2017 用Bootstrapping訓(xùn)練若干個模型，用這些模型預(yù)測的variance來表示不確定性，之后再用候選集中樣本特征相似度來選取與已經(jīng)選到的樣本差異最大的樣本，就類似coreset-greedy的做法。

CoreLog 2021 基于Proper Scoring Rules給了表示不確定性的度量，先選出不確定性大的前k%個樣本，再用kmeans聚類來選擇多樣的樣本。

這種結(jié)合的方式?jīng)]毛病，但有個小的問題，很難說清咋確定這個候選集大小，到底多大能算作高不確定性，能丟到候選集里。

4.3 梯度嵌入空間——badge☆

badge：https://arxiv.org/abs/1906.03671 2020 和第二類方法的思路很像，不確定性的用模型參數(shù)就某個樣本的梯度大小來表示，多樣性用kmeans++來保證。但這個方法很巧妙的地方在于，通過把這個問題丟到梯度嵌入空間來做（而不像第二類方法在樣本的特征空間保證多樣性），使樣本的多樣性和不確定性能同時得到保證。

梯度范數(shù)大小表示不確定性很好理解，和之前用熵之類的指標(biāo)來表示不確定性類似，模型預(yù)測的概率小，意味著熵大，也意味著如果把這樣本標(biāo)了，模型要有較大的變化才能擬合好這個樣本，也就是求出來的梯度大。梯度表示多樣性，是這類方法的獨特之處，用梯度向量來聚類，選到的差異大的樣本就變成：讓模型參數(shù)的更新方向不同的樣本，而不是樣本特征本身不同。

在用梯度表示了不確定性和多樣性之后，怎么來選一批既有高不確定性，又不同的樣本呢？badge的做法是Kmeans++聚類，第一個樣本選梯度范數(shù)最大的樣本，之后依據(jù)每個樣本梯度與選到的樣本梯度的差的范數(shù)來采樣新的樣本。這里注意這個差是兩個向量的差，所以自然的避免了重復(fù)的選到梯度方向接近且范數(shù)都比較大的一組樣本。

5. 基于變化最大的方法

這一類方法核心的觀點是，不管不確定性或多樣性，而是希望選出的樣本能使模型產(chǎn)生的變化最大。變化最大可以著眼于loss最大，也可以關(guān)注梯度的情況，比如梯度范數(shù)大小。

learning loss 2019 在任務(wù)模型上加一個小的附屬子網(wǎng)絡(luò)用來學(xué)習(xí)預(yù)測樣本的損失值。訓(xùn)練任務(wù)模型的時候，也同時訓(xùn)練這個預(yù)測損失模塊，之后就用這個模塊來預(yù)測對哪個未標(biāo)注樣本的損失大，就選他。整個算法的流程圖如下

損失預(yù)測模塊的結(jié)構(gòu)和損失計算方法如下：

6.總結(jié)

主動學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項目鏈接fork一下，含實踐程序，因篇幅有限就沒放在本博客中，如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

獲得有用是標(biāo)注數(shù)據(jù)在訓(xùn)練時是非常重要的，但是標(biāo)注數(shù)據(jù)可能很非常的費事費力，并且如果標(biāo)注的質(zhì)量不佳也會對訓(xùn)練產(chǎn)生很大的影響。主動學(xué)習(xí)是解決這個問題的一個方向，并且是一個非常好的方向。

標(biāo)簽：