最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

主動學(xué)習(xí)(Active Learning)簡介綜述匯總以及主流技術(shù)方案

2022-11-30 13:13 作者:汀丶人工智能  | 我要投稿

主動學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項目鏈接fork一下,含實踐程序,因篇幅有限就沒放在本博客中,如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

0.引言

在機器學(xué)習(xí)(Machine learning)領(lǐng)域,監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)(Unsupervised learning)以及半監(jiān)督學(xué)習(xí)(Semi-supervised learning)是三類研究比較多,應(yīng)用比較廣的學(xué)習(xí)技術(shù),wiki上對這三種學(xué)習(xí)的簡單描述如下:

  • 監(jiān)督學(xué)習(xí):通過已有的一部分輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的對應(yīng)關(guān)系,生成一個函數(shù),將輸入映射到合適的輸出,例如分類。

  • 非監(jiān)督學(xué)習(xí):直接對輸入數(shù)據(jù)集進行建模,例如聚類。

  • 半監(jiān)督學(xué)習(xí):綜合利用有類標(biāo)的數(shù)據(jù)和沒有類標(biāo)的數(shù)據(jù),來生成合適的分類函數(shù)。

其實很多機器學(xué)習(xí)都是在解決類別歸屬的問題,即給定一些數(shù)據(jù),判斷每條數(shù)據(jù)屬于哪些類,或者和其他哪些數(shù)據(jù)屬于同一類等等。這樣,如果我們上來就對這一堆數(shù)據(jù)進行某種劃分(聚類),通過數(shù)據(jù)內(nèi)在的一些屬性和聯(lián)系,將數(shù)據(jù)自動整理為某幾類,這就屬于非監(jiān)督學(xué)習(xí)。 如果我們一開始就知道了這些數(shù)據(jù)包含的類別,并且有一部分?jǐn)?shù)據(jù)(訓(xùn)練數(shù)據(jù))已經(jīng)標(biāo)上了類標(biāo),我們通過對這些已經(jīng)標(biāo)好類標(biāo)的數(shù)據(jù)進行歸納總結(jié),得出一個 “數(shù)據(jù)-->類別” 的映射函數(shù),來對剩余的數(shù)據(jù)進行分類,這就屬于監(jiān)督學(xué)習(xí)。 而半監(jiān)督學(xué)習(xí)指的是在訓(xùn)練數(shù)據(jù)十分稀少的情況下,通過利用一些沒有類標(biāo)的數(shù)據(jù),提高學(xué)習(xí)準(zhǔn)確率的方法。

我們使用一些傳統(tǒng)的監(jiān)督學(xué)習(xí)方法做分類的時候,往往是訓(xùn)練樣本規(guī)模越大,分類的效果就越好。但是在現(xiàn)實生活的很多場景中,標(biāo)記樣本地獲取是比較困難的,這需要領(lǐng)域內(nèi)的專家來進行人工標(biāo)注,所花費的時間成本和經(jīng)濟成本都是很大的。而且,如果訓(xùn)練樣本的規(guī)模過于龐大,訓(xùn)練的時間花費也會比較多。那么有沒有辦法,能夠使用較少的訓(xùn)練樣本來獲得性能較好的分類器呢?主動學(xué)習(xí)(Active Learning)為我們提供了這種可能。主動學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本,并交由專家進行標(biāo)記,然后用查詢到的樣本訓(xùn)練分類模型來提高模型的精確度。

1.主動學(xué)習(xí)簡介

  1. 主動學(xué)習(xí)是指對需要標(biāo)記的數(shù)據(jù)進行優(yōu)先排序的過程,這樣可以確定哪些數(shù)據(jù)對訓(xùn)練監(jiān)督模型產(chǎn)生最大的影響。

  2. 主動學(xué)習(xí)是一種學(xué)習(xí)算法可以交互式查詢用戶(teacher 或 oracle),用真實標(biāo)簽標(biāo)注新數(shù)據(jù)點的策略。主動學(xué)習(xí)的過程也被稱為優(yōu)化實驗設(shè)計。

  3. 主動學(xué)習(xí)的動機在于認(rèn)識到并非所有標(biāo)有標(biāo)簽的樣本都同等重要。

主動學(xué)習(xí)是一種策略/算法,是對現(xiàn)有模型的增強。而不是新模型架構(gòu)。主動學(xué)習(xí)背后的關(guān)鍵思想是,如果允許機器學(xué)習(xí)算法選擇它學(xué)習(xí)的數(shù)據(jù),這樣就可以用更少的訓(xùn)練標(biāo)簽實現(xiàn)更高的準(zhǔn)確性。——Active Learning Literature Survey, Burr Settles。通過為專家的標(biāo)記工作進行優(yōu)先級排序可以大大減少訓(xùn)練模型所需的標(biāo)記數(shù)據(jù)量。降低成本,同時提高準(zhǔn)確性。

主動學(xué)習(xí)不是一次為所有的數(shù)據(jù)收集所有的標(biāo)簽,而是對模型理解最困難的數(shù)據(jù)進行優(yōu)先級排序,并僅對那些數(shù)據(jù)要求標(biāo)注標(biāo)簽。然后模型對少量已標(biāo)記的數(shù)據(jù)進行訓(xùn)練,訓(xùn)練完成后再次要求對最不確定數(shù)據(jù)進行更多的標(biāo)記。

通過對不確定的樣本進行優(yōu)先排序,模型可以讓專家(人工)集中精力提供最有用的信息。這有助于模型更快地學(xué)習(xí),并讓專家跳過對模型沒有太大幫助的數(shù)據(jù)。這樣在某些情況下,可以大大減少需要從專家那里收集的標(biāo)簽數(shù)量,并且仍然可以得到一個很好的模型。這樣可以為機器學(xué)習(xí)項目節(jié)省時間和金錢!

1.1 active learning的基本思想

主動學(xué)習(xí)的模型如下:

A=(C,Q,S,L,U),

其中 C 為一組或者一個分類器,L是用于訓(xùn)練已標(biāo)注的樣本。Q 是查詢函數(shù),用于從未標(biāo)注樣本池U中查詢信息量大的信息,S是督導(dǎo)者,可以為U中樣本標(biāo)注正確的標(biāo)簽。學(xué)習(xí)者通過少量初始標(biāo)記樣本L開始學(xué)習(xí),通過一定的查詢函數(shù)Q選擇出一個或一批最有用的樣本,并向督導(dǎo)者詢問標(biāo)簽,然后利用獲得的新知識來訓(xùn)練分類器和進行下一輪查詢。主動學(xué)習(xí)是一個循環(huán)的過程,直至達(dá)到某一停止準(zhǔn)則為止。 這個準(zhǔn)則可以是迭代次數(shù),也可以是準(zhǔn)確率等指標(biāo)達(dá)到設(shè)定值

在各種主動學(xué)習(xí)方法中,查詢函數(shù)的設(shè)計最常用的策略是:不確定性準(zhǔn)則(uncertainty)和差異性準(zhǔn)則(diversity)。 不確定性越大代表信息熵越大,包含的信息越豐富;而差異性越大代表選擇的樣本能夠更全面地代表整個數(shù)據(jù)集。

對于不確定性,我們可以借助信息熵的概念來進行理解。我們知道信息熵是衡量信息量的概念,也是衡量不確定性的概念。信息熵越大,就代表不確定性越大,包含的信息量也就越豐富。事實上,有些基于不確定性的主動學(xué)習(xí)查詢函數(shù)就是使用了信息熵來設(shè)計的,比如熵值裝袋查詢(Entropy query-by-bagging)。所以,不確定性策略就是要想方設(shè)法地找出不確定性高的樣本,因為這些樣本所包含的豐富信息量,對我們訓(xùn)練模型來說就是有用的。

那么差異性怎么來理解呢?之前說到或查詢函數(shù)每次迭代中查詢一個或者一批樣本。我們當(dāng)然希望所查詢的樣本提供的信息是全面的,各個樣本提供的信息不重復(fù)不冗余,即樣本之間具有一定的差異性。在每輪迭代抽取單個信息量最大的樣本加入訓(xùn)練集的情況下,每一輪迭代中模型都被重新訓(xùn)練,以新獲得的知識去參與對樣本不確定性的評估可以有效地避免數(shù)據(jù)冗余。但是如果每次迭代查詢一批樣本,那么就應(yīng)該想辦法來保證樣本的差異性,避免數(shù)據(jù)冗余。

從上圖也可以看出來,在相同數(shù)目的標(biāo)注數(shù)據(jù)中,主動學(xué)習(xí)算法比監(jiān)督學(xué)習(xí)算法的分類誤差要低。這里注意橫軸是標(biāo)注數(shù)據(jù)的數(shù)目,對于主動學(xué)習(xí)而言,相同的標(biāo)注數(shù)據(jù)下,主動學(xué)習(xí)的樣本數(shù)>監(jiān)督學(xué)習(xí),這個對比主要是為了說明兩者對于訓(xùn)練樣本的使用效率不同:主動學(xué)習(xí)訓(xùn)練使用的樣本都是經(jīng)過算法篩選出來對于模型訓(xùn)練有幫助的數(shù)據(jù),所以效率高。但是如果是相同樣本的數(shù)量下去對比兩者的誤差,那肯定是監(jiān)督學(xué)習(xí)占優(yōu),這是毋庸置疑的。

1.2active learning與半監(jiān)督學(xué)習(xí)的不同

  很多人認(rèn)為主動學(xué)習(xí)也屬于半監(jiān)督學(xué)習(xí)的范疇了,但實際上是不一樣的,半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)(transductive learning)以及主動學(xué)習(xí),都屬于利用未標(biāo)記數(shù)據(jù)的學(xué)習(xí)技術(shù),但基本思想還是有區(qū)別的。

  如上所述,主動學(xué)習(xí)的“主動”,指的是主動提出標(biāo)注請求,也就是說,還是需要一個外在的能夠?qū)ζ湔埱筮M行標(biāo)注的實體(通常就是相關(guān)領(lǐng)域人員),即主動學(xué)習(xí)是交互進行的。

  而半監(jiān)督學(xué)習(xí),特指的是學(xué)習(xí)算法不需要人工的干預(yù),基于自身對未標(biāo)記數(shù)據(jù)加以利用。

2.主動學(xué)習(xí)基礎(chǔ)策略(小試牛刀)

2.1常見主動學(xué)習(xí)策略

在未標(biāo)記的數(shù)據(jù)集上使用主動學(xué)習(xí)的步驟是:

  • 首先需要做的是需要手動標(biāo)記該數(shù)據(jù)的一個非常小的子樣本。

  • 一旦有少量的標(biāo)記數(shù)據(jù),就需要對其進行訓(xùn)練。該模型當(dāng)然不會很棒,但是將幫助我們了解參數(shù)空間的哪些領(lǐng)域需要首標(biāo)記。

  • 訓(xùn)練模型后,該模型用于預(yù)測每個剩余的未標(biāo)記數(shù)據(jù)點的類別。

  • 根據(jù)模型的預(yù)測,在每個未標(biāo)記的數(shù)據(jù)點上選擇分?jǐn)?shù)

  • 一旦選擇了對標(biāo)簽進行優(yōu)先排序的最佳方法,這個過程就可以進行迭代重復(fù):在基于優(yōu)先級分?jǐn)?shù)進行標(biāo)記的新標(biāo)簽數(shù)據(jù)集上訓(xùn)練新模型。一旦在數(shù)據(jù)子集上訓(xùn)練完新模型,未標(biāo)記的數(shù)據(jù)點就可以在模型中運行并更新優(yōu)先級分值,繼續(xù)標(biāo)記。

  • 通過這種方式,隨著模型變得越來越好,我們可以不斷優(yōu)化標(biāo)簽策略。

2.1.1基于數(shù)據(jù)流的主動學(xué)習(xí)方法

基于流(stream-based)的主動學(xué)習(xí)中,未標(biāo)記的樣例按先后順序逐個提交給選擇引擎,由選擇引擎決定是否標(biāo)注當(dāng)前提交的樣例,如果不標(biāo)注,則將其丟棄。

在基于流的主動學(xué)習(xí)中,所有訓(xùn)練樣本的集合以流的形式呈現(xiàn)給算法。每個樣本都被單獨發(fā)送給算法。算法必須立即決定是否標(biāo)記這個示例。從這個池中選擇的訓(xùn)練樣本由oracle(人工的行業(yè)專家)標(biāo)記,在顯示下一個樣本之前,該標(biāo)記立即由算法接收。

于基于流的算法不能對未標(biāo)注樣例逐一比較,需要對樣例的相應(yīng)評價指標(biāo)設(shè)定閾值,當(dāng)提交給選擇引擎的樣例評價指標(biāo)超過閾值,則進行標(biāo)注,但這種方法需要針對不同的任務(wù)進行調(diào)整,所以難以作為一種成熟的方法投入使用。

2.1.2基于數(shù)據(jù)池的主動學(xué)習(xí)方法

基于池(pool-based)的主動學(xué)習(xí)中則維護一個未標(biāo)注樣例的集合,由選擇引擎在該集合中選擇當(dāng)前要標(biāo)注的樣例。

在基于池的抽樣中,訓(xùn)練樣本從一個大的未標(biāo)記數(shù)據(jù)池中選擇。從這個池中選擇的訓(xùn)練樣本由oracle標(biāo)記。

2.1.3 基于查詢的主動學(xué)習(xí)方法

這種基于委員會查詢的方法使用多個模型而不是一個模型。

委員會查詢(Query by Committee),它維護一個模型集合(集合被稱為委員會),通過查詢(投票)選擇最“有爭議”的數(shù)據(jù)點作為下一個需要標(biāo)記的數(shù)據(jù)點。通過這種委員會可的模式以克服一個單一模型所能表達(dá)的限制性假設(shè)(并且在任務(wù)開始時我們也不知道應(yīng)該使用什么假設(shè))。

有兩個假設(shè)前提:

  1. 所有模型在已標(biāo)注數(shù)據(jù)上結(jié)果一致

  2. 所有模型對于未標(biāo)注結(jié)果樣本集存在部分分歧

2.2 不確定性度量

識別接下來需要標(biāo)記的最有價值的樣本的過程被稱為“抽樣策略”或“查詢策略”。在該過程中的評分函數(shù)稱為“acquisition function”。該分?jǐn)?shù)的含義是:得分越高的數(shù)據(jù)點被標(biāo)記后,對模型訓(xùn)練后的產(chǎn)生價值就越高。有很多中不同的采樣策略,例如不確定性抽樣,多樣性采樣等,在本節(jié)中,我們將僅關(guān)注最常用策略的不確定性度量。

不確定性抽樣是一組技術(shù),可以用于識別當(dāng)前機器學(xué)習(xí)模型中的決策邊界附近的未標(biāo)記樣本。這里信息最豐富的例子是分類器最不確定的例子。模型最不確定性的樣本可能是在分類邊界附近的數(shù)據(jù)。而我們模型學(xué)習(xí)的算法將通過觀察這些分類最困難的樣本來獲得有關(guān)類邊界的更多的信息。

讓我們以一個具體的例子,假設(shè)正在嘗試建立一個多類分類,以區(qū)分3類貓,狗,馬。該模型可能會給我們以下預(yù)測:

{ ? ?"Prediction": { ? ? ? ?"Label": "Cat", ? ? ? ?"Prob": { ? ? ? ? ? ?"Cat": 0.9352784428596497, ? ? ? ? ? ?"Horse": 0.05409964170306921, ? ? ? ? ? ?"Dog": 0.038225741147994995, ? ? ? ?} ? ?} }

這個輸出很可能來自softmax,它使用指數(shù)將對數(shù)轉(zhuǎn)換為0-1范圍的分?jǐn)?shù)。

2.2.1最小置信度:(Least confidence)

最小置信度=1(100%置信度)和每個項目的最自信的標(biāo)簽之間的差異。

雖然可以單獨按置信度的順序進行排名,但將不確定性得分轉(zhuǎn)換為0-1范圍,其中1是最不確定的分?jǐn)?shù)可能很有用。因為在這種情況下,我們必須將分?jǐn)?shù)標(biāo)準(zhǔn)化。我們從1中減去該值,將結(jié)果乘以N/(1-N),n為標(biāo)簽數(shù)。這時因為最低置信度永遠(yuǎn)不會小于標(biāo)簽數(shù)量(所有標(biāo)簽都具有相同的預(yù)測置信度的時候)。

讓我們將其應(yīng)用到上面的示例中,不確定性分?jǐn)?shù)將是:(1-0.9352) *(3/2)= 0.0972。

最小置信度是最簡單,最常用的方法,它提供預(yù)測順序的排名,這樣可以以最低的置信度對其預(yù)測標(biāo)簽進行采樣。

2.2.2置信度抽樣間距(margin of confidence sampling)

不確定性抽樣的最直觀形式是兩個置信度做高的預(yù)測之間的差值。也就是說,對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大?這被定義為:

不確定性抽樣的最直觀形式是兩個置信度做高的預(yù)測之間的差值。也就是說,對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大?這被定義為:

同樣我們可以將其轉(zhuǎn)換為0-1范圍,必須再次使用1減去該值,但是最大可能的分?jǐn)?shù)已經(jīng)為1了,所以不需要再進行其他操作。

讓我們將置信度抽樣間距應(yīng)用于上面的示例數(shù)據(jù)?!柏垺焙汀榜R”是前兩個。使用我們的示例,這種不確定性得分將為1.0 - (0.9352–0.0540)= 0.1188。

2.2.3抽樣比率 (Ratio sampling)

置信度比是置信度邊緣的變化,是兩個分?jǐn)?shù)之間的差異比率而不是間距的差異的絕對值。

2.2.4 熵抽樣(Entropy Sampling)

應(yīng)用于概率分布的熵包括將每個概率乘以其自身的對數(shù),然后求和取負(fù)數(shù):

讓我們在示例數(shù)據(jù)上計算熵:

得到 0 - sum(–0.0705,–0.0903,–0.2273)= 0.3881

除以標(biāo)簽數(shù)的log得到0.3881/ log2(3)= 0.6151

3.主動學(xué)習(xí)方法歸類

3.1 基于不確定性的主動學(xué)習(xí)方法

基于不確定性的主動學(xué)習(xí)方法將最小化條件熵作為尋找判定函數(shù)的依據(jù)。

Bayesian Active Learning for Classification and Preference Learning(論文 2011年)通過貪婪地找到一個能使當(dāng)前模型熵最大程度減少的數(shù)據(jù)點x,但由于模型參數(shù)維度很高,直接求解困難,因此在給定數(shù)據(jù)D和新增數(shù)據(jù)點x條件下,模型預(yù)測和模型參數(shù)之間的互信息。

Deep Bayesian Active Learning with Image Data(論文,代碼 2017年)中實現(xiàn)了這一思路,過程如下:

(1)從整體的數(shù)據(jù)中選一個子集作為初始訓(xùn)練集,來訓(xùn)練任務(wù)模型(分類,分割等等)

(2)用訓(xùn)好的模型在剩余未標(biāo)注的圖像上以train模式跑多組預(yù)測,記錄對每個樣本的輸出。

(3)計算對每個樣本的熵作為不確定性分?jǐn)?shù)。

(4)從大到小依次選擇下一組數(shù)據(jù)標(biāo)注好后加入訓(xùn)練集,更新訓(xùn)練模型(在上一代模型上fine-tuning),直到滿足停止條件。

考慮到深度學(xué)習(xí)中,不能每次選一個數(shù)據(jù)樣本就重新訓(xùn)練一次模型,而是以批數(shù)據(jù)的形式進行訓(xùn)練,BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning(論文 2019年)中,把原來的一個樣本變成了一批樣本。

3.2基于最近鄰和支持向量的分類器的方法

基于不確定性的主動學(xué)習(xí)方法依賴模型預(yù)測的分類概率來確定模型對該樣本的不確定性,但這個概率并不可靠,因為使用softmax分類器的神經(jīng)網(wǎng)絡(luò)并不能識別分布外樣本,且很容易對OOD樣本做出過度自信的預(yù)測。

OOD(Out of Distribution(OOD) detection指的是模型能夠檢測出 OOD 樣本,而 OOD 樣本是相對于 In Distribution(ID) 樣本來說的。傳統(tǒng)的機器學(xué)習(xí)方法通常的假設(shè)是模型訓(xùn)練和測試的數(shù)據(jù)是獨立同分布的(IID, Independent Identical Distribution),這里訓(xùn)練和測試的數(shù)據(jù)都可以說是 In Distribution(ID) 。在實際應(yīng)用當(dāng)中,模型部署上線后得到的數(shù)據(jù)往往不能被完全控制的,也就是說模型接收的數(shù)據(jù)有可能是 OOD樣本,也可以叫異常樣本(outlier, abnormal)。

基于深度模型的Out of Distribution(OOD)檢測相關(guān)方法介紹

在主動學(xué)習(xí)中,初始階段使用非常少的標(biāo)注樣本訓(xùn)練模型,意味著大量的未標(biāo)注樣本可能都是OOD樣本,若模型過早的給這部分樣本一個過度自信的預(yù)測概率,就可能使我們錯失一些有價值的OOD樣本。如圖所示,初始訓(xùn)練階段,模型缺乏虛線框以外的區(qū)域的訓(xùn)練數(shù)據(jù),但softmax分類器仍然會對這些區(qū)域給出很自信的預(yù)測,導(dǎo)致選擇新的待標(biāo)注樣本時,圖中的q點會被忽略,而若q點正好不是class B,則會影響主動學(xué)習(xí)的性能。

3.2.1 NNClassifier

針對這個問題NNclassifier中設(shè)計了一個基于最近鄰和支持向量的分類器來取代softmax, 使模型能對遠(yuǎn)離已有訓(xùn)練數(shù)據(jù)的區(qū)域產(chǎn)生較高的不確定性。

具體而言,每類訓(xùn)練學(xué)習(xí)N個支持向量,基于樣本特征與各類的支持向量之間的距離,就可以定義分類概率為與這N個支持向量的核函數(shù)的最大距離:

$pc\left(fx\right)=\max n \delta\left(-d\left(fx, m_{c, n}\right)\right)$

定義了新的可以意識到OOD樣本的分類器之后,作者給出了對應(yīng)的主動學(xué)習(xí)策略:

Rejection confidence,用于度量遠(yuǎn)離所有支持向量的樣本,如圖(b)所示; confusion confidence,用于度量遠(yuǎn)離支持向量以及同時靠近多個不同類支持向量的樣本,如圖?所示。

$\begin{aligned} &M{\text {rejection }}(x)=\sumc\left(1-pc\left(fx\right)\right) \ &M{\text {confusion }}(x)=\sumc\left(1+pc\left(fx\right)-\max c pc\left(f_x\right)\right) \end{aligned}$

3.2.2 RBF network + Gradient Penalty

Amersfoort用RBF神經(jīng)網(wǎng)絡(luò)來促使網(wǎng)絡(luò)具有良好的OOD樣本不確定性,同時給出了基于梯度范數(shù)的雙邊正則來削弱特征崩潰(feature collapse)的問題。與NNClassifier相同,本文的作者也定義了一個與各類特征距離的函數(shù)K來幫助檢測OOD樣本,損失函數(shù)同樣定義成逐類的二值交叉熵。不同于NNClassifier的是,這里的距離是每個樣本與該類樣本的指數(shù)滑動平均得到的。 $Kc\left(f\theta(x), ec\right)=\exp \left(-\left|Wc f\theta(x)-ec\right|_2^2 /\left(2 n \sigma^2\right)\right)$

另一個不同點在于本文加入了一個雙邊梯度正則項。 $\max \left(0,\left|\operatorname{grad}z \sumc K{\mathrm{c}}\right|F^2-1\right)$

這個正則項的作用有兩個,一個是保證平滑性,也就是相似的輸入有相似的輸出,這個是由max()中的梯度部分保證的,而梯度-1則起到避免特征崩潰的作用,也就是相比單純的使用特征范數(shù)正則,-1能夠避免模型將很多不同的輸入映射到完全相同的特征,也就是feature collapse。

3.3基于特征空間覆蓋的方法

接下來主要介紹基于特征空間覆蓋的主動學(xué)習(xí)代表性工作:coreset。coreset的主要貢獻(xiàn):給出了基于特征空間覆蓋的主動學(xué)習(xí)算法的近似損失上界;證明了新添加的樣本在能夠縮小標(biāo)注樣本對剩余樣本的覆蓋半徑時,才能提高近似效果。

coreset認(rèn)為主動學(xué)習(xí)目標(biāo)就是縮小核心集誤差,即主動學(xué)習(xí)選出的樣本損失與全體樣本損失之間的差別。

我們在主動學(xué)習(xí)挑選新樣本時,并不知道樣本的標(biāo)簽,也就沒法直接求核心集損失。作者把核心集損失的上界轉(zhuǎn)換做剩余訓(xùn)練樣本與挑選出的標(biāo)注樣本間的最大距離。因此,主動學(xué)習(xí)問題等價于選擇添加一組標(biāo)注樣本,使得其他樣本對標(biāo)注樣本集的最大距離$\delta_s$ 最小,也就是k-center集覆蓋問題。如圖所示,藍(lán)色為挑選出的標(biāo)注樣本,紅色為其他樣本。

3.4 基于對抗學(xué)習(xí)的方法

3.4.1VAAL

Variational Adversarial Active Learning(地址 2019年)描述了一種基于池的半監(jiān)督主動學(xué)習(xí)算法,它以對抗的方式(關(guān)于對抗學(xué)習(xí)的詳細(xì)介紹參見這里)隱式地學(xué)習(xí)了這種采樣機制。與傳統(tǒng)的主動學(xué)習(xí)算法不同,VAAL與任務(wù)無關(guān),也就是說,它不依賴于試圖獲取標(biāo)注數(shù)據(jù)的任務(wù)的性能。VAAL使用變分自編碼器(VAE)和訓(xùn)練好的對抗網(wǎng)絡(luò)來學(xué)習(xí)潛在空間,以區(qū)分未標(biāo)注和標(biāo)注的數(shù)據(jù)。

核心思想 本文的出發(fā)點可以理解如下:之前很多方法的uncertainty都是基于模型的,也就是說需要有個分割/分類等模型計算預(yù)測結(jié)果,然后從結(jié)果的好壞去分析相應(yīng)的被預(yù)測樣本的價值。而本文的uncertainty是基于數(shù)據(jù)本身的,也就是說并非基于預(yù)測結(jié)果本身去分析,而是直接基于樣本自身的特征去處理。

核心思想:利用VAE對已標(biāo)注的數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)進行編碼。因此,對于一個未標(biāo)注的數(shù)據(jù),如果其編碼向量與潛在空間中向量的差異足夠大,那么我們就認(rèn)為該樣本是有價值的。

而對于樣本的選擇,是通過一個對抗網(wǎng)絡(luò)來實現(xiàn)的,該對抗網(wǎng)絡(luò)被用來區(qū)分一個樣本是已標(biāo)注還是未標(biāo)注。因此上文的VAE還有一個額外的任務(wù),即他的編碼要讓判別器難以區(qū)分已經(jīng)標(biāo)注還是沒有標(biāo)注。

網(wǎng)絡(luò)結(jié)構(gòu) VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進行的:VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測,所有的數(shù)據(jù)點都來自已標(biāo)注池;對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下:

VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進行的:VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測,所有的數(shù)據(jù)點都來自已標(biāo)注池;對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下:

主動學(xué)習(xí)策略

  1. 一開始隨機選擇10%的圖像開始訓(xùn)練,此時記訓(xùn)練的網(wǎng)絡(luò)為版本1。對于版本1,訓(xùn)練會迭代max_iterations次,與一般網(wǎng)絡(luò)訓(xùn)練過程的差別在于每個iteration除了訓(xùn)練"任務(wù)模型"外,還得去訓(xùn)練VAE與判別器。而當(dāng)?shù)Y(jié)束后,訓(xùn)練得到的"任務(wù)模型"其實與直接隨機抽取10%的圖像訓(xùn)練沒有區(qū)別,因為VAE與判別器只對下一個網(wǎng)絡(luò)版本有貢獻(xiàn)。

  2. 利用VAE與判別器內(nèi)包含的經(jīng)驗,一次性抽取5%的新數(shù)據(jù)加入訓(xùn)練集,此時開始訓(xùn)練網(wǎng)絡(luò)版本2。而這里特別關(guān)鍵的一點是,版本2仍然是從預(yù)訓(xùn)練VGG開始從頭訓(xùn)練的(而非在版本1的基礎(chǔ)上繼續(xù)finetune)。至此一直迭代到選取50%的數(shù)據(jù)結(jié)束。

模型特點 本文的強化學(xué)習(xí)有點"離線"的味道,即最后選取出的50%數(shù)據(jù)可以很輕松的遷移至其他模型中,選擇的過程只依賴VAE與判別器,而與具體的任務(wù)無關(guān)。

此外該模型訓(xùn)練十分耗時——從10%逐步提升5%至50%,相當(dāng)于順序訓(xùn)練了9個相同的模型,再考慮訓(xùn)練VAE與判別器的耗時,訓(xùn)練該主動學(xué)習(xí)框架的所需時間可能高達(dá)原有基礎(chǔ)網(wǎng)絡(luò)的10倍。

3.4.2SRAAL

SRAAL(論文 https://openaccess.thecvf.com/contentCVPR2020/html/ZhangState-RelabelingAdversarialActiveLearningCVPR2020_paper.html)是VAAL的一個改進版。在VAAL中,判別器的訓(xùn)練的時候只有兩種狀態(tài),標(biāo)注/未標(biāo)注。SRAAL的作者認(rèn)為這樣忽略了一些信息,有時候任務(wù)模型已經(jīng)能很確信的對某個未標(biāo)注樣本做預(yù)測了,就應(yīng)該降低選擇這個樣本的優(yōu)先級。

為了實現(xiàn)這個思路,作者給出了一個任務(wù)模型預(yù)測不確定度的計算函數(shù),用這個函數(shù)的輸出結(jié)果作為生成對抗網(wǎng)絡(luò)的判別器訓(xùn)練過程中,無標(biāo)注樣本的標(biāo)簽,而不用簡單的個一個二值變量。

3.4.3ARAL

VAAL有效的一個關(guān)鍵的因素實際上是同時利用標(biāo)注/無標(biāo)注的樣本共同訓(xùn)練產(chǎn)生特征映射,而不像之前基于特征的coreset等主動學(xué)習(xí)方法,僅用標(biāo)注數(shù)據(jù)訓(xùn)練產(chǎn)生特征。

ARAL(https://arxiv.org/abs/1912.09720 2019.11)更進一步,也用這些個無標(biāo)注樣本來訓(xùn)練任務(wù)模型(如分類器)本身,整體仍然是在VAAL基礎(chǔ)上做的,只是增加了cgan的判別器來實現(xiàn)半監(jiān)督訓(xùn)練任務(wù)模型。整體來說,基于池的主動學(xué)習(xí)用標(biāo)注樣本來訓(xùn)練任務(wù)模型,合成的主動學(xué)習(xí)標(biāo)注合成的樣本來訓(xùn)練任務(wù)模型。

相比之下,VAAL用標(biāo)注數(shù)據(jù)訓(xùn)練任務(wù)模型,用所有數(shù)據(jù)來訓(xùn)練產(chǎn)生特征;ARAL用所有的訓(xùn)練數(shù)據(jù),合成數(shù)據(jù)來訓(xùn)練任務(wù)模型、產(chǎn)生特征映射。相當(dāng)于使用了半監(jiān)督的學(xué)習(xí)方法,與和之前純基于監(jiān)督訓(xùn)練的主動學(xué)習(xí)方法比較自然有所提升。

4.融合不確定性和多樣性的學(xué)習(xí)方法☆

之前介紹了基于不確定性的方法,以及基于多樣性的方法。接下來我們來看看融合兩者的方法。就動機而言,如果只用不確定性標(biāo)準(zhǔn)來選樣本,在批量選擇的場景中,很容易出現(xiàn)選到冗余樣本的問題。而在深度學(xué)習(xí)中,由于訓(xùn)練開銷的緣故,通常都采用批主動學(xué)習(xí),所以為了提高主動學(xué)習(xí)的效率,就得考慮批量選擇高不確定性樣本時的多樣性問題。而從多樣性樣本選擇方法的角度來說,單純的特征空間覆蓋算法不能區(qū)分模型是否已經(jīng)能很好預(yù)測某部分樣本,會限制這類方法所能達(dá)到的上限。

融合不確定性和多樣性的思路主要有三種:

  1. 完全延續(xù)信息論的分析思路,也就是batchBALD,在批量選擇的過程中不采取每個樣本互信息直接相加,而用求并的方法來避免選到冗余樣本;

  2. 先用不確定性標(biāo)準(zhǔn)選出大于budget size的候選集,再用集覆蓋的思路來選擇特征差異大的樣本;

  3. 是2的擴展,通過在梯度嵌入空間聚類來選樣本,從而避開人工給定候選樣本集大小的問題

4.1信息論思路

第一種從理論上來看很優(yōu)雅,從信息論的角度推出怎么在批量選擇的場景里選到對模型參數(shù)改善最有效的一組樣本。但計算復(fù)雜度很高,可能并不是很實用,該論文中的實驗部分也都是在很小的數(shù)據(jù)集上完成的。

4.2 構(gòu)建候選集+大差異樣本——SA

這類方法實現(xiàn)起來最簡單,非常啟發(fā)式。整個主動學(xué)習(xí)分兩步來做,第一步先用不確定性(熵,BALD等)選超出主動學(xué)習(xí)budget size的候選樣本集,在用多樣性的方法,選擇能最好覆蓋這個候選集的一組樣本。

SA 2017 用Bootstrapping訓(xùn)練若干個模型,用這些模型預(yù)測的variance來表示不確定性,之后再用候選集中樣本特征相似度來選取與已經(jīng)選到的樣本差異最大的樣本,就類似coreset-greedy的做法。

CoreLog 2021 基于Proper Scoring Rules給了表示不確定性的度量,先選出不確定性大的前k%個樣本,再用kmeans聚類來選擇多樣的樣本。

這種結(jié)合的方式?jīng)]毛病,但有個小的問題,很難說清咋確定這個候選集大小,到底多大能算作高不確定性,能丟到候選集里。

4.3 梯度嵌入空間——badge☆

badge:https://arxiv.org/abs/1906.03671 2020 和第二類方法的思路很像,不確定性的用模型參數(shù)就某個樣本的梯度大小來表示,多樣性用kmeans++來保證。但這個方法很巧妙的地方在于,通過把這個問題丟到梯度嵌入空間來做(而不像第二類方法在樣本的特征空間保證多樣性),使樣本的多樣性和不確定性能同時得到保證。

梯度范數(shù)大小表示不確定性很好理解,和之前用熵之類的指標(biāo)來表示不確定性類似,模型預(yù)測的概率小,意味著熵大,也意味著如果把這樣本標(biāo)了,模型要有較大的變化才能擬合好這個樣本,也就是求出來的梯度大。梯度表示多樣性,是這類方法的獨特之處,用梯度向量來聚類,選到的差異大的樣本就變成:讓模型參數(shù)的更新方向不同的樣本,而不是樣本特征本身不同。

在用梯度表示了不確定性和多樣性之后,怎么來選一批既有高不確定性,又不同的樣本呢?badge的做法是Kmeans++聚類,第一個樣本選梯度范數(shù)最大的樣本,之后依據(jù)每個樣本梯度與選到的樣本梯度的差的范數(shù)來采樣新的樣本。這里注意這個差是兩個向量的差,所以自然的避免了重復(fù)的選到梯度方向接近且范數(shù)都比較大的一組樣本。

5. 基于變化最大的方法

這一類方法核心的觀點是,不管不確定性或多樣性,而是希望選出的樣本能使模型產(chǎn)生的變化最大。變化最大可以著眼于loss最大,也可以關(guān)注梯度的情況,比如梯度范數(shù)大小。

learning loss 2019 在任務(wù)模型上加一個小的附屬子網(wǎng)絡(luò)用來學(xué)習(xí)預(yù)測樣本的損失值。訓(xùn)練任務(wù)模型的時候,也同時訓(xùn)練這個預(yù)測損失模塊,之后就用這個模塊來預(yù)測對哪個未標(biāo)注樣本的損失大,就選他。整個算法的流程圖如下

損失預(yù)測模塊的結(jié)構(gòu)和損失計算方法如下:

6.總結(jié)

主動學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項目鏈接fork一下,含實踐程序,因篇幅有限就沒放在本博客中,如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

獲得有用是標(biāo)注數(shù)據(jù)在訓(xùn)練時是非常重要的,但是標(biāo)注數(shù)據(jù)可能很非常的費事費力,并且如果標(biāo)注的質(zhì)量不佳也會對訓(xùn)練產(chǎn)生很大的影響。主動學(xué)習(xí)是解決這個問題的一個方向,并且是一個非常好的方向。



主動學(xué)習(xí)(Active Learning)簡介綜述匯總以及主流技術(shù)方案的評論 (共 條)

分享到微博請遵守國家法律
杂多县| 宁都县| 十堰市| 荔浦县| 旬邑县| 天镇县| 灵山县| 中牟县| 三台县| 衡阳市| 水城县| 马尔康县| 威宁| 竹北市| 扶风县| 清丰县| 原阳县| 肥乡县| 托克托县| 佛山市| 溧水县| 连山| 河池市| 紫阳县| 焦作市| 湾仔区| 乐平市| 牙克石市| 永川市| 凤山市| 颍上县| 合阳县| 山丹县| 峨边| 九台市| 融水| 蒲江县| 双流县| 竹山县| 瑞昌市| 孟州市|