UC Berkeley 馬毅:深度學(xué)習(xí)的第一性原理
【專欄:研究思路】我們認(rèn)為,人工智能進(jìn)入了新的拐點(diǎn)。在一個(gè)后深度學(xué)習(xí)時(shí)代,不同的學(xué)者對未來智能發(fā)展道路的理解逐漸清晰,當(dāng)然也逐漸開始分化,由此導(dǎo)致了開展布局完全不同的研究工作。智源社區(qū)將系統(tǒng)分析全球范圍內(nèi)知名學(xué)者對未來研究布局的「研究思路」,以幫助大家思考人工智能的未來。
作者:周寅張皓
智源導(dǎo)讀:尋找深度學(xué)習(xí)的普適理論一直是學(xué)界關(guān)注的焦點(diǎn)。在深度學(xué)習(xí)的工作中,我們常常使用許多經(jīng)驗(yàn)性的方法,例如選擇不同的非線性層,樣本的歸一化,殘差鏈接,卷積操作等等。這樣的方法為網(wǎng)絡(luò)帶來了優(yōu)秀的效果,經(jīng)驗(yàn)性的理解也為深度學(xué)習(xí)發(fā)展提供了指導(dǎo)。但似乎我們對其理解僅限于此,由于網(wǎng)絡(luò)的黑盒性質(zhì),這些方法究竟從理論上如何工作,為何需要加入網(wǎng)絡(luò),我們似乎難以回答。
近日UC Berkeley的馬毅教授的報(bào)告“Deep Networks from First Principle”提供了一種系統(tǒng)性的理論觀點(diǎn)。
報(bào)告中,馬毅教授闡述了最大編碼率衰減(Maximal Coding Rate Reduction, MCR^2)作為深度模型優(yōu)化的第一性原理的系列工作。此外,馬毅介紹了近期的工作:通過優(yōu)化 MCR^2 目標(biāo),能夠直接構(gòu)造出一種與常用神經(jīng)網(wǎng)絡(luò)架構(gòu)相似的白盒深度模型,其中包括矩陣參數(shù)、非線性層、歸一化與殘差連接,甚至在引入「群不變性」后,可以直接推導(dǎo)出多通道卷積的結(jié)構(gòu)。該網(wǎng)絡(luò)的計(jì)算具有精確直觀的解釋,受到廣泛關(guān)注。
正如費(fèi)曼所說「What I cannot create I do not understand」。該工作表明,為了學(xué)習(xí)到線性劃分的樣本表示,所有這些常用方法都能夠精確推導(dǎo)出來,都是實(shí)現(xiàn)該目標(biāo)所必須的。因此,通過該工作,可以更加直觀細(xì)致地理解神經(jīng)網(wǎng)絡(luò)中的常用方法。
本文整理自該報(bào)告的部分內(nèi)容,原報(bào)告鏈接如下:https://www.youtube.com/watch?v=z2bQXO2mYPo
01、深度學(xué)習(xí)的第一性原理
Learn to Compress, Compress to Learn!——馬毅聚類和分類是兩種主要的目標(biāo),很多任務(wù)都可以歸類為將數(shù)據(jù)劃分成不同的部分。馬毅教授提出,分類和聚類代表的學(xué)習(xí)任務(wù),與數(shù)據(jù)壓縮(Compression)有關(guān),而這樣的任務(wù),通常是在尋找高維目標(biāo)的低秩結(jié)構(gòu),且深度網(wǎng)絡(luò)能夠適應(yīng)于這樣的壓縮場景。

我們引入一個(gè)假設(shè),在數(shù)據(jù)處理中,通常面對的是具有低維結(jié)構(gòu)的高維數(shù)據(jù)。在這樣的情況下,學(xué)習(xí)的目標(biāo)通常會包含三個(gè)基本問題:
Interpolation,我們尋找樣本之間的相似關(guān)系,這體現(xiàn)為聚類或分類任務(wù);
Extrapolation,當(dāng)獲得第一個(gè)階段任務(wù)的信息后,我們就可以對新的樣本進(jìn)行歸類,判斷未知樣本的結(jié)構(gòu)。
Representation,我們能夠了解數(shù)據(jù)的信息,并建模描述它。
深度學(xué)習(xí)則將上述數(shù)據(jù)分析的任務(wù)“塞”進(jìn)黑箱運(yùn)算中。例如在神經(jīng)網(wǎng)絡(luò)分類任務(wù)中,我們將輸入與輸出的標(biāo)簽相互對應(yīng),然而足夠大的深度網(wǎng)絡(luò)能夠擬合任何給定標(biāo)簽。
盡管在實(shí)踐中取得了很好的效果,但是理論上來說,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)并不能保證穩(wěn)定和最優(yōu),且我們無法從中了解到模型究竟學(xué)到了什么。
IB Theory 提供了一種理解方法,但是,從信息視角理解網(wǎng)絡(luò)會碰到一個(gè)問題,即在高維數(shù)據(jù)上,傳統(tǒng)信息論的統(tǒng)計(jì)量是無法定義的,高維數(shù)據(jù)常常是退化分布的,無法完成有效測量。
02、通過壓縮來聚類和分類
傳統(tǒng)聚類方法通常采用最大化相似度的方法進(jìn)行,而應(yīng)用在高維退化分布的數(shù)據(jù)上時(shí),相似度難以定義。因此,我們從更基礎(chǔ)的問題出發(fā),為什么需要聚類劃分?jǐn)?shù)據(jù)?

從壓縮角度,我們可以看出,能夠劃分的數(shù)據(jù)具有更小的空間,通過劃分能夠獲得對數(shù)據(jù)更有效的表示。如果能找到編碼長度的有效度量,就可以設(shè)計(jì)相應(yīng)的優(yōu)化目標(biāo)。
熵是度量編碼長度的工具,但在高維數(shù)據(jù)上,熵的測量非常困難,馬毅教授采用率失真理論來度量這樣的表示,提出了編碼長度函數(shù)(Coding Length Function):

有上圖的度量后,我們就能描述聚類或劃分的現(xiàn)象,即劃分前的數(shù)據(jù)所須的編碼長度,大于劃分后的編碼長度。這樣的劃分不需要標(biāo)簽,而是可以通過一些貪心算法,比較不同劃分之間的編碼長度,獲得使劃分后編碼長度最小的劃分。結(jié)果展現(xiàn)了這樣的方法有非常好的聚類效果,能夠找到全局最優(yōu)的劃分,并對離群點(diǎn)非常魯棒。
同樣的方法可以應(yīng)用于分類任務(wù),通過比較將新數(shù)據(jù)劃分到不同類別增加的編碼長度,選取使編碼長度增加最少的類別,作為該樣本最合適的分類,這種方法依舊來源于最小劃分后編碼長度的理論。這種方法可以理解為,將新樣本劃分到合適的類別分類后,所帶來的存儲開銷應(yīng)當(dāng)最少,通過正確分類,可以得到最優(yōu)的表示效率。結(jié)果顯示,比較傳統(tǒng)方法,MICL能夠找到更加緊的邊界,并且與分類不同的是,其決策邊界更接近于數(shù)據(jù)本身的結(jié)構(gòu)特征。

03、通過最大編碼率降低來表示
在完成了 Interpolation(聚類)與 Extrapolation(分類)后,從壓縮的視角,還能夠?qū)崿F(xiàn)對數(shù)據(jù)的表示。當(dāng)數(shù)據(jù)符合某種低秩結(jié)構(gòu)時(shí),優(yōu)秀的表達(dá)的目標(biāo)可以被理解為,最大限度地學(xué)習(xí)到該結(jié)構(gòu)特征,即,在讓同一結(jié)構(gòu)樣本靠近的同時(shí),使樣本表達(dá)能力最大;同時(shí),將不同結(jié)構(gòu)數(shù)據(jù)間的差異盡可能清晰地體現(xiàn)出來。
具體來說,有三條原則:
1. 壓縮同類別數(shù)據(jù);
2. 區(qū)分不同類別數(shù)據(jù);
3. 每類數(shù)據(jù)能夠表達(dá)的范圍盡可能大。
上文中的Coding Length Function同樣為最優(yōu)表達(dá)提供了度量。當(dāng)樣本表達(dá)最優(yōu)時(shí),其表達(dá)所占的空間能夠最大化,即整體的樣本集擁有最大的編碼長度。而對于混合類別的數(shù)據(jù),令其劃分后所須的編碼長度最小化,即使其能夠讓屬于不同結(jié)構(gòu)的樣本相互靠近?;谶@樣的目標(biāo),CLF描述了如下的學(xué)習(xí)目標(biāo)。

這被稱為Maximum Coding Rate Reduction ( MCR^2 ),下圖展示了其直觀的解釋:

為了使不同范圍的樣本進(jìn)行比較,針對每個(gè)樣本需要進(jìn)行歸一化操作。這與歸一化的通常理解相符,使模型能夠比較不同范圍的樣本。
04、從優(yōu)化編碼率降低來構(gòu)建深度網(wǎng)絡(luò)
通過對 MCR^2 目標(biāo)進(jìn)行梯度下降優(yōu)化,我們甚至可以利用這一原理構(gòu)造一個(gè)新的深層網(wǎng)絡(luò)ReduNet。下圖展示了詳細(xì)的推導(dǎo)過程。對該目標(biāo)求梯度后,獲得了兩個(gè)操作矩陣E、C,所求梯度就是其分別與樣本乘積的和。
而觀察E、C兩個(gè)操作矩陣,會發(fā)現(xiàn)其與樣本乘積的結(jié)果天然帶有幾何的解釋,即樣本Z對于其余樣本,和各劃分類別樣本的殘差。因此,若需要擴(kuò)展樣本空間的大小,只需加上E與樣本相乘獲得的殘差,若要壓縮各類別子空間的大小,僅需減去與C進(jìn)行相同操作的結(jié)果。

梯度下降過程可以表現(xiàn)為如下結(jié)構(gòu)的網(wǎng)絡(luò),其中,每個(gè)C對應(yīng)一個(gè)劃分的類別,E為求梯度得到的擴(kuò)張操作矩陣,而梯度下降的更新過程體現(xiàn)為原樣本加上得到的梯度,即梯度加上原樣本的殘差I(lǐng):


對比常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以發(fā)現(xiàn)其與ReduNet有許多相似之處,例如殘差鏈接,C的多通道性質(zhì),非線性層等。同時(shí),ReduNet所有參數(shù)均能夠在前向傳播中計(jì)算得到,因此網(wǎng)絡(luò)無需BP優(yōu)化。

05、從平移不變性得到卷積網(wǎng)絡(luò)
通過引入組不變性,將cyclic shift后的樣本視為同一組,每次將一組樣本編碼到不同低秩空間,ReduNet可以實(shí)現(xiàn)識別的平移不變性。
同時(shí),類似卷積的網(wǎng)絡(luò)性質(zhì)也隨之而來。在引入平移不變的任務(wù)要求后,網(wǎng)絡(luò)使用循環(huán)矩陣表示樣本,因而在與E,C矩陣進(jìn)行矩陣乘時(shí),網(wǎng)絡(luò)的操作自然地等價(jià)于循環(huán)卷積。
但考慮不變性時(shí),另一個(gè)問題出現(xiàn)了。當(dāng)存在無數(shù)種shift可能時(shí),若樣本是稠密的,則其可以通過變換生成任意信號,因此,樣本的稀疏性和不變性是不可兼得的,這體現(xiàn)為“不變性”與“稀疏性”的Trade-off。通常深度網(wǎng)絡(luò)可能隱含了樣本的稀疏化過程,而ReduNet則使用了隨機(jī)卷積核提取樣本的稀疏編碼。

可以看到E,C在考慮不變性后,自動(dòng)產(chǎn)生了卷積效果,且求逆計(jì)算使得通道間的操作相互關(guān)聯(lián)。上述計(jì)算還可以通過頻域變換來加速計(jì)算效率。


構(gòu)造的ReduNet也可以通過反向傳播訓(xùn)練,且前向傳播計(jì)算得到的參數(shù),為反向傳播訓(xùn)練提供了非常好的參數(shù)初始化,通過該初始化得到的參數(shù),經(jīng)過BP訓(xùn)練后,結(jié)果比隨機(jī)初始化并BP訓(xùn)練的結(jié)果有顯著提升馬毅教授指出,在構(gòu)造ReduNet的過程中發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)中常用的操作,稀疏編碼,頻域計(jì)算,卷積,歸一化,非線性等等,都是為了實(shí)現(xiàn)優(yōu)化 MCR^2 目標(biāo),學(xué)習(xí)一個(gè)可線性劃分的表示所必須的操作,且可以在構(gòu)造網(wǎng)絡(luò)的過程中推導(dǎo)出來。教授在報(bào)告中引用的費(fèi)曼這句話"What I cannot create I do not understand.",深刻地揭示了該工作的意義。當(dāng)深度網(wǎng)絡(luò)中曾經(jīng)廣泛使用的操作能夠真正被構(gòu)造出來時(shí),我們才真正理解了他們。
06、總 結(jié)
基于“First Principle”的理論,報(bào)告中的工作展現(xiàn)了廣泛的前景。報(bào)告中拓展了許多未來方向,其中包括基礎(chǔ)的關(guān)于壓縮與學(xué)習(xí)關(guān)聯(lián)的理論,關(guān)于 MCR^2 準(zhǔn)則的研究,以及對ReduNet網(wǎng)絡(luò)的進(jìn)一步優(yōu)化工作。

盡管上文中算法有諸多變化,其核心都是基于“壓縮”的概念。聚類,劃分,表征,這些學(xué)習(xí)任務(wù)都可以被表述成壓縮任務(wù)。我們希望學(xué)習(xí)到樣本的知識,是期望能夠更高效地表示樣本,因此我們學(xué)習(xí)類別,提取特征,抽象概念。 MCR^2 原理基于率失真理論,描述了劃分和壓縮的過程,并能夠基于壓縮,完成包括聚類,分類,表示學(xué)習(xí),構(gòu)造網(wǎng)絡(luò)等等任務(wù),體現(xiàn)了作為學(xué)習(xí)的一般原理的泛用性能。
