林乾:深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋


當(dāng)前人工智能面臨如下重大的理論挑戰(zhàn):可計算性、可解釋性、泛化性,以及穩(wěn)定性。圍繞這些基礎(chǔ)問題,北京智源人工智能研究院從數(shù)學(xué)、統(tǒng)計和計算的角度,設(shè)立了“人工智能的數(shù)理基礎(chǔ)”重大研究方向,并在該方向首先啟動了三方面研究(可解釋性的新型人工智能模型,新型的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)的基礎(chǔ)理論),以期打破基于計算機(jī)實驗和神經(jīng)科學(xué)的人工智能的慣用建模范式,建立以數(shù)學(xué)與統(tǒng)計理論為第一原理的新一代人工智能方法論。
2019 年 5 月 13 日,“智源論壇(第2期)——人工智能的數(shù)理基礎(chǔ)”系列報告第二場再度如約而至。本次論壇在北京大學(xué)教授、智源研究項?經(jīng)理夏壁燦的主持下正式開始。清華大學(xué)工業(yè)工程系統(tǒng)計學(xué)研究中心助理教授林乾分享了他在人工智能數(shù)理基礎(chǔ)領(lǐng)域的研究探索。清華大學(xué)工業(yè)工程系統(tǒng)計學(xué)研究中心助理教授林乾的報告主題為《Towards a statistical understanding of deep network》,其在分享過程中表示,希望能夠通過高維充分性降維理論和方法,得到深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋。
林乾在報告開篇再次強(qiáng)調(diào)了數(shù)學(xué)與統(tǒng)計學(xué)的差異,即前者確定性多一些,后者則是對問題思考的本身,哲學(xué)思辨更多。

在統(tǒng)計或計算機(jī)數(shù)據(jù)科學(xué)中,大家最關(guān)注的一類問題是回歸和分類:我們觀察的數(shù)據(jù)通常都是一些協(xié)變量,同時對一些響應(yīng)變量感興趣,通常情況下我我們會對這些數(shù)據(jù)進(jìn)行建模,建模時一般認(rèn)為這些數(shù)據(jù)間有關(guān)系,然后用協(xié)變量對響應(yīng)變量做解釋。

第一個,也是大家司空見慣的就是有一個線性回歸,就認(rèn)為 Y 是線性依賴于我們的響應(yīng)變量,統(tǒng)計中很多時候沒辦法做到確定性,對于沒觀察到的/不知道的,通常會作為一個噪音引入。這就可能涉及到很多問題,比如觀察到的 X 太少,導(dǎo)致噪音特別大等。從線性模型提出,到現(xiàn)在至少半個世紀(jì)過去了,高維數(shù)據(jù)的分析已經(jīng)研究得很透徹,這個模型有一個很明顯的缺陷,就是此時的 Y 線性依賴于 X,如果 Y 是零一變量,就肯定沒法用線性模型。
這時就會轉(zhuǎn)向 Logistic regression,考慮 Y=1 給定 X 的概率密度的比值。從這兩個模型來看,我們的假設(shè)都是說,如果給定 X 指向一個方向的投影,試圖用這個投影去解釋 Y。
這種情況下如果更進(jìn)一步來看單指標(biāo)模型,Y 可以非參依賴于這個投影,F(xiàn) 是一個不知道的函數(shù),此時可以用非參的方法或是其他方法,就相當(dāng)于增加一種建模方法。但和前面一樣,你假定 X 給定一個方向去解釋 Y,這一點我們即使在做 PCA 的時候,都知道一個 Principal Component 可能不能解釋大部分方差,所以我們可以把這個模型變得更加廣泛一點,變成多指標(biāo)模型,我可以考慮 X 向若干個方向的投影,投影下來之后,我再用這些東西來解釋 Y,所以這里實際上是兩步過程,先做一個降維(Dimension Reduction),再做一個非參數(shù)回歸,或者用其他辦法。

這里假定 X 是不知道的,當(dāng)然這個模型很寬泛,我們能想到的所有模型都可以由它來逼近。但這里的問題是,這個時候 β1、βd 沒辦法單獨估計,丟失了可識別性。相對來說它的好處是,這時 β1 到 βd 張成的空間是可以估計的,所以這兩個觀察又使大家在過去二十年提出了一個充分性降維(Sufficient Dimension Reduction,SDR)的統(tǒng)計框架,主要想法就是,如果認(rèn)為數(shù)據(jù)是從這樣一個模型出來的,我們主要的著力點就在于估計由 β1 到 βd 張成的空間,得到這個空間之后再去做非參數(shù)回歸,所以這個想法相對簡單。在過去若干年也產(chǎn)生了很多方法,例如 Sliced inverse regression、Sliced Average Variance Estimation 等很多,過去二十多年基本上都是圍繞這一思路來提出這種算法。
當(dāng)然回過頭來看,大家對線性回歸已經(jīng)研究得很好了,都覺得如果這個模型是線性的,就可以解決所有問題?,F(xiàn)在我們對機(jī)器學(xué)習(xí)的要求是可解釋性和穩(wěn)健性等,但如果我們提的要求線性模型都做不到,也就不應(yīng)該再對一般模型提更多要求。
對于線性模型,如果不做任何假設(shè),樣本量小于維數(shù)時,就無法估計 β。二十世紀(jì)九十年代到二十一世紀(jì)初,有提出可以加 Sparsity Assumption,這一時期的代表作包括 Tibshirani 的 Losso等:

對線性模型而言是如此,那么單指標(biāo)模型是否也同樣存這些問題?
過去 20 年來,以分片逆回歸為代表的充分性降維方法在實際應(yīng)用中取得了很多成功,但是對于高維數(shù)據(jù),這些方法都面臨各種各樣的不足。領(lǐng)域內(nèi)的專家一直希望能夠建立相對豐富的充分性降維方法的高維理論。
林乾過去幾年主要致力于從統(tǒng)計決策理論角度理解充分性降維問題,成功探明了分片逆回歸方法在高維數(shù)據(jù)時所面臨的理論障礙,并通過系列工作建立了從線性回歸到非線性多指標(biāo)模型之間的一座橋梁,從而指出一個潛在可能性:線性回歸的理論方法可以平行移植到單指標(biāo)或者多指標(biāo)模型中去。圍繞這個突破將會產(chǎn)生一系列的衍生問題,從而極大地豐富充分性降維問題的理論與方法。

關(guān)于主辦方

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)是在科技部和北京市委市政府的指導(dǎo)和支持下,由北京市科委和海淀區(qū)政府推動成立,依托北京大學(xué)、清華大學(xué)、中國科學(xué)院、百度、小米、字節(jié)跳動、美團(tuán)點評、曠視科技等北京人工智能領(lǐng)域優(yōu)勢單位共建的新型研究機(jī)構(gòu)。