智源論壇 | 董彬:走出牛頓的蘋果園,從大量數(shù)據(jù)中推出科學(xué)規(guī)律

2019 年 5 月 9 日,由北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)主辦的“智源論壇——人工智能的數(shù)理基礎(chǔ)”系列報(bào)告第一場(chǎng)開鑼。論壇當(dāng)日,北京?學(xué)副教授董彬分享了其在人工智能數(shù)理基礎(chǔ)領(lǐng)域的研究探索。

作為青年千人計(jì)劃?選者、國內(nèi)圖像處理領(lǐng)域?年學(xué)術(shù)帶頭人,北京大學(xué)的董彬副教授還建立了圖像科學(xué)兩大數(shù)學(xué)方法的聯(lián)系,并在數(shù)學(xué)領(lǐng)域頂級(jí)雜志 JAMS 上發(fā)表論文。他此番率先帶來了《Bridging Deep Neural Networks and Differential Equations for Image Analysis and Beyond》主題報(bào)告,探討數(shù)值微分方程啟發(fā)深度學(xué)習(xí)建模,即如何在深度神經(jīng)網(wǎng)絡(luò)和微分方程之間建立聯(lián)系,重點(diǎn)圍繞其團(tuán)隊(duì)近兩年的研究成果展開分享。從應(yīng)用或計(jì)算數(shù)學(xué)的角度來來理解深度學(xué)習(xí),希望架起這個(gè)橋梁之后可以給網(wǎng)絡(luò)構(gòu)架的設(shè)計(jì),以及一些理論相關(guān)的研究提供一些新的指導(dǎo)思想。
觀看董彬完整報(bào)告視頻請(qǐng)點(diǎn)擊此處

據(jù) Google Trends 數(shù)據(jù)顯示,自 2015 年起,深度學(xué)習(xí)的關(guān)鍵詞搜索頻率開始呈快速上升趨勢(shì)。除卻 AlphaGo 等里程碑式的優(yōu)秀成果之外,深度學(xué)習(xí)也不可避免地存在著諸多問題,Ali Rahimi 在2017年的NIPS頒獎(jiǎng)禮上就曾做過一個(gè)報(bào)告,提到“Deep learning is ‘a(chǎn)lchemy’” ,這里的“alchemy”就是所謂的煉金術(shù),很多人都認(rèn)為深度學(xué)習(xí)就像煉丹一樣,把你的 formula 塞進(jìn)去過個(gè)幾個(gè)小時(shí)或者一兩天才能看到結(jié)果,但卻不知道下一步應(yīng)該怎么調(diào),只能通過嘗試。
談及此,董彬還重點(diǎn)介紹了邢波(Eric Xing)針對(duì)這句話提出的一個(gè)觀點(diǎn),即“Being alchemy is certainly not a shame,not wanting to work on advancing to chemistry is a shame! ”——化學(xué)的前身就是煉金術(shù),在沒有系統(tǒng)理論指導(dǎo)的情況下是煉金術(shù)階段,但被賦予系統(tǒng)的理論指導(dǎo)之后就從一個(gè)看似純實(shí)驗(yàn)的學(xué)科變成有一定理論體系的科學(xué),這也是所有想做基礎(chǔ)理論學(xué)者的目標(biāo)——賦予深度學(xué)習(xí)一套科學(xué)理論,做到 Mathematical / Theoretical Deep Learning。
之所以要這么做,是因?yàn)槿缃窨雌饋黹L(zhǎng)勢(shì)甚好的深度學(xué)習(xí)仍然面臨著各種各樣的挑戰(zhàn):
標(biāo)注缺乏(或者說非常高質(zhì)量的標(biāo)注相對(duì)缺乏):即便已被廣泛使用的ImageNet,label 的噪聲也很大。即使標(biāo)注非常豐富的計(jì)算機(jī)視覺領(lǐng)域也會(huì)有碰上各種各樣的問題,更何況是在標(biāo)注難以獲得的生物醫(yī)療領(lǐng)域。
如何在多樣的數(shù)據(jù)上學(xué)習(xí):AI 的應(yīng)用落地需要足夠廣泛的適用場(chǎng)景,因此模型也需要從不同的數(shù)據(jù)類型中學(xué)習(xí),因?yàn)槿祟愖鞒雠袛嗖粌H是看一張圖像,而是結(jié)合諸多信息,通過各種各樣異構(gòu)的數(shù)據(jù)作出決策。怎么樣在多樣的數(shù)據(jù)上學(xué)習(xí),依然是挑戰(zhàn)。
使深度學(xué)習(xí)模型更加透明:深度學(xué)習(xí)的效果時(shí)好時(shí)壞,正誤尤為極端,時(shí)而完美,時(shí)而又錯(cuò)得離譜,其間問題為何?我們希望能夠借助在設(shè)計(jì)時(shí)(設(shè)計(jì)網(wǎng)絡(luò)構(gòu)架/設(shè)計(jì)模型/設(shè)計(jì)優(yōu)化算法)提供理論指導(dǎo),從而使深度學(xué)習(xí)更加透明。而這最后一點(diǎn)挑戰(zhàn)也恰恰是人工智能數(shù)理基礎(chǔ)關(guān)注重點(diǎn)。當(dāng)下的深度神經(jīng)網(wǎng)絡(luò)不透明,調(diào)參數(shù)、訓(xùn)練,再到測(cè)試人人可為,卻無人能解其深意,這正是該項(xiàng)研究要解決的問題。

如何提供指導(dǎo)?許多優(yōu)秀的數(shù)學(xué)家正在通過很嚴(yán)謹(jǐn)?shù)睦碚摲治鋈プC明部分性質(zhì),但董彬團(tuán)隊(duì)走了另外一條路——先探尋深度學(xué)習(xí)訓(xùn)練及網(wǎng)絡(luò)構(gòu)架與數(shù)學(xué)中的哪些概念有關(guān)系,找到這個(gè)關(guān)系后就知道從哪里開始分析。例如可將深層網(wǎng)絡(luò)理解成微分方程,或者將網(wǎng)絡(luò)構(gòu)架理解為微分方程的的一種離散形式,在這種情況下,網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的就是 Optimal Control,包括強(qiáng)化學(xué)習(xí)也可以用連續(xù)控制的觀點(diǎn)來看待。據(jù)可考資料顯示,最早提出這個(gè)觀點(diǎn)的是鄂維南,他在 2017 年的一篇文章里分析了殘差網(wǎng)絡(luò)(Residual Networks, ResNets)和動(dòng)力系統(tǒng)的關(guān)系。
這個(gè)橋梁一旦搭起,基本上就可知道從數(shù)學(xué)中的哪個(gè)領(lǐng)域出發(fā)去理解深度學(xué)習(xí)。鑒于此二者近年來相對(duì)獨(dú)立的發(fā)展態(tài)勢(shì),彼此有很多思考可供借鑒,拓寬思路之余也會(huì)發(fā)現(xiàn)很多有趣的新應(yīng)用。
我們先來看 DNN(深度神經(jīng)網(wǎng)絡(luò),主要是卷積網(wǎng)絡(luò))和數(shù)值 ODE 之間的關(guān)系。以 AlexNet 為例,若要用數(shù)學(xué)形式寫出,可以將其看作一個(gè)動(dòng)力系統(tǒng),但是這樣的動(dòng)力系統(tǒng)很難分析,因?yàn)槿鄙偬厥饨Y(jié)構(gòu),這樣一般形式的動(dòng)力系統(tǒng)不知該如何入手。

相比之下,如果把殘差網(wǎng)絡(luò)的數(shù)學(xué)形式寫出來,就很容易看出它是對(duì)下面這連續(xù)的 ODE 基于時(shí)間做了前向歐拉離散,只不過在網(wǎng)絡(luò)設(shè)計(jì)時(shí)把 Δt 設(shè)成了 1。有些工作已經(jīng)發(fā)現(xiàn),把 Δt 設(shè)得更小,訓(xùn)練反而更加穩(wěn)定。

這是很有意思的觀察,但還要考慮殘差網(wǎng)絡(luò)和動(dòng)力系統(tǒng)的聯(lián)系是否是特例或偶然,還是一般規(guī)律。更重要的是,假如我們建立了 Numerical ODE 和網(wǎng)絡(luò)構(gòu)架這樣的聯(lián)系,那么能否從 Numerical ODE 這一發(fā)展了幾十年的領(lǐng)域中去反推出一些有用的構(gòu)架?而反推出的構(gòu)架很多時(shí)候都是新的構(gòu)架,那這些新的構(gòu)架到底有沒有用?這是董彬想回答的兩個(gè)問題。
除此之外,深度學(xué)習(xí)訓(xùn)練時(shí)還會(huì)遇到各種隨機(jī)擾動(dòng),這可提升訓(xùn)練效果。如果在訓(xùn)練時(shí)加上一些隨機(jī)擾動(dòng),比如隨機(jī)加一些噪聲,那么其對(duì)應(yīng)的動(dòng)力系統(tǒng)是什么,自然而然地會(huì)想到隨機(jī)偏微分方程。到底是不是呢?有兩個(gè)例子,一個(gè)是 shake-shake,一個(gè)是 stochastic depth,都是對(duì)于殘差網(wǎng)絡(luò)設(shè)計(jì)的隨機(jī)擾動(dòng)訓(xùn)練。

總而言之,董彬的目標(biāo)是建立起數(shù)值 ODE 和網(wǎng)絡(luò)構(gòu)架設(shè)計(jì)之間的關(guān)系,并借此從計(jì)算數(shù)學(xué)反推網(wǎng)絡(luò)構(gòu)架。利用數(shù)學(xué)的直觀,設(shè)計(jì)網(wǎng)絡(luò)構(gòu)架時(shí)就知道應(yīng)該對(duì)深度是有壓縮,知道其可能帶來的性能提升,也可以解釋為什么有這樣的提升。
在我們擁有海量數(shù)據(jù)前,提出新的科學(xué)假設(shè)往往基于人類觀察的現(xiàn)象(蘋果墜落之于牛頓),如今,采集數(shù)據(jù)的手段越來越先進(jìn),大量三維甚至四維的數(shù)據(jù)涌入,我們?cè)趺茨軌蛲ㄟ^大量數(shù)據(jù)來提取規(guī)律?
數(shù)據(jù)科學(xué)的終極目標(biāo)就是利用計(jì)算,然后從大量數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律。一方面 PDE 是描述很多動(dòng)態(tài)數(shù)據(jù)非常自然的工具,另一方面深度學(xué)習(xí)又是表達(dá)能力及學(xué)習(xí)能力都非常強(qiáng)的工具,能否將兩者結(jié)合?關(guān)于這一點(diǎn),董彬想要應(yīng)用的主要場(chǎng)景是生物和醫(yī)學(xué)的動(dòng)態(tài)分析,以及如何用深度學(xué)習(xí)結(jié)合 PDE,結(jié)合傳統(tǒng)的建模思想,解決很多歷史遺留問題。一者希望能夠利用深度學(xué)習(xí)的強(qiáng)學(xué)習(xí)和強(qiáng)表達(dá)能力,再者希望借助 PDE 給深度學(xué)習(xí)模型一定的可解釋性。
董彬介紹了他們團(tuán)隊(duì)如何利用深度學(xué)習(xí)端到端的訓(xùn)練思想和深層網(wǎng)絡(luò)強(qiáng)大的表達(dá)能力,結(jié)合數(shù)值PDE方法,提出一個(gè)如何從海量數(shù)據(jù)中學(xué)習(xí)未知PDE模型并同時(shí)能做精確預(yù)測(cè)的算法框架“PDE-Net”。PDE-Net的特點(diǎn)如下:
自然地將先驗(yàn)信息與網(wǎng)絡(luò)構(gòu)架相結(jié)合,即將模型驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合;
在訓(xùn)練PDE-Net時(shí),給其中的卷積核做適當(dāng)?shù)募s束使其能夠逼近各階微分算子,賦予神經(jīng)網(wǎng)絡(luò)一定的透明度(這一靈感來自之前的理論研究)。因此,PDE-Net能夠在保證預(yù)測(cè)能力的同時(shí)也保證模型的可解釋性。

分享最后,董彬?qū)Υ舜蔚膱?bào)告內(nèi)容做了一個(gè)簡(jiǎn)要總結(jié),并對(duì)未來的研究方向做了一個(gè)大體匯報(bào):我們之前的工作實(shí)際上是在 Numerical Differential Equation 和 Deep Nearchitecture 之間搭起一個(gè)橋梁,很多時(shí)候這個(gè)橋梁是經(jīng)驗(yàn)性的,因?yàn)槟壳拔覀冞€缺少理論,只是做了一個(gè)直觀性的觀察。但現(xiàn)在通過觀察提出一些新的網(wǎng)絡(luò)構(gòu)架,實(shí)際效果也不錯(cuò),下一步希望能夠借助智源的支持,做一些理論分析。還有就是通過搭起這個(gè)橋梁,我們是否能夠從數(shù)學(xué)角度出發(fā)設(shè)計(jì)出更加 robust 或者說更加緊致的深層網(wǎng)絡(luò),因?yàn)楝F(xiàn)在的網(wǎng)絡(luò)很容易被攻擊,而且參數(shù)巨多無比,很難在邊緣設(shè)備上實(shí)現(xiàn)。此外,我們希望能夠真正嘗試從真實(shí)的生物學(xué)動(dòng)態(tài)數(shù)據(jù)里面去學(xué)一些 principles。