重構(gòu)廣義應(yīng)用數(shù)學(xué):人工智能,數(shù)學(xué)發(fā)展的重大機(jī)遇
2020 北京智源大會(huì)
本文屬于2020北京智源大會(huì)嘉賓演講的整理報(bào)道系列。北京智源大會(huì)是北京智源人工智能研究院主辦的年度國(guó)際性人工智能高端學(xué)術(shù)交流活動(dòng),以國(guó)際性、權(quán)威性、專(zhuān)業(yè)性和前瞻性的“內(nèi)行AI大會(huì)”為宗旨。2020年6月21日-24日,為期四天的2020北京智源大會(huì)在線上圓滿(mǎn)舉辦。來(lái)自20多個(gè)國(guó)家和地區(qū)的150多位演講嘉賓,和來(lái)自50多個(gè)國(guó)家、超過(guò)50萬(wàn)名國(guó)內(nèi)外專(zhuān)業(yè)觀眾共襄盛會(huì)。
在人工智能發(fā)展的今天,數(shù)學(xué)家被賦予了新的使命。
?
作為自然科學(xué)的基石,在任何一門(mén)科學(xué)發(fā)展成熟的時(shí)候,對(duì)其進(jìn)行抽象、定義以及嚴(yán)格證明,都是數(shù)學(xué)發(fā)揮功力的時(shí)刻。人工智能進(jìn)入以深度學(xué)習(xí)為代表的第三波爆發(fā)期后,迄今為止,大多數(shù)工作都還主要是憑借計(jì)算機(jī)科學(xué)家們的經(jīng)驗(yàn)、靈感,以工程的思維來(lái)推動(dòng)。近幾年來(lái)有不少數(shù)學(xué)家已經(jīng)開(kāi)始認(rèn)識(shí)到,對(duì)人工智能數(shù)理基礎(chǔ)的研究或許將帶來(lái)數(shù)學(xué)的又一春天。傳統(tǒng)的數(shù)學(xué)(特別是統(tǒng)計(jì))主要是從線性模型做起,直接分析優(yōu)化,不用考慮學(xué)習(xí);而深度學(xué)習(xí)在數(shù)學(xué)上本質(zhì)上則是非凸的,學(xué)習(xí)策略影響學(xué)習(xí)結(jié)果。如何刻畫(huà)這種學(xué)習(xí)?如何為以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)技術(shù)建立堅(jiān)實(shí)的數(shù)理基礎(chǔ)?對(duì)深度學(xué)習(xí)的研究,讓原來(lái)局限在一個(gè)小圈子里的數(shù)學(xué)家們也有了很多機(jī)會(huì),與計(jì)算機(jī)學(xué)家、人工智能學(xué)家、物理學(xué)家、腦科學(xué)家、計(jì)算神經(jīng)科學(xué)家等坐在一起,共商人工智能的科學(xué)之本。與人工智能的交叉,將給數(shù)學(xué)界帶來(lái)新的靈感。
?
當(dāng)前,已經(jīng)有不少數(shù)學(xué)家開(kāi)始研究機(jī)器學(xué)習(xí)問(wèn)題,例如 GAN的數(shù)學(xué)描述即優(yōu)化問(wèn)題,雙下降問(wèn)題,極大極小優(yōu)化問(wèn)題,因果推斷等。這些研究已取得或大或小的進(jìn)展,但,正如智源研究院數(shù)理基礎(chǔ)方向首席科學(xué)家、中國(guó)科學(xué)院院士、北京大學(xué)教授張平文所言:“人工智能的數(shù)理基礎(chǔ),還不是一個(gè)成熟的、被明確定義的領(lǐng)域,人工智能數(shù)理基礎(chǔ)研究的領(lǐng)導(dǎo)者還沒(méi)有產(chǎn)生;正是因?yàn)檫@樣,廣大的青年學(xué)者現(xiàn)在還有很大的機(jī)會(huì)?!?/p>
?
正是基于此種考慮,北京智源人工智能研究院在2019年初,首次建立了「人工智能的數(shù)理基礎(chǔ)」這一重大研究方向,將相關(guān)的研究者匯聚在一起,共同推動(dòng)這一領(lǐng)域的發(fā)展。

在 6 月21-24 日舉辦的智源大會(huì)上,由擔(dān)任「智源研究院數(shù)理基礎(chǔ)方向首席科學(xué)家」職位的張平文院士主持召開(kāi)了“人工智能的數(shù)理基礎(chǔ)專(zhuān)題論壇”。在論壇上,首先由 4 位國(guó)內(nèi)外數(shù)理基礎(chǔ)研究學(xué)者分享了他們?cè)贕AN、雙下降、極大極小優(yōu)化、因果推理等方面的研究成果;隨后,8 位數(shù)學(xué)家共同回顧并探討了人工智能基礎(chǔ)理論在近幾年取得的重要進(jìn)展、當(dāng)前最核心的挑戰(zhàn)以及未來(lái)潛在的新思路和方向。
主席:張平文
時(shí)間:2020年6月21日
報(bào)告嘉賓:孫若愚,Johannes Schmidt-Hieber,戴彧虹,林偉
參與討論嘉賓:張平文,張志華,史作強(qiáng),董彬,朱占星,朱宏圖,季春霖,鄧柯
整理:智源社區(qū) 賈偉,范歆琦, 肖輝, 吳繼芳,付建振
審核:戴彧虹,孫若愚, 夏壁燦, 朱占星,史作強(qiáng),張志華,? 張平文,董彬,李鐵軍,林偉
?
一、演講核心要點(diǎn)概述
?
1、兩行代碼,改變 GAN 的全局優(yōu)化
演講嘉賓:孫若愚,University of Illinois Urbana-Champaign?
主題:Towards Better Global Landscape of GAN: How Two Lines of Code Change Makes a Difference

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)自2014年由Ian Goodfellow 等人提出,如今已經(jīng)六年。盡管已經(jīng)得到大量的關(guān)注和應(yīng)用,但很遺憾,人們對(duì)GAN的認(rèn)識(shí)還相當(dāng)有限。其中一個(gè)挑戰(zhàn)是便是:GAN 優(yōu)化是一個(gè)非凸非凹的極小極大問(wèn)題,這使得理論分析非常困難。數(shù)學(xué)優(yōu)化的理論分析一般分為幾個(gè)步驟(如下圖所示):局部最優(yōu)好不好,算法是否收斂到局部最優(yōu),收斂速度多快。他們的目標(biāo)是從最基礎(chǔ)的步驟開(kāi)始分析GAN:是否真的存在壞的局部最優(yōu)?如果存在,能否修改?
?

簡(jiǎn)單來(lái)說(shuō),GAN 是一種生成模型,它能夠根據(jù)已有的數(shù)據(jù)樣本(比如1000張人臉圖片)來(lái)產(chǎn)生新的數(shù)據(jù)(比如全新的人臉圖片)。它由一個(gè)生成器網(wǎng)絡(luò)和一個(gè)判別器網(wǎng)絡(luò)組成。生成器網(wǎng)絡(luò) G 直接生成樣本,其對(duì)手判別器網(wǎng)絡(luò) D 試圖區(qū)分從訓(xùn)練抽取的樣本和從生成器抽取的樣本,最終當(dāng)判別器無(wú)法分辨它們的時(shí)候,便達(dá)到了生成器和判別器的均衡。GAN的模型一般寫(xiě)成一個(gè)最大最小優(yōu)化問(wèn)題,原始的GAN模型叫做JS-GAN:
?

Goodfellow等人的原始文章證明了?是一個(gè)凸函數(shù)。但是這個(gè)證明并沒(méi)有利用GAN的結(jié)構(gòu),因?yàn)槿魏我粋€(gè)概率密度函數(shù)(probabilistic density function)的線性函數(shù)都是凸函數(shù)。

孫若愚和合作者 (Tiantian Fang, Alex Schwing) 考慮了GAN的經(jīng)驗(yàn)損失目標(biāo)函數(shù)(而不是傳統(tǒng)的概率密度的函數(shù)),并證明了JS-GAN 會(huì)存在許多壞的局部嚴(yán)格最優(yōu)點(diǎn) (Sub-Optimal Strict Local-Min),并由此會(huì)導(dǎo)致模式坍塌 (Mode Collapse)。為了幫助讀者直觀的理解這個(gè)結(jié)論,他們考慮了一個(gè)簡(jiǎn)單的兩點(diǎn)分布。如下圖所示,x 是真實(shí)數(shù)據(jù),y 是生成的數(shù)據(jù),紅線表示判別器。剛開(kāi)始,判別器能夠很輕松的分別 x 和 y 。然后,y 會(huì)向右移動(dòng),直到判別器不能夠區(qū)分他們。但是,這種使用了 JS 作為優(yōu)化目標(biāo)的GAN,會(huì)使得生成的點(diǎn)集中在第一個(gè) x 點(diǎn)附近,這就是模式坍塌。
?

為了修補(bǔ)JS-GAN的缺陷,孫若愚和合作者分析了R-GAN(Relativistic GAN),該模型能夠耦合生成樣本和真實(shí)樣本。R-GAN的優(yōu)化模型可以寫(xiě)成:?
其中一個(gè)特例是h為L(zhǎng)ogistic函數(shù),這個(gè)模型叫做RS-GAN (relativistic standard GAN)。他們嚴(yán)格證明了R-GAN的損失函數(shù)滿(mǎn)足全局最小可達(dá)(Global Min Reachable, GMR)的性質(zhì):從任意點(diǎn)到全局最小點(diǎn)存在一條非增的連續(xù)路徑。這個(gè)性質(zhì)說(shuō)明R-GAN不存在壞的局部嚴(yán)格最優(yōu)點(diǎn)。這個(gè)定理只需要對(duì)h有一些簡(jiǎn)單的要求 (最大值是0, 凹函數(shù)), 其中RS-GAN也滿(mǎn)足這個(gè)定理的條件。
他們也將landscape進(jìn)行可視化,來(lái)說(shuō)明RS-GAN的平滑性??梢钥吹絁S-GAN會(huì)有一個(gè)嚴(yán)格局部最優(yōu)點(diǎn)(一個(gè)山谷),這個(gè)點(diǎn)對(duì)應(yīng)于模式坍塌(見(jiàn)最右的圖示例),但RS-GAN沒(méi)有山谷,只有一個(gè)嚴(yán)格局部最優(yōu)點(diǎn)。
?

那么如何實(shí)現(xiàn) RS-GAN 呢?只需要對(duì)原本的JS-GAN做如下兩行的更改即可(PyTorch代碼):
?

之前其他團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果已經(jīng)說(shuō)明了R-GAN的有效性,比如超分辨率的一個(gè)獲獎(jiǎng)模型ESR-GAN就使用了R-GAN; 最近的realnessGAN也用了R-GAN。孫若愚和合作者的實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了RS-GAN在大多數(shù)情況下有著更優(yōu)秀的表現(xiàn),并說(shuō)明了RS-GAN確實(shí)有更好的全局最優(yōu)性質(zhì)。
在不使用Spectral Normalization(SN)的情況下,可以看到RS-GAN比JS-GAN在CIFAR-10數(shù)據(jù)集上的表現(xiàn)要優(yōu)秀,它的FID值只有33.79,而JS-GAN高達(dá)49; 這里FID (Frechet Inception Distance) 是計(jì)算真實(shí)圖像和生成圖像的特征向量之間距離的一種度量,越小越好。在使用了SN之后,JS-GAN和RS-GAN的差距變小了,因?yàn)镾N也起到了提高全局優(yōu)化性質(zhì)的作用。為了說(shuō)明在使用SN的情況下RS-GAN仍然有更好的優(yōu)化性質(zhì),他們預(yù)測(cè)在更窄的網(wǎng)絡(luò)上,RS-GAN和JS-GAN的差距會(huì)變大,并通過(guò)CIFAR10和STL的實(shí)驗(yàn)驗(yàn)證了這個(gè)預(yù)測(cè)(FID差距為2到5個(gè)點(diǎn))。

?
另外一個(gè)預(yù)測(cè)是存在一個(gè)初始點(diǎn),RS-GAN和JS-GAN的差距非常大。在MNIST他們找到了這樣的初始點(diǎn),使得兩者的差距可以達(dá)到30 FID點(diǎn)數(shù)以上,驗(yàn)證了這個(gè)猜測(cè)。這也進(jìn)一步驗(yàn)證了他們的理論: RS-GAN比JS-GAN有著更好的全局優(yōu)化性質(zhì)。
?

2、雙下降:存在一個(gè)普遍的下界,任何算法都不能避免
演講嘉賓:Johannes Schmidt-Hieber
主題:Overparametrization and the Bias-Variance Dilemma

對(duì)于學(xué)習(xí)算法,我們通常會(huì)使用偏差(Bias)和方差(Variance)來(lái)解釋算法的泛化性能。簡(jiǎn)單來(lái)講,偏差度量了算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫(huà)了學(xué)習(xí)算法本身的擬合能力;而方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫(huà)了數(shù)據(jù)擾動(dòng)所造成的影響。在一個(gè)實(shí)際系統(tǒng)中,偏差與方差往往是不能兼得的。模型過(guò)于簡(jiǎn)單時(shí),容易發(fā)生欠擬合(Underfitting),即方差小而偏差太大;模型過(guò)于復(fù)雜時(shí),又容易發(fā)生過(guò)擬合(Overfitting),即偏差小而方差太大。這便是偏差-方差權(quán)衡(Bias-Variance Trade-Off)。如下圖左側(cè)所示:
?

然而,對(duì)于以深度學(xué)習(xí)為代表的一些機(jī)器學(xué)習(xí)方法,卻出現(xiàn)了違背直覺(jué)的現(xiàn)象,隨著參數(shù)的增多,當(dāng)出現(xiàn)過(guò)參數(shù)化的時(shí)候,算法的泛化性能卻開(kāi)始變好(如上圖右側(cè))。
?
Schmidt-Hieber教授在這里考慮的問(wèn)題并不是去解釋為什么會(huì)出現(xiàn)這種現(xiàn)象,而是聚焦于另一個(gè)同樣重要的問(wèn)題:在原來(lái)的偏差-方差困境中,會(huì)存在一個(gè)下界;現(xiàn)在出現(xiàn)了二次下降,在新的區(qū)域(上右圖的new regime)是否存在下界呢?還是說(shuō)深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法可以避開(kāi)這個(gè)困境?
?
他的結(jié)論是:存在一個(gè)普遍的下界,任何算法都不可能避免。他的研究結(jié)果表明,深度學(xué)習(xí)等過(guò)參數(shù)化方法并不能違反基本的統(tǒng)計(jì)學(xué)原理,解釋“雙下降”現(xiàn)象需要從新的思路考慮。
?
3、受限制極大極小優(yōu)化問(wèn)題的最優(yōu)性條件
?
演講嘉賓:戴彧虹
主題:Optimality Conditions for Constrained Minimax Optimization
?

戴彧虹研究員在報(bào)告中,分享了他們近期發(fā)布在arXiv上的一項(xiàng)研究工作《Optimality Conditions for Constrained Minimax Optimization》(arxiv.org/abs/2004.09730v1)。這項(xiàng)工作是基于Michael I. Jordan 等人對(duì)局部 Minimax 優(yōu)化問(wèn)題研究,而做出的進(jìn)一步拓展,即約束條件下 的 Minimax 優(yōu)化問(wèn)題。
?
何為Minimax 優(yōu)化問(wèn)題呢?簡(jiǎn)單來(lái)講,即有兩個(gè)代理(Agent)來(lái)優(yōu)化收益函數(shù) f : X × Y → R,其中一個(gè)代理希望最小化函數(shù),另外一個(gè)希望最大化函數(shù),即?

Minimax 優(yōu)化問(wèn)題不僅在鞍點(diǎn)問(wèn)題、數(shù)值偏微分方程、等式約束優(yōu)化等傳統(tǒng)的數(shù)學(xué)研究中出現(xiàn),近年來(lái)更是因?qū)股删W(wǎng)絡(luò)(GAN)、對(duì)抗學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)等而大熱。
?
在實(shí)踐中,Minimax優(yōu)化通常是采用基于梯度下降/上升的方法來(lái)實(shí)現(xiàn),即在 x 的梯度下降步和y的一些梯度上升步之間交替。但這種方法存在一個(gè)弊端,即不能保證收斂。如下圖所示,
?

解決方法有很多中,基本思路便是加入高階項(xiàng)。戴彧虹教授等人借鑒物理中的向心加速度的概念,提出了同時(shí)向心加速度(Simultaneous Centripetal Acceleration,SCA)方法,以期打破這種非收斂情形。如下圖:

?
另一方面,盡管Minimax 優(yōu)化已經(jīng)研究多年,如何從數(shù)學(xué)角度如何準(zhǔn)確描述Minimax優(yōu)化卻始終沒(méi)有得到解決。
?
傳統(tǒng)上,人們習(xí)慣用納什均衡來(lái)描述,如下述定義

但這種定義存在極大的缺陷:它不能反映Min-Player和Max-Player的交替順序,而在許多機(jī)器學(xué)習(xí)應(yīng)用中,多是一個(gè)Player做出動(dòng)作之后,另一個(gè)才繼續(xù),如此交替執(zhí)行,
和
顯然是不一樣的。
?
Michael I. Jordan 等人在2019年發(fā)表的論文《What is Local Optimality in Nonconvex-Nonconcave Minimax Optimization?》正是對(duì)這一問(wèn)題的正視和解決。基于Stackelberg 均衡,他們提出了一個(gè)局域minimax點(diǎn)的定義:
?

受Jordan等人工作的啟發(fā),戴彧虹等人進(jìn)一步提出了受限條件下的Minimax點(diǎn)定義。
?
受限條件為:
?

受限條件下的局部Minimax點(diǎn)的定義為
?

當(dāng)滿(mǎn)足一定推論時(shí),受限條件下的Minimax問(wèn)題可以在局部簡(jiǎn)化為如下問(wèn)題,
?

通過(guò)低層級(jí)極大優(yōu)化問(wèn)題的雅可比唯一性條件和極大問(wèn)題的強(qiáng)正則性Karush-Kuhn-Tucker conditions (KKT) 條件的分析,戴彧虹研究員等給出了約束Minimax優(yōu)化問(wèn)題局部Minimax點(diǎn)的必要最優(yōu)性條件和充分最優(yōu)性條件。這些條件如下:
?
必要最優(yōu)條件——
?

二階充分最優(yōu)條件:
?

在強(qiáng)正則性下的一階必要最優(yōu)條件:
?

4、舊“工具”換新顏:因果推斷提高算法可解釋性
?
演講嘉賓:林偉
主題:Instrumental Variables for Multiple Causal Inference: Old and New
?

近年來(lái),包括圖靈獎(jiǎng)得主Judea Pearl在內(nèi)的人工智能著名學(xué)者大力提倡因果推斷研究,學(xué)界和業(yè)界普遍認(rèn)識(shí)到因果推斷的重要性。機(jī)器學(xué)習(xí)與因果推斷的結(jié)合能否成為解決當(dāng)前人工智能“黑箱”問(wèn)題、提高模型和算法可解釋性的有力工具?
?
林偉研究員在報(bào)告中介紹了一種古老的因果推斷方法——工具變量,并說(shuō)明了這一經(jīng)典因果推斷方法是如何與現(xiàn)代機(jī)器學(xué)習(xí)方法結(jié)合,從而發(fā)揮出巨大威力的。他首先介紹了因果推斷的基本困難,即存在未觀測(cè)的混雜(Unobserved Confounding),使得因果效應(yīng)的估計(jì)有偏。起源于1920年代計(jì)量經(jīng)濟(jì)學(xué)研究的工具變量(IV)方法可以解決這一問(wèn)題,但經(jīng)典工具變量方法要求三個(gè)有效性假設(shè)嚴(yán)格成立,難以遷移到現(xiàn)代的機(jī)器學(xué)習(xí)場(chǎng)景。
?

他接著指出,這三個(gè)假設(shè)中的兩個(gè),即工具變量與原因變量之間的關(guān)聯(lián)已知,以及工具變量對(duì)結(jié)果變量沒(méi)有直接效應(yīng)的排他性假設(shè),都可以在一定程度上放寬,從而更好地適用于機(jī)器學(xué)習(xí)任務(wù)。這一點(diǎn)在他與合作者關(guān)于工具變量模型識(shí)別性的理論研究中得到了證實(shí)。最后,在擴(kuò)展的工具變量框架基礎(chǔ)上,他詳細(xì)介紹了幾種新的因果推斷方法,來(lái)提高人工智能算法的可解釋性。
二、進(jìn)展 | 挑戰(zhàn) | 展望
?

回顧:人工智能基礎(chǔ)理論研究近年來(lái)取得了哪些重要進(jìn)展?
機(jī)器學(xué)習(xí)視角——
?
朱占星:在基礎(chǔ)理論方面,我覺(jué)得近幾年進(jìn)展比較多的包括以下四個(gè)方面:
?
1. 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)內(nèi)在的工作機(jī)制是什么。近一兩年大家研究比較多的是寬網(wǎng)絡(luò),即網(wǎng)絡(luò)很寬時(shí),神經(jīng)網(wǎng)絡(luò)的行為將是什么。大家發(fā)現(xiàn)這種學(xué)習(xí)很類(lèi)似Kernel Learning。但也有人提出質(zhì)疑,因?yàn)閷捑W(wǎng)絡(luò)有很強(qiáng)的限制,和現(xiàn)在大家普遍用的深度網(wǎng)絡(luò)并不一樣,根據(jù)Kernel做出來(lái)的結(jié)果和我們深度學(xué)習(xí)做出來(lái)的結(jié)果仍然有很大差距。
?
2. 用新的視角來(lái)看神經(jīng)網(wǎng)絡(luò)。有人嘗試?yán)梦锢碇械钠骄鶊?chǎng)理論,把每個(gè)神經(jīng)元視作一個(gè)粒子,根據(jù)中心極限定理,來(lái)分析神經(jīng)網(wǎng)絡(luò)整體的行為。
?
3. Double Descent問(wèn)題。這種現(xiàn)象表明我們對(duì)傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型理解并不夠透徹,例如前面Johannes對(duì)Bias-Variance Trade-Off的新理解。
?
4. 把機(jī)器學(xué)習(xí)看做一個(gè)動(dòng)力系統(tǒng)。例如在訓(xùn)練的時(shí)候,把輸入當(dāng)做初始點(diǎn),輸出當(dāng)做終點(diǎn),訓(xùn)練時(shí)把步長(zhǎng)不斷縮小,這個(gè)過(guò)程可以看做一個(gè)連續(xù)ODE,因此我們可以用已有的數(shù)學(xué)方法來(lái)解決一些問(wèn)題。
?
其他方面進(jìn)展,我覺(jué)得都還并不很順利,例如神經(jīng)網(wǎng)絡(luò)性能與Data之間的關(guān)系如何更好地進(jìn)行數(shù)學(xué)上的刻畫(huà),如何De-Couple訓(xùn)練策略和訓(xùn)練模型之間的關(guān)系等。
??
張志華:我對(duì)這個(gè)問(wèn)題的理解有兩個(gè)方面。
?
首先,機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))現(xiàn)在發(fā)現(xiàn)了很多現(xiàn)象,對(duì)這些現(xiàn)象,數(shù)學(xué)上能夠提供什么樣的刻畫(huà)?這方面確實(shí)發(fā)現(xiàn)了一些現(xiàn)象,例如雙下降等,針對(duì)這些現(xiàn)象確實(shí)已經(jīng)有一些工作,但這些工作都包含了太多的假設(shè),這些假設(shè)與真實(shí)的機(jī)器學(xué)習(xí)過(guò)程有很大的差距。從數(shù)學(xué)上解決比較好的是GAN,原因在于:1)GAN本身數(shù)學(xué)的定義就比較清楚;2)我們對(duì)GAN做分析時(shí),已經(jīng)把“深度”(最難的一塊兒)去掉了。因此對(duì)GAN的分析就比較漂亮。此外便是對(duì)Min-Max的研究,現(xiàn)在也是研究比較清楚的,這里也沒(méi)有考慮“深度”。把“深度”加進(jìn)去的研究,還處于起步階段。
?
其次,人工智能的數(shù)學(xué)基礎(chǔ),并不一定是對(duì)人工智能的數(shù)學(xué)刻畫(huà),也可以是用數(shù)學(xué)的工具提出一些新的方法。例如無(wú)監(jiān)督,如何從數(shù)學(xué)的角度,給我們一些啟示,提出一些新的方法。這方面還是取得了一定的進(jìn)展,包括統(tǒng)計(jì)的魯棒性以及林偉講的因果推理。我覺(jué)得這方面的進(jìn)展還是比較清楚明晰的。
?
統(tǒng)計(jì)學(xué)習(xí)視角——
?
季春霖:從統(tǒng)計(jì)的角度,我關(guān)注的有幾個(gè)方面,
?
1. 近似貝葉斯推斷方面。近似貝葉斯推斷最早是為了貝葉斯模型做后驗(yàn)分布計(jì)算,是一種替代蒙特卡洛計(jì)算的手段。最近近似貝葉斯推斷與ML結(jié)合的比較多,也受到了很大的關(guān)注,特別是隨機(jī)變分推斷(Stochastic Variational Inference)能夠處理復(fù)雜的、大規(guī)模的數(shù)據(jù)。其中VE應(yīng)該是近似推斷比較成功的例子。最近的一些突破主要是,近似推斷嘗試打破一些傳統(tǒng)的基于模型假設(shè)的方法,提出了很多Model-Free的設(shè)想,在變分推斷中會(huì)用到Proposal,這是一個(gè)分布,現(xiàn)在人們提出了很多不需要標(biāo)準(zhǔn)模型的Proposal,使得Proposal更加靈活,把原來(lái)用模型來(lái)算的Likelihood和Prior變成用統(tǒng)計(jì)量直接度量,或用GAN直接替代Likelihood和Prior等。
?
2. 另外關(guān)注比較多的是生成模型。其實(shí)GAN網(wǎng)絡(luò)、VE都屬于生成模型,能生成很多復(fù)雜的數(shù)據(jù),這對(duì)傳統(tǒng)的統(tǒng)計(jì)來(lái)說(shuō)是一個(gè)技術(shù)的節(jié)約。VE本身還有一些基于統(tǒng)計(jì)模型的假設(shè),它的重構(gòu)損失等效于一個(gè)Likelihood,這就限制了模型的靈活性。而GAN用統(tǒng)計(jì)量直接生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的距離,比較像統(tǒng)計(jì)學(xué)里的ABC計(jì)算。人們用不同的統(tǒng)計(jì)量去做GAN網(wǎng)絡(luò)中的損失函數(shù),嘗試生成更好的效果。除了這些,還有嘗試改變它的結(jié)構(gòu),引入條件或其他領(lǐng)域的先驗(yàn)知識(shí),從而讓生成模型更加逼真。
?
3. 統(tǒng)計(jì)量除了在GAN中用的比較多之外,它還被用在跨域的度量,例如用在Transfer Learning、特征解糾纏。但統(tǒng)計(jì)量不是On-Line的學(xué)習(xí),因此我們應(yīng)當(dāng)關(guān)注利用On-Line的方法去解這種統(tǒng)計(jì)量,這樣會(huì)更有助于在機(jī)器學(xué)習(xí)里面使用。
?
4. 數(shù)據(jù)生成。我們知道生成模型可以生成很多復(fù)雜數(shù)據(jù),例如GAN,在最初生成圖片等,可以滿(mǎn)足大家的好奇心,但實(shí)際上現(xiàn)在更多的關(guān)注是用生成的數(shù)據(jù)提高監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的性能,包括Few-Shot 或Zero-Shot Learning里面,利用生成數(shù)據(jù)提高監(jiān)督學(xué)習(xí)的性能,都能達(dá)到很好的效果。這里值得關(guān)注的是,如何利用這個(gè)模型對(duì)數(shù)據(jù)里面的先驗(yàn)知識(shí)進(jìn)行提取,并把這些先驗(yàn)知識(shí)轉(zhuǎn)換成數(shù)據(jù)來(lái)喂給監(jiān)督學(xué)習(xí)的模型,這還有很多創(chuàng)新的地方值得關(guān)注。
?
朱宏圖:首先大家從理論上對(duì)Bias-Variance的研究還是不錯(cuò)的,也有很多人試圖從逼近論的角度做深度學(xué)習(xí)的理論,不過(guò)還沒(méi)有看到非常激動(dòng)人心的東西,大家都還在嘗試去做。
?
其次,大家嘗試把統(tǒng)計(jì)模型和深度學(xué)習(xí)融合在一起去解決一些問(wèn)題,因?yàn)楸举|(zhì)上來(lái)說(shuō)統(tǒng)計(jì)模型在解釋性方面比較好。
?
另外,就是在強(qiáng)化學(xué)習(xí)中進(jìn)行因果推斷的研究。最近有越來(lái)越多的 IT公司開(kāi)始做因果推斷。我們最近也有一些研究,結(jié)果已經(jīng)出來(lái)了,效果還不錯(cuò)。
?
應(yīng)用數(shù)學(xué)視角——
?
史作強(qiáng):前面幾位老師已經(jīng)說(shuō)的很全面了,把我想說(shuō)的基本已經(jīng)說(shuō)完了。我再補(bǔ)充一點(diǎn),現(xiàn)在有些研究會(huì)把物理中的一些約束放到RNN 或Reinforcement Learning中,構(gòu)建一些網(wǎng)絡(luò)。例如在RNN中,加入某種能量或其他一些物理量,就可以利用數(shù)學(xué)上的一些理論來(lái)處理,例如常識(shí)的依賴(lài)性等克服梯度消失/爆炸現(xiàn)象。這可能也是現(xiàn)在應(yīng)用那個(gè)數(shù)學(xué)研究的一個(gè)趨勢(shì),即:考慮傳統(tǒng)上的一些物理模型,看是否對(duì)Deep Learning有一些啟發(fā)。
?
董彬:近年來(lái)我們看到的一個(gè)趨勢(shì)是,機(jī)理與數(shù)據(jù)的融合。不管你是Model Driven,還是Data Driven,我們?cè)谧龅木褪前鸦跀?shù)據(jù)和基于我們已知的機(jī)理與知識(shí)進(jìn)行結(jié)合。
?
我們?cè)瓉?lái)做模型一般都是憑經(jīng)驗(yàn)、直覺(jué)或基于非常強(qiáng)的假設(shè)做的設(shè)計(jì),這些模型和算法普適性很好,可以在很大的空間中得到問(wèn)題較好的解,但對(duì)于更具體的任務(wù),特別是我們很多時(shí)候關(guān)心的具體問(wèn)題的解是在一個(gè)較小的空間中的,普世的模型和算法就未必是最優(yōu)的方法,不能充分挖掘這個(gè)小空間的結(jié)構(gòu),而深度學(xué)習(xí)方法卻可以很好的刻畫(huà)這些空間,這也是為什么深度學(xué)習(xí)方法在很多具體問(wèn)題中都比傳統(tǒng)方法要好。但是理論上,我們一直不知道怎么去描述這個(gè)小的空間,也就沒(méi)法很好的解釋為什么深度學(xué)習(xí)有如此好的性能,這也是理論上需要進(jìn)一步探索的方向。在建模方面,我們需要把傳統(tǒng)建模思想和深度學(xué)習(xí)思想融合,其關(guān)鍵是甄別哪些環(huán)節(jié)我們應(yīng)該用傳統(tǒng)的方法,哪些環(huán)節(jié)我們又需要利用機(jī)器學(xué)習(xí)的工具?這個(gè)目前已有很多成功的例子,但是整體規(guī)律和原則并不是很清楚,很多時(shí)候只能是Case by Case,需要有一個(gè)系統(tǒng)的指導(dǎo)。
?
這些年,我認(rèn)為進(jìn)展是大家意識(shí)到了我們需要把機(jī)理和數(shù)據(jù)融合。但我們還不是很清楚,到底是否存在一些系統(tǒng)的指導(dǎo)性原則,來(lái)指導(dǎo)AI更好的解決實(shí)際問(wèn)題。
?
張平文:感謝以上六位專(zhuān)家分別從機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和應(yīng)用數(shù)學(xué)三個(gè)角度來(lái)講述數(shù)理基礎(chǔ)的研究進(jìn)展。
?
但什么是“人工智能的數(shù)理基礎(chǔ)”呢?我覺(jué)得這個(gè)目前我們還說(shuō)不太清楚。首先,它還不是一個(gè)成熟的領(lǐng)域,還不是一個(gè)被明確定義的領(lǐng)域。也正是因?yàn)檫@樣,廣大的青年學(xué)者就有很大的機(jī)會(huì);因?yàn)樵谌蚍秶鷥?nèi)人工智能數(shù)理基礎(chǔ)研究方面的領(lǐng)導(dǎo)者還沒(méi)有產(chǎn)生,所以大家都有機(jī)會(huì)。
?
第一,當(dāng)前人工智能的數(shù)理基礎(chǔ)研究最多的還是深度學(xué)習(xí)的數(shù)學(xué)理論,主要是因?yàn)榈谌喨斯ぶ悄艿睦顺敝饕且驗(yàn)樯疃葘W(xué)習(xí)到了,深度學(xué)習(xí)雖然在一些領(lǐng)域效果很好,但是人們不理解,可解釋性成問(wèn)題,所以這是當(dāng)前最熱的領(lǐng)域,但還有很多其它方面的研究。在我看來(lái),應(yīng)用數(shù)學(xué),特別是計(jì)算,過(guò)去就沒(méi)有可解釋性的問(wèn)題,因?yàn)槲覀兌际菑闹R(shí)開(kāi)始、從機(jī)理開(kāi)始,所以沒(méi)有可解釋性的問(wèn)題。傳統(tǒng)的統(tǒng)計(jì)在我看來(lái)主要是怎么從數(shù)據(jù)到知識(shí),就是用統(tǒng)計(jì)的手段,特別是在社會(huì)科學(xué)領(lǐng)域用得特別多,其實(shí)真正簡(jiǎn)潔與美的知識(shí)(像量子力學(xué)),并不是通過(guò)統(tǒng)計(jì)來(lái)的,主要是靠天才的努力。但是這樣的東西畢竟有限,大量的還是社會(huì)科學(xué)、復(fù)雜科學(xué),這里沒(méi)有那么高的精度,但它也是知識(shí),過(guò)去統(tǒng)計(jì)在里面起著極大的作用。我們來(lái)看機(jī)器學(xué)習(xí)想要干什么?實(shí)際上過(guò)去我們?cè)跀?shù)學(xué)圈子里面,陣地是劃得很清楚的,從數(shù)據(jù)到知識(shí)是統(tǒng)計(jì)人的領(lǐng)域,從知識(shí)到?jīng)Q策或者到預(yù)測(cè)是計(jì)算人的領(lǐng)域。機(jī)器學(xué)習(xí)要一下子從數(shù)據(jù)到?jīng)Q策到預(yù)測(cè),這就是機(jī)器學(xué)習(xí)想要干的,要把兩個(gè)群體干的事情一把手接過(guò)去了,所以出現(xiàn)很多新的問(wèn)題。當(dāng)然這樣挺好,但這些問(wèn)題也不是短時(shí)間能夠解決得了的。也就是說(shuō),可解釋其實(shí)有兩個(gè)層次:一個(gè)層次就是從算法的角度來(lái)說(shuō)怎么可解釋?zhuān)硪粋€(gè)層次就是從模型和知識(shí)的角度來(lái)說(shuō)可解釋。這兩個(gè)還是有區(qū)別。
?
第二,人工智能的數(shù)理基礎(chǔ)真的是給了我們廣義的應(yīng)用數(shù)學(xué),包含做應(yīng)用數(shù)學(xué)、做統(tǒng)計(jì)、做機(jī)器學(xué)習(xí)甚至一些做工程的人,還有做腦科學(xué)、計(jì)算神經(jīng)科學(xué)的人,真的是把我們團(tuán)結(jié)在了一起,否則的話(huà)我就很難有機(jī)會(huì)來(lái)聽(tīng)統(tǒng)計(jì)學(xué)家的報(bào)告,很難有機(jī)會(huì)來(lái)聽(tīng)機(jī)器學(xué)習(xí)專(zhuān)家的報(bào)告,所以我覺(jué)得這是一個(gè)可能重構(gòu)廣義應(yīng)用數(shù)學(xué)的機(jī)會(huì),是一個(gè)非常重要的方向。
?
今天有非常多的年輕人在這里。所以我想強(qiáng)調(diào):這個(gè)領(lǐng)域還不成熟,沒(méi)有領(lǐng)導(dǎo)者,但它確實(shí)具有活力,所以希望大家投身到我們?nèi)斯ぶ悄艿臄?shù)理基礎(chǔ)這樣一個(gè)研究領(lǐng)域,不斷地在大家的努力下讓它變得更加成熟,然后做出一些原創(chuàng)性的成果。你們有很多的機(jī)遇,但挑戰(zhàn)也不小。
?
挑戰(zhàn):人工智能基礎(chǔ)理論研究當(dāng)前最核心的挑戰(zhàn)還有哪些?
?
朱宏圖:統(tǒng)計(jì)學(xué)整個(gè)的理論基礎(chǔ)都是基于線性模型做起來(lái)的,但我們現(xiàn)在想要處理的系統(tǒng)和問(wèn)題太復(fù)雜,舊的一套框架完全不能適應(yīng)這個(gè)發(fā)展,所以這個(gè)理論已經(jīng)不能滿(mǎn)足需求?,F(xiàn)在大家做機(jī)器學(xué)習(xí)的人,一上來(lái)就說(shuō)我有一個(gè)具體的問(wèn)題,然后搜集一組數(shù)據(jù),如果能夠標(biāo)注的話(huà),我就是用這個(gè)標(biāo)注的數(shù)據(jù)去做后面所有模型的開(kāi)發(fā)算法,跳過(guò)整個(gè)理論研究去做。對(duì)于更復(fù)雜的系統(tǒng)我們基本上就開(kāi)始做模擬器,盡量去模擬這個(gè)物理系統(tǒng)里面的粒子之間的交互或者人與人之間的交互,那么從模擬器的角度去做后面所有我認(rèn)為重要的模塊,所以這些東西是現(xiàn)有的數(shù)學(xué)以及所有的理論科學(xué)目前為止不知道怎么去刻畫(huà)這個(gè)系統(tǒng),就會(huì)造成理論和實(shí)踐是有一個(gè)很大的間隙。因?yàn)槟軌蜃C明出來(lái)的都是一些比較簡(jiǎn)單的情形,但我的情形比你的更復(fù)雜,所以基本就搞不定。因此我們面臨的最大的挑戰(zhàn)就是,我們對(duì)我們的目標(biāo)沒(méi)有一個(gè)很深刻的數(shù)學(xué)或其它的理論框架去刻畫(huà),以前那些簡(jiǎn)單的、比較容易處理的數(shù)學(xué)工具還是無(wú)效,所以造成了我們面臨的挑戰(zhàn)非常之大。
?
張志華:現(xiàn)在最大的挑戰(zhàn)肯定還是深度學(xué)習(xí)的挑戰(zhàn)。原來(lái)我們大部分的統(tǒng)計(jì)模型都是基于淺層的,一般都是一個(gè)凸問(wèn)題,我們研究這個(gè)問(wèn)題就相對(duì)比較容易,比如原來(lái)我做計(jì)算數(shù)學(xué),計(jì)算數(shù)學(xué)本身原來(lái)可能就是一個(gè)連續(xù)方程,然后怎樣去解它,這些數(shù)學(xué)的問(wèn)題相對(duì)比較明確。對(duì)于深度學(xué)習(xí)只有兩個(gè)問(wèn)題,第一,數(shù)學(xué)刻畫(huà)不明確,我們用一個(gè)什么樣的數(shù)學(xué)定義去證明什么東西;第二,用什么樣的工具能夠解決這個(gè)問(wèn)題,現(xiàn)在也不是那么清楚。這是我認(rèn)為的核心挑戰(zhàn)。
?
季春霖:我想和大家探討一下網(wǎng)絡(luò)中不確定性的分析?,F(xiàn)在我們?cè)谧鼋?jīng)典的人臉識(shí)別的時(shí)候,都會(huì)把圖像嵌入到空間里面,大家研究的時(shí)候更多關(guān)注的就是嵌入空間怎么設(shè)計(jì)比較合理,怎么度量嵌入比較合理,這樣的話(huà)能夠得到一個(gè)比較好的泛化能力。其實(shí)嵌入空間中是填不滿(mǎn),還有很多空余的區(qū)域。針對(duì)這些空余的區(qū)域,經(jīng)典的統(tǒng)計(jì)方法中,偏離主要關(guān)注區(qū)域的話(huà)概率比較小,它至少有一個(gè)概率的描述,但 深度學(xué)習(xí)卻沒(méi)有專(zhuān)門(mén)描述這些區(qū)域,這里可能和安全性比較高的AI領(lǐng)域有非常大的關(guān)系,描述一些風(fēng)險(xiǎn)事件就需要這種刻畫(huà)?,F(xiàn)在深度學(xué)習(xí)當(dāng)中沒(méi)有這種不確定性的刻畫(huà),或者做的相對(duì)比較少,人們不能像經(jīng)典的貝葉斯模型可以把后驗(yàn)概率全部取樣出來(lái),網(wǎng)絡(luò)這么大也不可能對(duì)參數(shù)所有的樣本取樣?,F(xiàn)在人們?cè)趪L試著去做,但是這方面的工作還是做得不足,沒(méi)有一個(gè)完整的方法去把這個(gè)不確定性和網(wǎng)絡(luò)結(jié)合在一起。
?
朱占星:其實(shí)說(shuō)到機(jī)器學(xué)習(xí),一個(gè)很重要的問(wèn)題就是表示學(xué)習(xí)。從2006年Hinton發(fā)《Science》的時(shí)候就有了,DNN或者受限玻爾茲曼機(jī),能夠?qū)W到一個(gè)好的表示。到現(xiàn)在已經(jīng)有十多年了,但也沒(méi)有搞清楚什么是深度學(xué)習(xí)學(xué)到的表示。這個(gè)難點(diǎn)在于深度學(xué)習(xí)是由很多小的Building Block堆起來(lái)的,每個(gè)block都可能對(duì)想要關(guān)心的表示都有關(guān)系。我們之前考慮的統(tǒng)計(jì)都是從線性模型做起來(lái),這些模型求解起來(lái)比較困難,但根本不用關(guān)心學(xué)習(xí),直接分析最優(yōu)化就完事。但深度學(xué)習(xí)是非凸的,這個(gè)事情就和怎么選數(shù)據(jù)、怎么學(xué)習(xí)有很大的關(guān)系,不同的學(xué)習(xí)策略就會(huì)有不同的結(jié)果。所以現(xiàn)在大家的數(shù)據(jù)復(fù)雜了,模型也是非凸的,學(xué)習(xí)策略也很多樣化,相互之間非常依賴(lài),我們沒(méi)有辦法解耦,拿出一個(gè)單個(gè)的東西去研究,說(shuō)白了就是剛才張老師說(shuō)的,我們沒(méi)有什么好的數(shù)學(xué)刻畫(huà)。我覺(jué)得這是目前最困難的問(wèn)題,現(xiàn)在大家做的很多事情其實(shí)相當(dāng)于把這三者之間做最大化的假設(shè),然后放到已有的數(shù)學(xué)分析的區(qū)域去做,但我們真正關(guān)心的那些問(wèn)題還離得很遠(yuǎn)。
?
展望:人工智能基礎(chǔ)理論研究的下一個(gè)階段有哪些潛在的新思路、新方向?
?
朱宏圖:我一般做什么東西必須要有應(yīng)用場(chǎng)景,這個(gè)東西又要足夠復(fù)雜。
?
首先,我們的衣食住行現(xiàn)在已經(jīng)有了IoT,所有東西都整合在一個(gè)平臺(tái)上面之后,服務(wù)商和用戶(hù)通過(guò)這個(gè)平臺(tái)進(jìn)行交易,我們叫做雙邊市場(chǎng)。雙邊市場(chǎng)某種程度上就是用IT所有的可能性,對(duì)老百姓的衣食住行各個(gè)方面進(jìn)行改善。這里產(chǎn)生的問(wèn)題比現(xiàn)在深度學(xué)習(xí)所做的三個(gè)主要方向(CV、NLP、語(yǔ)音)要更廣。其實(shí)本質(zhì)上來(lái)說(shuō)很簡(jiǎn)單,就是你能不能給用戶(hù)創(chuàng)造價(jià)值。
?
我認(rèn)為最重要的點(diǎn)就是因果推斷。有了一個(gè)Action之后,用戶(hù)的滿(mǎn)意度就提升了,效率就提高了,我要知道這個(gè)抓手是什么;從數(shù)據(jù)的層面,我要知道怎么搜集數(shù)據(jù),找到原因,然后再提高用戶(hù)的滿(mǎn)意度。在這里面,深度學(xué)習(xí)只是一個(gè)工具而已。
?
另外增強(qiáng)學(xué)習(xí)會(huì)變得越來(lái)越重要。因?yàn)楝F(xiàn)在收集數(shù)據(jù)的頻次越來(lái)越頻繁,這些數(shù)據(jù)會(huì)帶來(lái)一個(gè)機(jī)遇,就是我能夠不斷地調(diào)整模型策略,比如慢性病和高血壓,不斷收集數(shù)據(jù),實(shí)時(shí)調(diào)整治療方案。
?
再就是匹配的問(wèn)題,就是針對(duì)用戶(hù)如何做最好的服務(wù)。這個(gè)問(wèn)題很早就有了,但是未來(lái)配準(zhǔn)問(wèn)題會(huì)變成非?;A(chǔ)的數(shù)學(xué)問(wèn)題,相比以前更重要,就是我給用戶(hù)提供什么樣的服務(wù)是最優(yōu)的,或者在什么樣的環(huán)境下是最優(yōu)的。這些問(wèn)題和深度學(xué)習(xí)融合在一起。
?
未來(lái)機(jī)器學(xué)習(xí)人工智能基礎(chǔ)理論當(dāng)中這是需要考慮的幾個(gè)方向。
?
董彬:我們知道 Regularization is the key,但有沒(méi)有一種統(tǒng)一的視角,寫(xiě)出一類(lèi)正則化去做分析?這是我自己比較好奇的一點(diǎn)。
?
史作強(qiáng):剛才幾位老師的總結(jié)當(dāng)中都有提到可解釋性是深度學(xué)習(xí)的一個(gè)非常關(guān)鍵的東西,張老師的總結(jié)我特別認(rèn)同,那個(gè)可解釋性實(shí)際上是分為不同的層次,我們可以考慮模型的可解釋性,也可以考慮結(jié)果的可解釋性,某種意義上這個(gè)結(jié)果的可解釋性是更復(fù)雜的。最傳統(tǒng)的物理模型,流體力學(xué)的方程,我們認(rèn)為那些方程是可解釋的,因?yàn)槲覀兪菑奈锢淼囊?guī)律推出來(lái)的;但由流體的現(xiàn)象,比如湍流,并不太好解釋。因此,我覺(jué)得在未來(lái)可能更應(yīng)該關(guān)注模型的可解釋性;結(jié)果過(guò)于復(fù)雜,依賴(lài)不同的場(chǎng)景、不同的應(yīng)用,可解釋性都是不一樣的。關(guān)于模型的可解釋性,至少我個(gè)人考慮的一件事情,就是模仿物理問(wèn)題當(dāng)中的過(guò)程,我們先建立一些規(guī)律,比如動(dòng)量守恒和能量守恒,利用這些規(guī)律我們把模型推出來(lái)。六七年前我看到過(guò)Stephen 有一些工作,就是從圖像不變性把模型推出來(lái)。我們也可以盡量把模型限制在更小的范圍內(nèi),減少模型中我們需要擬合的參數(shù)數(shù)目,盡量把模型的類(lèi)型定下來(lái),這也是我最近在思考的一些問(wèn)題。
?
三、總結(jié)
?
張平文:首先特別感謝各位嘉賓在人工智能數(shù)理基礎(chǔ)的進(jìn)展、挑戰(zhàn)和展望上發(fā)表自己的看法,大家說(shuō)的都很有深度,對(duì)我們團(tuán)隊(duì)的研究也非常有指導(dǎo)意義,代表我們的團(tuán)隊(duì)感謝大家。
?
同時(shí)特別感謝北京智源人工智能研究院。我們這個(gè)方向還沒(méi)有成型,還沒(méi)有被明確定義,北京智源人工智能研究院就把我們這個(gè)方向作為第一個(gè)重大研究方向成立,其眼光真的是深遠(yuǎn)。這個(gè)平臺(tái)能夠使得我們不同領(lǐng)域的人聚在一起,我們今天有這樣的機(jī)會(huì)非常重要。
?
北京智源人工智能研究院這四天的會(huì)議有很多的報(bào)告其實(shí)跟我們密切相關(guān),特別是后天專(zhuān)門(mén)有一個(gè)機(jī)器學(xué)習(xí)的論壇。機(jī)器學(xué)習(xí)專(zhuān)家們會(huì)有不同的視角,他們的討論跟我們也非常的近,所以我希望大家多去聽(tīng)一聽(tīng)他們的報(bào)告,很多思想性的報(bào)告都會(huì)對(duì)我們有啟發(fā)。
?
我真的是認(rèn)為人工智能數(shù)理基礎(chǔ)這個(gè)方向?qū)?shù)學(xué)的發(fā)展會(huì)非常的重要。當(dāng)年統(tǒng)計(jì)學(xué)的基礎(chǔ)是概率論,現(xiàn)在已經(jīng)成為了數(shù)學(xué)最核心的方向。早幾年我在北大數(shù)院當(dāng)常務(wù)副院長(zhǎng)的時(shí)候有一個(gè)改革,就是要把大學(xué)數(shù)學(xué)最基礎(chǔ)的教育從“三高”(分析、幾何、代數(shù))變成“四高”(加入概率論和隨機(jī)分析)?,F(xiàn)在概率論和隨機(jī)分析已經(jīng)滲透到了數(shù)學(xué)的方方面面,已經(jīng)是最核心的數(shù)學(xué)。相信「學(xué)習(xí)理論」真的有可能在基礎(chǔ)數(shù)學(xué)方面有新的突破,現(xiàn)在有人開(kāi)始研究「離散拓?fù)洹梗附M合論」也煥發(fā)新的青春,能不能產(chǎn)生類(lèi)似概率論這樣新的數(shù)學(xué)是我們期待的。盡管短時(shí)間內(nèi)不太可能產(chǎn)生的,但也還是有這種可能性?,F(xiàn)在我們?nèi)斯ぶ悄芑A(chǔ)更多的是關(guān)注怎么去理解機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))的一些算法,我們也希望有一些新的算法產(chǎn)生;但更高層次的研究是,我們希望人工智能能夠回饋數(shù)學(xué),產(chǎn)生類(lèi)似于概率論和隨機(jī)分析這樣核心的數(shù)學(xué)。這需要一個(gè)過(guò)程,因?yàn)楦怕收撚袔装倌甑臍v史,真正成熟不到一百年,成為數(shù)學(xué)的核心也是最近的一二十年的事情,這是一個(gè)漫長(zhǎng)的過(guò)程。但對(duì)人工智能的數(shù)理基礎(chǔ)這個(gè)方向,我是充滿(mǎn)期待。
?
今天有很多來(lái)聽(tīng)報(bào)告的年輕人,如果是學(xué)數(shù)學(xué)的,不管你是學(xué)基礎(chǔ)數(shù)學(xué)還是學(xué)應(yīng)用數(shù)學(xué)、計(jì)算數(shù)學(xué)、統(tǒng)計(jì)學(xué)、信息科學(xué)或者計(jì)算機(jī)科學(xué),人工智能的數(shù)理基礎(chǔ)是一個(gè)非常有活力、非常有前景的方向,歡迎大家加入。