智源論壇 | 林偉:維數(shù)的災(zāi)難?維數(shù)的祝福!

019 年 5 月 9 日,由北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)主辦的“智源論壇——人工智能的數(shù)理基礎(chǔ)”系列報告第一場開鑼。論壇當日,北京?學研究員林偉分享了其在人工智能數(shù)理基礎(chǔ)領(lǐng)域的研究探索。
查看林偉完整報告視頻請點擊此處《破解機器學習中的維數(shù)災(zāi)難:從可辨識性談起》
青年千人計劃?選者,北京大學研究員,國內(nèi)統(tǒng)計學習領(lǐng)域的?年學術(shù)帶頭?林偉的報告主題為《破解機器學習中的維數(shù)災(zāi)難:從可辨識性談起》,重點分析了高維統(tǒng)計比較關(guān)心的一個核心的問題。近年來,以深度學習為代表的“黑箱”機器學習算法在應(yīng)用中獲得了巨?成功,但缺乏可解釋性和嚴格的理論基礎(chǔ)。?可辨識性和維數(shù)災(zāi)難的概念是從統(tǒng)計學?度理解深度學習與機器學習算法的關(guān)鍵。

所謂維數(shù)災(zāi)難,就是說深度神經(jīng)網(wǎng)絡(luò)可以看成是一類過參數(shù)化的模型,數(shù)據(jù)相對于參數(shù)來說少得多,或者反過來說,參數(shù)相對于數(shù)據(jù)來說多得多。這通常會被認為是一個災(zāi)難,而林偉在報告開篇便站到了另外的一個角度,不談維數(shù)的災(zāi)難,反過來強調(diào)了維數(shù)的“祝?!薄?/p>
而所謂可辨識性,林偉也做出了闡釋:f 是密度函數(shù)、分布函數(shù),如果兩個參數(shù) θ1、θ2 所對應(yīng)的數(shù)據(jù)分布是一樣的,那么能夠推出一定是同一個參數(shù),這就是可辨識性。也就是說從可以觀測到的數(shù)據(jù),能夠辨識出參數(shù)應(yīng)該是哪一個,或者可以說它的逆否命題也是對的,如果兩個參數(shù)值不一樣,那么它所導致的可觀測數(shù)據(jù)的分布也不可能一樣。

這很關(guān)鍵,如果不具有可辨識性,就沒辦法確定真實參數(shù)是什么,因為有兩個不同的參數(shù)導致同樣的分布。這種情況下,若是用一個算法去優(yōu)化找這個參數(shù),有時候可能跑到 θ1,有時候比較接近 θ2,就會非常不穩(wěn)定,所以不可辨識模型也就面臨著諸多缺點:
解釋性差:如果你不確定 θ1、θ2 到底哪一個是對的,自然無法解釋 θ1 是什么意思;
預(yù)測(泛化)能力不穩(wěn)定:正確性難以保證;
理論保證難:如果沒有可辨識性,就根本不知道目標在哪兒,沒有努力的方向,也不知道要保證什么。
這里的困難在于,如果一個模型是過參數(shù)化的,一般就不具有 identifiability。因為當參數(shù)個數(shù)遠大于樣本量時,最多進行到二層就無以為繼了,因為沒辦法解,這個方程組有無窮多個解,特別是這個模型非常復(fù)雜,像 Deep Learning 這種有非常多的隱含層的時候,就更不知道中間的這些參數(shù)到底是不是唯一確定的了。
為了保證可辨識性,可以采取稀疏和低秩兩種方法,事實上后者也屬于稀疏性。這在高維統(tǒng)計已經(jīng)做得非常成熟了,很多情況下我們提的條件中都隱含了可辨識性。但如果不能滿足精確可辨識,是不是就無計可施了?我們?nèi)タ匆幌挛墨I,因果推斷理論有很多情況實際上是不可辨識的,因為因果推斷實際上極其難,無法給出點估計,但可以定界。因而便引出了近似可辨識性這樣一種新的理論框架。

而可辨識性和維數(shù)災(zāi)難的概念正是從統(tǒng)計學角度理解深度學習與機器學習算法的關(guān)鍵。
關(guān)于主辦方
