機器學(xué)習(xí)的江湖

一切模擬、延申、擴展人的智能的技術(shù)都是人工智能,概念非常寬泛。從這個角度考慮,連計算器都能算是一種人工智能。只不過隨著科技的進步,新技術(shù)的出現(xiàn),勢必會淘汰過去的老技術(shù)。也許100年后,人們對于人臉識別、自動駕駛等技術(shù)也不再感覺新鮮。到時候,你對他們說人臉識別是人工智能,他們也會覺得不可思議。
機器學(xué)習(xí)是一種比較有效的實現(xiàn)人工智能的方式,也是它的核心和重要理論基礎(chǔ)。 如今,機器學(xué)習(xí)的應(yīng)用已滲透進人工智能的各個分支。我們這里并不想給這門學(xué)科進行考古,感興趣的話網(wǎng)上資料很多。只是,以史為鏡,有不一樣的思考和發(fā)現(xiàn),往往能夠引導(dǎo)你學(xué)習(xí)求知的正確方向,這才是本章的目的。
機器學(xué)習(xí)乃至人工智能的起源,是人對自身意識、自我、心靈等哲學(xué)問題的探索,對如何充分利用機器算力,實現(xiàn)對學(xué)習(xí)的模擬、進化,乃至超越的不懈追求。明白了這個基本出發(fā)點,你就懂得:所有算法,無論多么復(fù)雜,其實都是人設(shè)計出來模擬人思維過程的。因此,好的理解方式不是去死記硬背,而是用樸素的語言、大白話的講解盡量搞清楚最初設(shè)計者的基本邏輯和思維原點。這樣才能真正搞透看似復(fù)雜的理論,同時最大程度上減少所需的記憶量。本系列后面的章節(jié)中,你可能會看到很多不同尋常的類比、比喻,既有生活中耳熟能詳?shù)睦?,也有好萊塢大片中的故事情節(jié)。也許乍看起來不那么正經(jīng)和嚴(yán)謹,但是請不要忘了我們的初心:回歸人性的思考,弄清算法的本質(zhì)。
機器學(xué)習(xí)在發(fā)展的過程中,融合了統(tǒng)計學(xué)、神經(jīng)科學(xué)、信息論、控制論、計算復(fù)雜性理論等多學(xué)科知識,是一門典型的交叉學(xué)科。因此,其所謂的難學(xué)難懂,往往是因為自身缺少足夠的知識儲備,外部又缺少有效資源,能夠剝絲抽繭、深入淺出地幫你剖析紛繁復(fù)雜中的聯(lián)系。"凱撒的歸凱撒,上帝的歸上帝"。其實只要能厘清脈絡(luò),明確重點,適當(dāng)?shù)羌皶r地補充一些必要基礎(chǔ)知識,多數(shù)情況下,只要不偷懶,沒啥難學(xué)的,初中生都能學(xué)會。這也是本系列的另一個特點:與常見的機器學(xué)習(xí)書籍不同,我們重構(gòu)了知識的體系架構(gòu),偏重對基本模型算法內(nèi)在聯(lián)系的關(guān)聯(lián)比較和深度挖掘,希望能從不一樣的角度帶給你新的認知。
機器學(xué)習(xí)從上世紀(jì)五十年代到現(xiàn)在七十年的發(fā)展歷史中,一波三折,跌宕起伏。曾經(jīng)大火的算法風(fēng)光不再,一度默默無聞的理論卻聲名鵲起。恰如人生,再厲害不要盲目自大,再卑微也不用看不起自己。時機合適,環(huán)境匹配,無論哪種算法都有它發(fā)揮才能的空間。學(xué)好這門學(xué)科,的確需要緊跟業(yè)界潮流,關(guān)注當(dāng)下最時髦的理論、算法和工具,先用了再說;同時,也最好能系統(tǒng)性地全面了解整個機器學(xué)習(xí)的理論。往往看似不起眼甚至有點兒過時的方法,有時換個馬甲、換種角度、互相嫁接耦合,也能產(chǎn)生出其不意的效果。這也是本系列的第三個特點:橫向比較不同模型的同時,縱向貫通,探討其中的脈絡(luò)和原委,告訴你理論背后的故事,用簡單易上手的實例讓你迅速理解其中的奧秘。學(xué)習(xí)不光是被動地接收,更需要主動地思考。越是前沿,越是未知,越是如此。畢竟算法是死的,情況是活的,具體怎么用要靠人來定。
Part 2 機器學(xué)習(xí)江湖族譜圖
我們就不再費勁兒扒拉詳細地講解機器學(xué)習(xí)前世今生了,一圖解千愁,供大家參考。網(wǎng)上資料很多,各種說法不盡相同。由于門派迥異,分支交叉,通婚很多。想搞個準(zhǔn)確分類,讓大家都信服也不容易。感興趣可以自行翻查考古。這里不做論戰(zhàn),只是換個角度希望能引發(fā)大家一些思考。
? ? ? ?

? ? ? ? ?? ? ? ? ? ? ? ? ? ? ??
機器學(xué)習(xí)的江湖族譜圖如上所示。讓我們架空歷史,用武俠人物打個比喻,幫助理解和記憶。話說上古時期數(shù)學(xué)大陸飄來的三大高手:概率統(tǒng)計、控制論和圖論。他們化身為華山、少林和峨眉三大派的高人張三豐、達摩祖師和郭襄女神,開枝散葉,滌蕩江湖。達摩帳下出了個著名的弟子掃地僧,很早就在那里,但一直不顯山不露水,最近幾年才廣為世人關(guān)注,炙手可熱起來,他的名字就叫——“強化學(xué)習(xí)”。郭女神的峨眉一派盛產(chǎn)女弟子,與武林各門各派無論明面上,還是私下里,都交集不少,故事更多。但論學(xué)習(xí)方面的實戰(zhàn)武功,實話實說乏善可陳,知名弟子不是很多。直到后來出了個周芷若妹妹,方才一鳴驚人,她就是我們的“知識圖譜”了。當(dāng)然,這也是與無忌哥哥發(fā)生聯(lián)系后的事情了。讓我們暫時按下這兩派不表,回頭再敘,本系列機器學(xué)習(xí)主要講的是武當(dāng)正宗的故事。深度學(xué)習(xí)、強化學(xué)習(xí)和知識圖譜這三派在機器學(xué)習(xí)的江湖上又被人稱作“聯(lián)結(jié)主義”、“行為主義”和“符號主義”。
傳說張真人門下弟子眾多,各個武功高強。從最近鄰(KNN)、決策樹、隨機森林、條件隨機場,到Boosting、SVM、隱馬爾科夫模型(HMM)、Bayes方法、神經(jīng)網(wǎng)絡(luò),不一而足,簡直就是武當(dāng)七俠外加徒子徒孫。其中曾經(jīng)看似不起眼的弟子張翠山,自己武功不咋地,但牛逼在生了個超級厲害的兒子,叫張無忌,也就是我們的主角“深度學(xué)習(xí)”了。無忌哥哥天賦異稟,武功高強,幾乎自成一派,榮登明教教主寶座。不過,最重要的是他艷福不淺,深受各路女同學(xué)喜歡。他自從嶄露頭角以來,處處留情,關(guān)系十分錯綜復(fù)雜,簡直是一代海王,不便詳盡敘述。其中知名女士包括但不限于:王府閨秀、機智多謀的大房趙敏,人稱“監(jiān)督學(xué)習(xí)”;生性灑脫、無拘無束的波斯美女,二房小昭,人稱“無監(jiān)督學(xué)習(xí)”;還有其他各類女朋友。一眾子女中,大房膝下最為著名,幾個牛掰的阿哥CNN、RNN、Transformer,還有一個其實應(yīng)該算是無忌哥哥和芷若妹妹的私生女,人稱GNN,過繼到了大房門下。她跟Transformer小哥都是新晉網(wǎng)紅,擅長交際,注意力王者。二房不甘示弱,這幾年也有幾個孩子很出位,比如:自學(xué)冠軍AutoEncoder、喜歡左右手互搏的GAN、擅長思考挖掘特征的表征學(xué)習(xí)(Representation Learning)等等。其他私生子女也各具特色,比如:有注重隱私的“聯(lián)邦學(xué)習(xí)”,擅長跨界的“遷移學(xué)習(xí)”等。
如今的機器學(xué)習(xí)江湖,除人丁興旺的深度學(xué)習(xí)一族外,強化學(xué)習(xí)、知識圖譜,還有七七八八其他不那么知名的小門小派也都沒閑著,對繁衍后代,延續(xù)香火樂此不疲,不斷的產(chǎn)生無數(shù)的算法。大家尤其喜歡跨越種族、忘卻輩分,勇敢地實現(xiàn)你中有我,我中有你。別說,往往這樣下的小崽的確更加聰明、更加漂亮。也許,冥冥之中,這背后都有著進化論的身影。無論人還是算法,都離不開生物的屬性。
Part 2?本系列內(nèi)容說明
不抬杠的話,平日里你聽到的機器學(xué)習(xí),現(xiàn)在幾乎默認都是指深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練啦。為啥這樣呢?存在即合理,學(xué)術(shù)意義上的嚴(yán)格劃分對人民群眾沒啥卵用。神經(jīng)網(wǎng)絡(luò)這支個個都是大明星,光芒過于耀眼,這就好比曾國藩家族中的后代親朋,無不以與其關(guān)聯(lián)為榮一樣。既然大伙兒喜聞樂見,約定俗成也就自有道理。本系列隨大流重點講解深度學(xué)習(xí)下各類模型,但算法和思想并不受限于此,其他機器學(xué)習(xí)內(nèi)容亦通用。不過徹底明白了這部分的話,對大多數(shù)想入門的同學(xué)們來說也就夠了。故此,為行文方便起見,暫且約定,不刻意區(qū)分機器學(xué)習(xí)與深度學(xué)習(xí)學(xué)術(shù)意義上的差別,敬請理解。
概率統(tǒng)計延伸出來的經(jīng)典算法,雖然看似有些過時,不如深度學(xué)習(xí)下的神經(jīng)網(wǎng)絡(luò)實力強大,但其思想還是對理解機器學(xué)習(xí)的本質(zhì)很有幫助的。比如:RNN本質(zhì)上就是一個HMM模型的高維擴展版,GNN與條件隨機場、隨機森林等在某些方面其實也有異曲同工之處,AutoEncoder與SVM的核心都是降維。不僅如此,還有一種趨勢就是新的網(wǎng)絡(luò)越來越多地借鑒老算法的思想,比如Bayes方法 + NN延伸出來的BNN。如果大家對這些內(nèi)容感興趣的話,我們單獨再講。
無監(jiān)督學(xué)習(xí)一支相對較新,內(nèi)容也深一些,建議多看一些論文。如果大伙兒有需要,回頭再找時間安排。強化學(xué)習(xí)打算講講,不過內(nèi)容相對獨立。知識圖譜也比較獨立,視情況再考慮是否單講。