深度學(xué)習(xí)發(fā)展史
·???????? 1943年
由神經(jīng)科學(xué)家麥卡洛克(W.S.McCilloch)?和數(shù)學(xué)家皮茲(W.Pitts)在《數(shù)學(xué)生物物理學(xué)公告》上發(fā)表論文《神經(jīng)活動中內(nèi)在思想的邏輯演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity)。建立了神經(jīng)網(wǎng)絡(luò)和數(shù)學(xué)模型,稱為MCP模型。MCP模型按照生物神經(jīng)元的結(jié)構(gòu)和工作原理構(gòu)造出來的一個抽象和簡化了的模型。
MCP當(dāng)時是希望能夠用計算機(jī)來模擬人的神經(jīng)元反應(yīng)的過程,該模型將神經(jīng)元簡化為了三個過程:輸入信號線性加權(quán),求和,非線性激活(閾值法)。

·???????? 1958年
計算機(jī)科學(xué)家羅森布拉特( Rosenblatt)提出了兩層神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò),稱之為“感知器”(Perceptrons)。第一次將MCP用于機(jī)器學(xué)習(xí)(machine learning)分類(classification)?!案兄鳌彼惴ㄋ惴ㄊ褂肕CP模型對輸入的多維數(shù)據(jù)進(jìn)行二分類,且能夠使用梯度下降法從訓(xùn)練樣本中自動學(xué)習(xí)更新權(quán)值。1962年,該方法被證明為能夠收斂,理論與實(shí)踐效果引起第一次神經(jīng)網(wǎng)絡(luò)的浪潮。

·???????? 1969年
1969年,美國數(shù)學(xué)家及人工智能先驅(qū)?Marvin Minsky?在其著作中證明了感知器本質(zhì)上是一種線性模型(linear model),只能處理線性分類問題,就連最簡單的XOR(亦或)問題都無法正確分類。這等于直接宣判了感知器的死刑,神經(jīng)網(wǎng)絡(luò)的研究也陷入了將近20年的停滯。
·???????? 1986年
由神經(jīng)網(wǎng)絡(luò)之父?Geoffrey Hinton?在1986年發(fā)明了適用于多層感知器(Multilayer perceptron, MLP)的BP(Backpropagation)算法,并采用Sigmoid進(jìn)行非線性映射,有效解決了非線性分類和學(xué)習(xí)的問題。該方法引起了神經(jīng)網(wǎng)絡(luò)的第二次熱潮。
注:相當(dāng)于一個由多個全連接層堆積的簡單神經(jīng)網(wǎng)絡(luò)

注:Sigmoid?函數(shù)是一個在生物學(xué)中常見的S型的函數(shù),也稱為S型生長曲線。在信息科學(xué)中,由于其單增以及反函數(shù)單增等性質(zhì),Sigmoid函數(shù)常被用作神經(jīng)網(wǎng)絡(luò)的閾值函數(shù),將變量映射到0,1之間。

·???????? 90年代時期
1991年BP算法被指出存在梯度消失問題,也就是說在誤差梯度后項傳遞的過程中,后層梯度以乘性方式疊加到前層,由于Sigmoid函數(shù)的飽和特性,后層梯度本來就小,誤差梯度傳到前層時,該問題直接阻礙了深度學(xué)習(xí)的進(jìn)一步發(fā)展。
此外90年代中期,支持向量機(jī)算法誕生(SVM算法)等各種淺層機(jī)器學(xué)習(xí)模型被提出,SVM也是一種有監(jiān)督的學(xué)習(xí)模型,應(yīng)用于模式識別,分類以及回歸分析等。支持向量機(jī)以統(tǒng)計學(xué)為基礎(chǔ),和神經(jīng)網(wǎng)絡(luò)有明顯的差異,支持向量機(jī)等算法的提出再次阻礙了深度學(xué)習(xí)的發(fā)展。
注:在已知的機(jī)器學(xué)習(xí)算法中,SVM算法是一個精巧的數(shù)學(xué)模型,可以結(jié)合多種統(tǒng)計方法進(jìn)行優(yōu)化。
·???????? 發(fā)展期 2006年 - 2012年
2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域泰斗、神經(jīng)網(wǎng)絡(luò)之父—— Geoffrey Hinton 和他的學(xué)生 Ruslan Salakhutdinov 在頂尖學(xué)術(shù)刊物《科學(xué)》上發(fā)表了一篇文章,該文章提出了深層網(wǎng)絡(luò)訓(xùn)練中梯度消失問題的解決方案:無監(jiān)督預(yù)訓(xùn)練對權(quán)值進(jìn)行初始化+有監(jiān)督訓(xùn)練微調(diào)。斯坦福大學(xué)、紐約大學(xué)、加拿大蒙特利爾大學(xué)等成為研究深度學(xué)習(xí)的重鎮(zhèn),至此開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。
2011年,ReLU激活函數(shù)被提出,該激活函數(shù)能夠有效的抑制梯度消失問題。2011年以來,微軟首次將DL應(yīng)用在語音識別上,取得了重大突破。微軟研究院和Google的語音識別研究人員先后采用DNN技術(shù)降低語音識別錯誤率20%~30%,是語音識別領(lǐng)域十多年來最大的突破性進(jìn)展。2012年,DNN技術(shù)在圖像識別領(lǐng)域取得驚人的效果,在ImageNet評測上將錯誤率從26%降低到15%。在這一年,DNN還被應(yīng)用于制藥公司的DrugeActivity預(yù)測問題,并獲得世界最好成績。
·???????? 爆發(fā)期 2012 - 2017
2012年,Hinton課題組為了證明深度學(xué)習(xí)的潛力,首次參加ImageNet圖像識別比賽,其通過構(gòu)建的CNN網(wǎng)絡(luò)AlexNet一舉奪得冠軍,且碾壓第二名(SVM方法)的分類性能。也正是由于該比賽,CNN吸引到了眾多研究者的注意。

AlexNet的創(chuàng)新點(diǎn)在于:
(1)首次采用ReLU激活函數(shù),極大增大收斂速度且從根本上解決了梯度消失問題。
(2)由于ReLU方法可以很好抑制梯度消失問題,AlexNet拋棄了“預(yù)訓(xùn)練+微調(diào)”的方法,完全采用有監(jiān)督訓(xùn)練。也正因?yàn)槿绱耍珼L的主流學(xué)習(xí)方法也因此變?yōu)榱思兇獾挠斜O(jiān)督學(xué)習(xí)。
(3)擴(kuò)展了LeNet5結(jié)構(gòu),添加Dropout層減小過擬合,LRN層增強(qiáng)泛化能力/減小過擬合。
(4)第一次使用GPU加速模型計算。
2015年,Karen Simonyan提出VGG網(wǎng)絡(luò)
2013、2014、2015、2016年,通過ImageNet圖像識別比賽,DL的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練方法,GPU硬件的不斷進(jìn)步,促使其在其他領(lǐng)域也在不斷的征服戰(zhàn)場。
2016年3月,由谷歌(Google)旗下DeepMind公司開發(fā)的AlphaGo(基于深度學(xué)習(xí))與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝;2016年末2017年初,該程序在中國棋類網(wǎng)站上以“大師”(Master)為注冊帳號與中日韓數(shù)十位圍棋高手進(jìn)行快棋對決,連續(xù)60局無一敗績;2017年5月,在中國烏鎮(zhèn)圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰(zhàn),以3比0的總比分獲勝。圍棋界公認(rèn)阿爾法圍棋的棋力已經(jīng)超過人類職業(yè)圍棋頂