圖靈獎得主Geoffrey Hinton:我的五十年深度學習生涯與研究心法
2023-07-11 16:08 作者:一起學chatGPT一起學ai | 我要投稿
本文介紹了Hinton非常坦誠地分享了自己的學術生涯,深度學習的未來和研究心得。

他從未正式上過計算機課程,本科在劍橋大學讀的是生理學和物理學,期間曾轉(zhuǎn)向哲學,但最終拿到的卻是心理學方向的學士學位;他曾因為一度厭學去做木匠,但遇挫后還是回到愛丁堡大學,并拿到「冷門專業(yè)」人工智能方向的博士學位;數(shù)學不好讓他在做研究時倍感絕望,當了教授之后,對于不懂的神經(jīng)科學和計算科學知識,他也總要請教自己手下的研究生。
學術道路看似踉踉蹌蹌,但Geoffrey Hinton卻成了笑到最后的那個人,他被譽為「深度學習教父」,并且獲得了計算機領域的最高榮譽「圖靈獎」。
Hinton出身在英國的科學「豪門」,但他一生所經(jīng)歷的學術生涯和坎坷生活豐富而離奇。
他的父親Howard Everest Hinton是英國昆蟲學家,母親Margaret是一名教師,他們都是共產(chǎn)主義者。他的叔叔是著名的經(jīng)濟學家Colin Clark,發(fā)明了「國民生產(chǎn)總值」這個經(jīng)濟術語,他的高祖父是著名的邏輯學家George Boole,他發(fā)明的布爾代數(shù)奠定了現(xiàn)代計算機科學的基礎。
在厚重的科學家家族底蘊熏陶下,Hinton從小擁有獨立思考能力以及堅韌品質(zhì),并且肩負著繼承家族榮譽的擔子。母親給了他兩種選擇,「要么成為一名學者,要么做個失敗者?!顾麤]有理由選擇躺平,即便讀大學時幾經(jīng)折騰,但他還是完成了學業(yè)。
1973年,在英國愛丁堡大學,他師從Langer Higgins攻讀人工智能博士學位,但那時幾乎沒人相信神經(jīng)網(wǎng)絡,導師也勸他放棄研究這項技術。周遭的質(zhì)疑并不足以動搖他對神經(jīng)網(wǎng)絡的堅定信念,在隨后的十年,他接連提出了反向傳播算法、玻爾茲曼機,不過他還要再等數(shù)十年才會等到深度學習迎來大爆發(fā),到時他的這些研究將廣為人知。
博士畢業(yè)后,Hinton的生活也歷經(jīng)困苦。他和第一任妻子Ros(分子生物學家)前往美國,并在卡耐基梅隆大學獲得教職,不過,由于對里根政府存有不滿,以及在人工智能研究基本由美國國防部支持的情況下,他們于1987年前往加拿大,Hinton開始在多倫多大學計算機科學學院任教,并在加拿大高級研究所CIFAR開展機器和大腦學習項目的研究。
不幸的是,1994年,妻子Ros因卵巢癌逝世,Hinton只能獨自撫養(yǎng)由他們收養(yǎng)的兩個年幼的孩子,其中,兒子還患有注意力缺陷多動癥(ADHD)和其他學習障礙。后來,他與現(xiàn)任妻子Jackie(藝術史學家)再婚,但類似的打擊再度逼近,Jackie前幾年也患上了癌癥。
他本人也患有嚴重的腰椎疾病,這讓他無法像正常人那樣坐下,日常的大部分時間都必須站立工作,由此他也排斥坐飛機,因為起飛降落時都要求必須坐直,這也限制了他去外地做學術報告。
經(jīng)過近半個世紀的技術堅守和生活磨礪,終于,2012年曙光乍現(xiàn),他與學生Alex Krizhevsky、Ilya Sutskever提出的AlexNet震動業(yè)界,就此重塑了計算機視覺領域,啟動了新一輪深度學習的黃金時代。
也是在2012年底,他與這兩位學生成立了三人組公司DNN-research,并將其以4400萬美元的「天價」賣給了Google,他也從學者身份轉(zhuǎn)變?yōu)镚oogle副總裁、Engineering Fellow。
2019年,非計算機科班出身的AI教授Hinton,與Yoshua Bengio、Yann LeCun共同獲得了圖靈獎。
飽經(jīng)風霜之后,這位已經(jīng)74歲的「深度學習教父」依然奮戰(zhàn)在AI研究一線,他不憚于其他學者發(fā)出的質(zhì)疑,也會坦然承認那些沒有實現(xiàn)的判斷和預言。不管怎樣,他仍然相信,在深度學習崛起十年之后,這一技術會繼續(xù)釋放它的能量,而他也在思索和尋找下一個突破點。
那么,他對神經(jīng)網(wǎng)絡的堅定信念源自何處?在如今深度學習「撞墻了」的質(zhì)疑聲中,他如何看待下一階段AI的發(fā)展?對于年輕一代的AI研究者們,他又有怎樣的寄語?
近期,在Pieter Abbeel主持的The Robot Brains Podcast節(jié)目中,Hinton非常坦誠地分享了自己的學術生涯,深度學習的未來和研究心得,以及拍賣DNN-research的內(nèi)幕。以下是他的講述。
對我影響最為深遠的是童年時所接受的教育。我的家庭沒有宗教信仰,父親是一名共產(chǎn)主義者,但考慮到私立學校的科學教育比較好,7歲時,他堅持送我去一所昂貴的基督教私立學校讀書,除了我,那里所有的孩子都相信上帝。
一回到家,家人就說宗教都是胡扯,當然,可能因為我有較強的自我意識,我自己也不信,意識到信仰上帝是錯的,并且養(yǎng)成了質(zhì)疑別人的習慣。當然,多年之后,他們也確實發(fā)現(xiàn)自己當初的信仰是錯的,并意識到上帝也許并不是真的存在。
不過,如果我現(xiàn)在告訴你要有信仰,信仰很重要,可能聽起來很諷刺,但我們確實需要對科學研究要有信仰,這樣即使別人說你是錯的,你也能在那條正確的道路上堅持走下去。
1970年代,研究神經(jīng)網(wǎng)絡「孤勇者」
我的教育背景很豐富。在劍橋大學讀大一那年,我是唯一一位同時修讀物理學和生理學的學生,這為我后來的科研生涯奠定了一定的理工科基礎。
不過,我數(shù)學不太好,只好放棄學物理,可是,我又很好奇生命的意義,于是轉(zhuǎn)而去學哲學,取得一定成績后,又開始修讀心理學。
在劍橋的最后一年,我過得很艱難,也不開心,所以一考完試就退學,去做一名木匠。其實,相比于做其他事情,我更喜歡做一名木匠。
高中時,白天上完課后,我回家就會做一些木工活,那是我最開心的時刻。慢慢地,我就成為了一名木匠,但大概做了六個月左后,就發(fā)現(xiàn)木匠掙得錢少得難以維生,盡管木匠需要做的事情遠比表面看到的要多。搞裝修輕松得多,來錢快,所以在做木匠的同時,我也會兼職裝修活計。除非你是一名高級木匠,否則做木匠賺的錢肯定不如做裝修。
直到一天,我遇到了一名真正出色的木匠,才意識到自己不適合這行當。一家煤炭公司讓這位木匠給陰暗潮濕的地下室做一扇門,鑒于環(huán)境特殊,他就將木料以反方向排列,以此來抵消木料因潮濕膨脹產(chǎn)生的變形,這是我此前從未想過的方式。他還可以用手鋸將一塊木料切成正方形。他向我講解道:要是想將木料切成正方形,那么你必須將鋸床和木料跟房間對齊。
當時我就感覺,跟他相比自己差得太遠了,就想或許還是回學校研究人工智能吧。
后來,我就去愛丁堡大學攻讀神經(jīng)網(wǎng)絡的博士,導師是著名的Christopher Longute-Higgins教授。30多歲時,他就弄清了硼氫化物的結(jié)構(gòu),差點因此獲得諾貝尓獎,真的很厲害。直到現(xiàn)在,我仍然不清楚他研究的是什么,只知道是跟量子力學有關,這項研究的事實基礎是「恒等算子的旋轉(zhuǎn)不是360度,而是720度」。
他曾經(jīng)對神經(jīng)網(wǎng)絡和全息圖之間的關系很感興趣,只是在我到愛丁堡大學后,他突然對神經(jīng)網(wǎng)絡失去了興趣,主要是因為他讀了Winograd(美國計算機科學家)的論文后被徹底說服了,認為神經(jīng)網(wǎng)絡沒有發(fā)展前景,而是應該轉(zhuǎn)做符號人工智能,那篇論文對他影響挺大的。
事實上,他并不贊同我的研究方向,想讓我做一些更容易獲獎的研究,但他的為人不錯,仍然告訴我要堅定自己的方向,也從未阻止我去研究神經(jīng)網(wǎng)絡。
1970年代初,身邊的所有人都質(zhì)問我,Marvin Minsky和Seymour Papert都說神經(jīng)網(wǎng)絡前途渺茫,為什么還要堅持下去?說實話,我感覺很孤獨。
1973年,我第一次給一個小組做演講,內(nèi)容就是關于如何用神經(jīng)網(wǎng)絡做真正的遞歸。在第一個項目中,我發(fā)現(xiàn),如果你想讓神經(jīng)網(wǎng)絡繪制圖形,將圖形分割成多個部分,并且這些圖形的部分都能被類似的神經(jīng)硬件繪制出來,那么儲存整個圖形的神經(jīng)中樞就需要記住整體圖形的位置、方向和大小。
如果正在繪制圖形的神經(jīng)網(wǎng)絡突然停止運行了,你想使用另一個神經(jīng)網(wǎng)絡來繼續(xù)繪制圖形,那么就需要有地方來存儲這個圖形以及工作進度,然后可以繼續(xù)繪制工作?,F(xiàn)在的難點在于,如何使神經(jīng)網(wǎng)絡實現(xiàn)這些功能。顯然,僅僅靠復制神經(jīng)元是不行的,因此我想設計一個系統(tǒng)通過快速權重(fast weight)來實時適配并記錄工作進度。如此一來,通過恢復相關狀態(tài)(state),就可以繼續(xù)完成任務。
因此,我創(chuàng)建了一套神經(jīng)網(wǎng)絡,通過重用相同的神經(jīng)元和權重來執(zhí)行遞歸調(diào)用(就像用于高級調(diào)用一樣),以此來實現(xiàn)真正的遞歸。但是,我不擅長演講,所以感覺可能并沒有人理解我演講的內(nèi)容。
他們說,明明可以使用Lisp遞歸,為什么要在神經(jīng)網(wǎng)絡中進行遞歸。他們不知道的是,除非神經(jīng)網(wǎng)絡能夠?qū)崿F(xiàn)遞歸之類的功能,否則有一大堆事情無法解決。現(xiàn)在,這又成為了一個有趣的問題,所以我還要再等一年,直到這個問題成為一個擁有50年歷史的古董,然后我寫了一份關于快速權重的研究報告。
那時,也不是所有人都反對神經(jīng)網(wǎng)絡。如果再往前追溯到1950年代,如馮·諾依曼和圖靈這樣的研究者還是很相信神經(jīng)網(wǎng)絡,他們都對大腦的工作方式很感興趣,特別是圖靈,很相信神經(jīng)網(wǎng)絡的強化訓練,這也讓我對自己的研究方向很有信心。
可惜他們英年早逝,若是能多活幾年,他們的智慧足以影響一個領域的發(fā)展,英國在這方面可能早已取得突破,說不定人工智能的現(xiàn)狀也會大有不同。
從純粹的學者轉(zhuǎn)變?yōu)镚oogle員工
去Google工作的主要原因是,我的兒子患有殘疾,我得為他掙錢。
2012年,我覺得在Coursera上講課能掙到很多錢,所以就開設了神經(jīng)網(wǎng)絡相關課程。早期的Coursera軟件并不好用,加上我自己并不太擅長操做軟件,因此我時常感到煩躁。
最初我與多倫多大學達成了一項協(xié)議,如果這些課程能賺到錢的話,那么大學會把到手的錢分一部分給講課老師。雖然他們沒有明確說具體的分成比例,但有人說是對半分,我也就欣然接受了。
在錄課過程中,我曾要求過學校幫我錄制視頻,但他們卻反問我,「你知道制作視頻有多貴嗎?」我當然知道,因為我自己一直在制作視頻,校方還是沒有提供任何支持。然而在我開課之后(當時我已經(jīng)騎虎難下了),教務長在沒有咨詢我和其他任何人的情況下就單方面決定學校會拿走所有的錢,而我則一分錢也拿不到,這就完全違反了當初的協(xié)議。
他們讓我好好錄課,并說那本就是我教學工作的一部分,但那實際上并不屬于我的教學范疇,而只是基于我之前做過的相關講座的課程。因此,我在后續(xù)的教學工作中再也沒有用過Coursera。那件事讓我很生氣,甚至開始考慮是否要從事其他的職業(yè)。
就在此時,突然有很多公司向我們拋出了橄欖枝,愿意贊助一大筆經(jīng)費,或者支持我們創(chuàng)立一家公司,這說明還是有很多公司對于我們的研究內(nèi)容很感興趣。
鑒于州政府已經(jīng)給過我們一筆研究經(jīng)費,我們也不再想賺外快,還是把精力放在自己的研究上。但那次學校騙我賺錢的經(jīng)歷不禁讓我萌生想多賺點錢的想法,所以后來把成立不久的DNN-research拍賣了。
這樁買賣發(fā)生在2012年12月的NIPS(神經(jīng)信息處理系統(tǒng)大會)期間,會議在塔霍湖邊的一個娛樂場所舉辦,地下室里燈光閃耀,一群光著膀子的賭徒在煙霧繚繞的房間里盡情高呼,「你贏了25000,這些都是你的」......與此同時,樓上進行拍賣一家公司。
當時就像在演電影,與社交媒體上看到的情形一模一樣,真的很棒。我們之所以拍賣公司,是因為我們完全不知道自身的價值,所以我就咨詢了一個知識產(chǎn)權方面的律師,他說,現(xiàn)在有兩個辦法:一是直接雇一名專業(yè)的談判員去和那些大公司談判,但這可能會遇到不愉快;二是發(fā)起一場競拍。
據(jù)我所知,像我們這樣的小公司進行拍賣在歷史上還是第一次。最終我選擇通過Gmail進行競拍,因為那年夏天我一直在Google工作,我知道他們不會隨意竊取用戶的郵件,即使到現(xiàn)在,我還是這樣認為的。但對于我們這一決定,微軟表現(xiàn)出不滿。
拍賣過程如下:參與競拍的公司必須通過Gmail將他們的報價發(fā)給我們,然后我們再將其連同Gmail的時間戳發(fā)送給其他參與者。起拍價為50萬美元,然后有人出價100萬美元,看到競價不斷上漲時,我們真是太高興了,同時也意識到我們的價值遠比預想的要高。當競價達到一定程度時(當時我們認為是天文數(shù)字了),我們更傾向于在Google工作,于是叫停了拍賣。
來Google工作是一個正確的選擇,到現(xiàn)在我在這兒工作了九年。等我在這里工作滿十年,他們應該會給我頒個獎,畢竟在這兒工作這么久的人屈指可數(shù)。
相比其他公司,人們都更喜歡在Google工作,我也一樣。我喜歡這家公司的主要原因是Google Brain團隊很棒。我更專注于研究如何構(gòu)建大型學習系統(tǒng)和研究大腦的工作機制,Google Brain不僅有研究大型系統(tǒng)所需要的豐富資源,還能跟眾多優(yōu)秀人才交流學習。
我屬于那種直性子,而Jeff Dean是一個聰明人,跟他相處很愉快。他想讓我做一些基礎研究,嘗試提出新的算法,而這正是我喜歡做的事。我不擅長管理大型團隊,相比之下,我更樂意將語言識別的精度提升一個百分點,為這個領域帶來一場新的變革是我一直想做的事。
深度學習的下一個大事件
深度學習的發(fā)展取決于,在擁有海量數(shù)據(jù)和強大算力的大型網(wǎng)絡中做隨機梯度下降,基于此,一些想法得以更好地生根發(fā)芽,比如隨機失活(dropout)和現(xiàn)在的很多研究,但這一切離不開強大算力、海量數(shù)據(jù)以及隨機梯度下降。
經(jīng)常有人說深度學習遇到了瓶頸,但事實上它一直在不斷向前發(fā)展,我希望懷疑論者能將深度學習現(xiàn)在不能做的事寫下來。五年后,我們會證明深度學習能做到這些事。
當然,這些任務必須經(jīng)過嚴格定義。比如Hector Levesque(多倫多大學計算機系教授)是一個典型的AI人士,他本人非常優(yōu)秀。Hector制定了一個標準,即Winograd句子,其中一個例子是,「獎杯不適合放在手提箱中,因為它太小了;獎杯不適合放在手提箱里,因為它太大了?!?/span>
如果你想把這兩句翻譯成法語,必須明白在第一種情況下,「它」指的是手提箱,而在第二種情況下,「它」指的是獎杯,因為它們在法語中是不同的性數(shù)(genders),而且早期的神經(jīng)網(wǎng)絡機器翻譯是隨機的,所以當機器把上述句子翻譯成法語時,機器無法正確識別性數(shù)。但這種情況一直在改進,至少Hector給神經(jīng)元下了一個非常明確的定義,指出神經(jīng)元可以做什么。雖然做的并不完美,但這樣至少比隨機翻譯要好得多。我希望懷疑論者能提出更多類似的質(zhì)疑。
我認為,深度學習這種非常成功的范式將繼續(xù)保持繁榮:即根據(jù)一些目標函數(shù)的梯度來調(diào)整大量的實值參數(shù),但我們很可能不會使用反向傳播機制來獲得梯度,而目標函數(shù)可能會更加局部和分散。
我個人猜測,下一個AI大事件肯定是脈沖神經(jīng)網(wǎng)絡的學習算法。它能夠解決是否進行脈沖的離散判定,以及何時進行脈沖的連續(xù)性決策,這樣就可以利用脈沖時間來進行有趣的計算,這在非脈沖神經(jīng)網(wǎng)絡中其實很難做到。之前沒能深入研究脈沖神經(jīng)網(wǎng)絡的學習算法,這是我研究生涯的一大遺憾。
我沒打算研究AGI,也盡量避免定義什么是AGI,因為AGI愿景背后有各種各樣的問題,而僅僅通過擴大帶參數(shù)的神經(jīng)元數(shù)量或神經(jīng)連接還無法實現(xiàn)通用人工智能。
AGI設想了一個類似人類的智能機器人,它和人類一樣聰明。我不認為智能一定會這樣發(fā)展,而是希望它更多地以共生方式發(fā)展。我認為,也許我們會設計出智能計算機,但它們不會像人類一樣擁有自主意識。如果它們的目的是用來殺死其他人,那它們可能必須得有自主意識,但希望我們不會往那個方向發(fā)展。
相信研究直覺,好奇心驅(qū)動
每個人的思維方式都有所不同,我們不一定了解自己的思維過程。我喜歡按直覺行事,更傾向于在做研究時運用類比,我認為,人類推理的基本方式是基于在大向量中利用正確的特征來進行類比,我本人也是這樣做研究的。
我經(jīng)常在電腦上對某一研究反復進行試驗,來看看哪些有用,哪些沒用。弄清事物的數(shù)學底層邏輯和進行基礎研究確實很重要,進行一些論證也很有必要,但這些不是我想做的事。
做一個小測試:假如現(xiàn)在NIPS會議上有兩場講座,一場是關于用一種全新、聰明和優(yōu)雅的方法來證明一項已知的結(jié)論;另一場則是關于一種新的、強大的學習算法,但算法背后的邏輯暫時無人知曉。
如果你必須在這兩場講座中選擇一場去聽講座,你會做何選擇?相比第二場講座,第一場可能更容易被人們所接受,大家似乎更好奇證明已知事物的新方法,但我會去聽第二場,畢竟在神經(jīng)網(wǎng)絡領域,幾乎所有的進步都源于人們在進行數(shù)學推演時瞬間萌生的直覺,而非常規(guī)推理。
那么你是否要相信自己的直覺?我有一個標準——要么你有敏銳的直覺,要么干脆沒有。如果沒有敏銳的直覺,那做什么都沒關系;但如果有敏銳的直覺,那應該相信直覺,去做你認為對的事。
當然,敏銳的直覺源自你對世界的理解以及大量的辛勞付出。當你在同一件事上積累了大量經(jīng)驗,就會產(chǎn)生直覺。
我患有輕微的狂躁抑郁癥,所以一般會游走在兩種狀況之間:適當?shù)淖晕遗u會讓我非常有創(chuàng)造力,而極度自我批評會讓我產(chǎn)生輕度抑郁。但我認為這樣比僅有單一情緒的效率更高。當你感到煩躁時,你只要忽視那些顯而易見的問題,并且確信一些有趣的、激動人心的東西正等你去發(fā)現(xiàn),繼續(xù)前進。當你面對問題感到措手不及時,一定要堅持下去,理清思路,仔細斟酌想法的好壞。
由于有這樣的情緒交替,我經(jīng)常會告訴大家,我弄清大腦的工作機制了,可過段時間,我又失望地發(fā)現(xiàn)之前的結(jié)論是錯誤的,但事情就應該是這樣發(fā)展的,正如William Blake的那兩句詩,「將快樂和憂傷編織,披在我神圣的心上」。
我認為科研工作的本質(zhì)也是如此,如果你不會因為成功而感到興奮,也不會因為失敗而感到沮喪,那算不上真正意義上的研究者。
研究生涯里,盡管有時會覺得自己完全摸不著一些算法的門道,但我還從未真正感到迷茫和毫無希望。在我看來,無論最終結(jié)果如何,總有值得去做的事情。優(yōu)秀的研究人員總是有很多想做的事情,只是苦于沒有多余的時間。
在多倫多大學任教時,我發(fā)現(xiàn)計算機科學專業(yè)的本科生都很優(yōu)秀,而很多輔修計算機科學的認知科學專業(yè)的本科生也表現(xiàn)得相當出色,這一部分同學并不擅長技術,但他們?nèi)匀话蜒芯孔龅煤芎?,他們熱愛計算機科學,非常想弄清人類的認知如何形成,有著源源不斷的興趣。
像Blake Richards(蒙特利爾神經(jīng)學研究所助理教授)這樣的科學家,他們很清楚自己想解決什么問題,然后就只管朝著這個方向前行?,F(xiàn)在,很多科學家都不知道自己到底想做什么。
回頭看,我覺得年輕人要找到自己感興趣的方向,而不是單純地學些技術。在自身興趣的驅(qū)動下,你會主動去掌握一些應有的知識來尋找你想要的答案,這比盲目地學習技術更重要。
現(xiàn)在想想,我年輕時就應該再多學一點數(shù)學知識,這樣做線性代數(shù)就會容易很多。
數(shù)學時常讓我感到絕望,導致很難讀懂一些論文,尤其要弄懂那一大堆符號,真是一項莫大的挑戰(zhàn),所以我并沒有讀太多論文。關于神經(jīng)科學方面的問題,一般我會向Terry Sejnowski(計算神經(jīng)學教授)請教,計算機科學方面的問題,我會請研究生解釋給我聽。當我需要用數(shù)學來證明某項研究是否可行時,我也總能找到合適的方法。
通過做研究讓這個世界變得更美好的想法很不錯,但我更享受探索人類創(chuàng)造力上限的樂趣,我真的很想了解大腦的工作機制,我相信我們需要一些新的想法,比如通過脈沖神經(jīng)網(wǎng)絡的學習算法了解大腦的運作方式。
我認為,最棒的研究工作應該由一大群研究生來完成,并且給他們提供豐富的資源??蒲泄ぷ餍枰贻p的活力,源源不斷的動力,以及對研究的強烈興趣。
你必須有好奇心的驅(qū)動才能做出最好的基礎研究。只有這樣,你才有動力去忽視那些明顯的障礙,去預估自己會取得怎樣的結(jié)果。如果是一般性研究,創(chuàng)造力就不是最重要的。
如果能弄清一大批聰明人正在研究什么,然后你再去做不一樣的研究,總是一個好主意。如果你已經(jīng)在某個領域取得一定的進展,那就不需要其他新的想法,只需要將現(xiàn)有的研究深挖下去就可以成功。但如果你想研究一些新想法,比如構(gòu)建大型硬件,那也非常不錯,盡管前路可能有些曲折。