【花師小哲】雜談——大模型時代重新審視神經(jīng)網(wǎng)絡與大腦的區(qū)別
1.正文
近期,科學家構(gòu)建出了一個果蠅大腦的連接,這項研究似乎證明在果蠅的大腦中確實存在類似于ResNet的結(jié)構(gòu)。
而現(xiàn)在是大模型的時代了,我們不妨重新審視(人工)神經(jīng)網(wǎng)絡和我們大腦的區(qū)別。
從根源上來說,神經(jīng)網(wǎng)絡來源于連接主義,本意當然是模擬大腦,試圖通過復雜的連接來實現(xiàn)智能。
但從現(xiàn)實來看,隨著我們對大腦的深入認識,神經(jīng)網(wǎng)絡的架構(gòu)卻沒有翻天覆地的變化,一切其實是跟著需求來的,隨著大家瘋狂煉金,最終煉出了transformer這種東西,和我們大腦的架構(gòu)其實并不相同。
然后模型就開始變得越來越大了,隨之而來的事訓練數(shù)據(jù)的急劇增大。
但,問題是,我們學習一個東西是不需要那么多數(shù)據(jù)量的啊。難道我們學會使用語言需要先過幾個T的語料的嗎?人類是可以很簡單地實現(xiàn)小樣本的學習的。
小樣本學習的研究當然是有,但很明顯,目前研究還很不充足。
那么,我們重新審視一下預訓練和我們的大腦。
當直接訓練被拆分為預訓練和微調(diào)的時候,我們發(fā)現(xiàn),微調(diào)其實是不需要那么多的訓練數(shù)據(jù)的。預訓練除了可以被看成一個獨立的訓練過程,還可以看成是一個初始化的過程。
讓我們回到神經(jīng)網(wǎng)絡初始化那里去,我們知道,不同的初始化可能會導致模型性能最終收斂到不同的地方,一般來說,隨機初始化后模型的性能往往很差,但需要承認的是,這并不是說我們完全沒有可能獲得一個非常完美的初始化的。
OK,回到人的大腦,這時候我們不要把大腦的起點設(shè)置為嬰兒的誕生或是胎兒大腦成型,而是把大腦放到更深層的歷史長河中去。這個答案可能就沒有那么復雜了,即在基因里沒準有一些東西,能夠優(yōu)化我們大腦的初始化。隨著我們一代代地發(fā)展,我們大腦會初始化地更“優(yōu)秀”。
雖然這只是我的一個偶然的想法,但其實如果真的是這樣,也許能解決很多問題,即我們之所以能做到小樣本學習是因為我們大腦的初始化更加優(yōu)秀,而這是億萬斯年演化的結(jié)果。
當然,我個人是沒有區(qū)去找有沒有類似的研究或想法的,我對生物學也不是很了解。只是提出自己的一個偶然想法罷了。
2.補充
其實某天我睡覺的時候重新想了一下《德雷福斯》的具身智能(挖坑,之后有興趣再展開談吧),突然有了一些新的想法。
最近不是某個教大家如何坐火車之類的賬號火起來了嘛,我突然想到,雖然ChatGPT能夠提供很多生活的小建議,雖然new bing也能進行搜索給你一些更精準的答案(例如問路、問名勝古跡的信息),但它們的一個問題是不夠具身。
舉個最簡單的例子,“如果我想一邊野餐一邊研究鯨魚的身體結(jié)構(gòu)呢?”(Mari:?)
所謂具身,一個理解可以是,它們其實并沒有設(shè)身處地的為“我”著想,不能完全站在我的角度來實時解決我的問題,當然也不能站在自己的角度解決自己的問題。難道我們總能每時每刻把自己的需求形成一個合適的prompt去進行詢問嗎?
所以這個程度上來講,PaLM-E是比目前很多多模態(tài)大模型更加高級的。