ChatGPT 等 AI 很強(qiáng)大,但為什么還會(huì)給人“人工”的感覺(jué)?
人工智能(AI)無(wú)處不在,令人著迷。
1997 年,IBM 的深藍(lán)打敗了國(guó)際象棋大師 Gary Kasparov;IBM 的 Watson 打敗了 Jeapordy! 人類冠軍。2016 年,DeepMind 的 AlphaGo 通過(guò)融合搜索樹和深度學(xué)習(xí),擊敗了圍棋界傳奇人物李世石。現(xiàn)在,利用智能手機(jī)攝像頭和人工智能創(chuàng)建的增強(qiáng)現(xiàn)實(shí),可以從良性痣中分析出異常痣,幫助皮膚科醫(yī)生實(shí)時(shí)預(yù)測(cè)黑色素瘤。OpenAI 的 ChatGPT 可以很好地解釋 Bob Dylan 創(chuàng)作歌曲的方法,就跟它是 Mike Tyson 一樣(反之亦然)。人工智能甚至正在侵蝕許多人認(rèn)為只屬于人類的創(chuàng)意領(lǐng)域,例如 OpenAI 的 DALL·E 2 等生成式人工智能模型生成了超現(xiàn)實(shí)的、可媲美人類品質(zhì)的二維藝術(shù)。
除了這些引人注目的成就之外,許多宣傳較少的人工智能應(yīng)用也在穩(wěn)步發(fā)展。人工智能加持的智能拖拉機(jī)使用計(jì)算機(jī)視覺(jué)來(lái)跟蹤單株植物的健康狀況,監(jiān)測(cè)害蟲和真菌的活性,甚至對(duì)某個(gè)種類的雜草進(jìn)行精確的農(nóng)藥噴灑。在非洲和亞洲,在人手和資金不足的情況下,公園護(hù)林員會(huì)使用 PAWS(一種預(yù)測(cè)偷獵活動(dòng)的人工智能系統(tǒng))來(lái)調(diào)整他們的巡邏路線。歐洲正在廣泛采用自動(dòng)機(jī)器人割草機(jī),它們?cè)诿绹?guó)也開始流行。人工智能的突飛猛進(jìn)令人印象深刻,目不暇接。
回想一下你第一次了解(或使用)自己最喜歡的人工智能應(yīng)用程序——確實(shí)給你留下了深刻印象的應(yīng)用程序。我們姑且稱這個(gè)應(yīng)用程序?yàn)?A,也許現(xiàn)在你已經(jīng)不再對(duì) A 抱有幻想,但是當(dāng)你第一次遇到 A 時(shí),你覺(jué)得它智能嗎?或者是接近智能嗎?盡管它們很有用,但在使用人工智能應(yīng)用程序時(shí)——通常情況下——我們并沒(méi)有真得覺(jué)得自己是在與智能互動(dòng)。
有充足的證據(jù)可以證實(shí)我們的感覺(jué)。稍微調(diào)整下 AlphaGo 或深藍(lán)等游戲 AI 的棋盤尺寸,使其和訓(xùn)練時(shí)不一樣,它們就很容易出錯(cuò);人類可以相對(duì)輕松地做出調(diào)整以適應(yīng)這種變化。盡管大型語(yǔ)言模型(LLM)可以非常精確,但在試驗(yàn) LLM 的大約十分鐘時(shí)間里,你一定會(huì)發(fā)現(xiàn),在不了解這些單詞的潛在語(yǔ)義的情況下,使用一些龐大的訓(xùn)練語(yǔ)料庫(kù)輸出下一個(gè)最有可能的單詞,有很大的局限性。計(jì)算機(jī)視覺(jué)也取得了長(zhǎng)足的進(jìn)步,但自動(dòng)割草機(jī)有時(shí)仍會(huì)弄傷因恐懼而呆住的刺猬,而人類很容易識(shí)別和避開這種動(dòng)物。如果你仔細(xì)觀察人工智能的卓越成就,就會(huì)發(fā)現(xiàn)它的背后還有許多明顯的不足。
想象有一個(gè)連續(xù)體,向一端移動(dòng)我們就會(huì)接近某種超級(jí)智能;向相反的方向移動(dòng)我們就會(huì)更接近石頭腦袋??傆幸惶?,我們可能會(huì)回憶起人工智能還不那么智能的“美好時(shí)光”,但就目前而言,幾乎所有的人工智能系統(tǒng)都可以從向超級(jí)智能的緩慢進(jìn)化中受益;我們至少希望游戲 AI 可以處理不同大小的棋盤,聊天應(yīng)用程序可以掌握我們映射到單詞和句子的概念,割草機(jī)可以繞開草地上休息的刺猬。
為什么我們會(huì)覺(jué)得在過(guò)去幾十年取得了許多進(jìn)步之后,人工智能應(yīng)用距離智能仍然如此之遠(yuǎn)?這有什么關(guān)系嗎?
向著 AGI 前進(jìn)
人工智能的最新進(jìn)展都嚴(yán)重依賴于深度學(xué)習(xí)。既然深度學(xué)習(xí)已經(jīng)讓我們走了這么遠(yuǎn),那么就有理由相信,深度學(xué)習(xí)會(huì)讓我們走得更遠(yuǎn)。
大多數(shù)深度學(xué)習(xí)應(yīng)用程序都只擅長(zhǎng)于某項(xiàng)特定的任務(wù)(稱為“狹義人工智能”),但我們所追求的智能是類似(或超過(guò))人類水平的智能(通常稱為“通用人工智能”或 AGI)。Gwern Branwen 的“擴(kuò)展假設(shè)”提供了一個(gè)令人信服的案例,LLM 可以學(xué)到超出設(shè)計(jì)目標(biāo)的東西,即當(dāng)我們給更大的模型輸入更多的數(shù)據(jù)時(shí),“將出現(xiàn)更復(fù)雜的行為”。
考慮到我們的思想以某種方式產(chǎn)生于大腦的神經(jīng)活動(dòng),而人工神經(jīng)網(wǎng)絡(luò)(非常非常松散)是模擬這種神經(jīng)活動(dòng),所以有理由認(rèn)為,AGI 可能來(lái)自基于深度學(xué)習(xí)的狹隘人工智能模型的某種融合,其改進(jìn)遠(yuǎn)遠(yuǎn)超出了它們目前的能力。
如果是這樣的話,我們將面臨一個(gè)工程迭代問(wèn)題。就像工程師年復(fù)一年地改進(jìn)勞斯萊斯渦輪機(jī)一樣,我們可以愉快地繼續(xù)優(yōu)化神經(jīng)網(wǎng)絡(luò)架構(gòu),收集更多的數(shù)據(jù),添加更多的參數(shù),依靠未來(lái)的硬件創(chuàng)新。最終,我們將向著(或超越)AGI 前進(jìn)。
這個(gè)領(lǐng)域有足夠多的愛(ài)好者、研究機(jī)構(gòu)、初創(chuàng)公司和跨國(guó)公司在開展優(yōu)化深度學(xué)習(xí)應(yīng)用程序的工作,我們最終會(huì)找到答案的,對(duì)吧?也許吧。但是,如果我們最終開始面臨巨大的能源、硬件或質(zhì)量數(shù)據(jù)限制呢?或者,如果 AGI 無(wú)法從人工神經(jīng)網(wǎng)絡(luò)中脫穎而出呢?
我們需要的可能不僅僅是深度學(xué)習(xí)
在過(guò)去幾年里,基于深度學(xué)習(xí)的人工智能領(lǐng)域出現(xiàn)了許多重大突破,隨之也出現(xiàn)了一些要保持謹(jǐn)慎的聲音。不,這些經(jīng)常被忽視的聲音并不是盧德派分子,他們也不是人工智能末日的危言聳聽者,他們是人工智能從業(yè)者和研究人員,他們的袖子上還沾著油脂,要求我們爬到林線之上,重新獲取我們的方位,因?yàn)樯疃葘W(xué)習(xí)可能無(wú)法獨(dú)自帶領(lǐng)我們走完全程。
雖然很少有研究人員相信深度學(xué)習(xí)是唯一的答案,但我們正在把大部分芯片、資金、GPU/TPU、訓(xùn)練數(shù)據(jù)和博士學(xué)位都投入到深度學(xué)習(xí)上,如果結(jié)果證明我們只擅長(zhǎng)狹義智能,那么我們只能算是開發(fā)了強(qiáng)化型自動(dòng)化。
當(dāng)然,強(qiáng)化型自動(dòng)化也非常有用。我經(jīng)常使用 Youtube 的自動(dòng)字幕和翻譯來(lái)觀看土耳其劇。Youtube 從土耳其語(yǔ)到英語(yǔ)的翻譯雜亂無(wú)章,甚至可笑。但是,結(jié)合視頻片段,這種雜亂無(wú)章的翻譯已經(jīng)為我提供了足夠的背景信息,讓我可以欣賞這部劇。你可能遇到過(guò),Siri 或 Alexa 有許多缺點(diǎn)。它們也有很多缺陷,經(jīng)常讓你發(fā)笑(或招你咒罵)。但由于它們可以可靠地完成事實(shí)、歌曲或天氣預(yù)報(bào)等檢索任務(wù),所以我們發(fā)現(xiàn)它們足夠有用,值得為其支付幾百美元。
不過(guò),如果自動(dòng)字幕和翻譯系統(tǒng)(以及 LLM)能夠理解語(yǔ)言間的各種差別,而不僅僅是某些詞與其他詞共現(xiàn)的可能——就像聯(lián)合國(guó)口譯員在核擴(kuò)散條約談判期間所做的那樣,這樣會(huì)更好?;蛘?,虛擬助手可以發(fā)揮其卓越的數(shù)據(jù)處理能力,像人類一樣推理,這樣它們就可以增強(qiáng)我們的決策能力。對(duì)于這類應(yīng)用程序,我們需要向 AGI 靠攏。有些研究人員認(rèn)為,如果我們不充分探索深度學(xué)習(xí)方法之外的方法,那么我們可能就會(huì)遠(yuǎn)離 AGI。
怎樣能讓人工智能變得更聰明?
到目前為止,我們都是假設(shè),大多數(shù)人工智能應(yīng)用程序都要走很長(zhǎng)的路,才能到達(dá)連續(xù)體“更智能”的一端,而且我們也考慮過(guò),僅靠深度學(xué)習(xí)可能無(wú)法帶領(lǐng)我們到達(dá)目的地?,F(xiàn)在,該玩點(diǎn)好玩的了。讓我們來(lái)場(chǎng)頭腦風(fēng)暴,探索一些讓人工智能更智能的基本原則。
首先,人工智能不應(yīng)該是只會(huì)一招的小馬,它應(yīng)該是多才多藝的。這看起來(lái)像是依賴于應(yīng)用程序,但數(shù)字助手提供了一個(gè)很好的例子,因?yàn)樗鼈兛梢蕴幚碚Z(yǔ)言和檢索知識(shí);一個(gè)幫助檢測(cè)癌變皮膚痣的模型,因?yàn)橹簧瞄L(zhǎng)一項(xiàng)任務(wù),所以應(yīng)用并不廣泛。與之相關(guān)聯(lián)的,AI 也應(yīng)該是多模態(tài)的。這樣,多個(gè)感知模態(tài)的性能之和大于性能最大的單感知模態(tài)。配備了計(jì)算機(jī)視覺(jué)和超聲波傳感器的自動(dòng)駕駛汽車應(yīng)該比最高性能的視覺(jué)或超聲波傳感器表現(xiàn)更好。多模態(tài)和讓人工智能更加多面化都是活躍的研究領(lǐng)域。
其次,人工智能模型應(yīng)該在訓(xùn)練數(shù)據(jù)之外進(jìn)行泛化,將知識(shí)從熟悉的領(lǐng)域轉(zhuǎn)移到不熟悉的領(lǐng)域。例如,假設(shè)有一位動(dòng)物學(xué)家發(fā)現(xiàn)了一種未知物種。她會(huì)把它和她目前了解的類似物種的外觀和行為進(jìn)行比較,對(duì)這種新生物進(jìn)行概括和判斷,將其歸入適當(dāng)?shù)念悇e(哺乳動(dòng)物、爬行動(dòng)物、魚類等)。如果新物種與訓(xùn)練數(shù)據(jù)相差太大,那么深度學(xué)習(xí)模型在執(zhí)行同一任務(wù)時(shí)就容易出現(xiàn)問(wèn)題。
但斯坦福大學(xué)兼職教授、Matroid 首席執(zhí)行官 Reza Zadeh 認(rèn)為,最新的生成式人工智能進(jìn)展在這方面頗有潛力。例如,一個(gè)圖像分類模型如果沒(méi)有標(biāo)簽為“河馬單板滑雪 U 型場(chǎng)地技巧”的照片,那么它可能會(huì)針對(duì)該標(biāo)簽自己生成圖像,然后請(qǐng)求人類反饋模型生成的圖像與這個(gè)奇怪的短語(yǔ)的匹配程度。這可以減少模型學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù)量和時(shí)間。
也許,我們想要設(shè)計(jì)的最重要也是最困難的智能特征是人工智能圣杯——機(jī)器“常識(shí)”。因?yàn)槲覀冋J(rèn)為,常識(shí)是理所當(dāng)然的,是一個(gè)模糊的概念。Howard Shrobe 是美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)耗資 7000 萬(wàn)美元的“機(jī)器常識(shí)”項(xiàng)目的項(xiàng)目經(jīng)理。他認(rèn)為,常識(shí)有三個(gè)組成部分:
物理直覺(jué):對(duì)物體在環(huán)境中如何移動(dòng)的感知;
心理直覺(jué):對(duì)其他主體如何互動(dòng)和行為的感知;
通識(shí):大多數(shù)成年人都具備的一套常識(shí)。
你可以毫不費(fèi)力地判斷臺(tái)球的軌跡,把朋友皺起的眉頭理解為擔(dān)心,這分別要?dú)w功于物理直覺(jué)和心理直覺(jué)??紤]到我們?cè)趮雰汉哇橎菍W(xué)步期就發(fā)展出了復(fù)雜的物理直覺(jué)和心理直覺(jué)——在我們接受諸多訓(xùn)練之前——似乎已經(jīng)有許多東西進(jìn)入了我們大腦的神經(jīng)系統(tǒng)。
或許是由于他在發(fā)展心理學(xué)方面的研究,紐約大學(xué)名譽(yù)教授 Gary Marcus 一直在孜孜不倦地倡導(dǎo),用人工智能的方法模擬(我們認(rèn)為的)先天性在人類認(rèn)知發(fā)展中所起的作用。他并不是唯一一個(gè)持這種觀點(diǎn)的人;DARPA 的“機(jī)器常識(shí)”項(xiàng)目同樣旨在讓機(jī)器模擬六個(gè)月大的嬰兒的學(xué)習(xí)過(guò)程。甚至計(jì)算先驅(qū) Alan Turing 也認(rèn)為,模擬兒童的思維比模擬成人的思維更可取。
混合策略能助我們實(shí)現(xiàn)目標(biāo)嗎?
早期的人工智能主要是使用符號(hào)系統(tǒng)將邏輯硬編碼到系統(tǒng)中(也稱為符號(hào)人工智能)非常脆弱,以至于大多數(shù)研究人員多年前就把它撂在一邊了。然而,Marcus 認(rèn)為,混合方法——融合符號(hào)人工智能和深度神經(jīng)網(wǎng)絡(luò)可以幫助人工智能結(jié)合兩個(gè)領(lǐng)域的優(yōu)點(diǎn)。羅切斯特大學(xué)名譽(yù)教授 Henry Kautz 認(rèn)為,這種混合方法(也被稱為神經(jīng)符號(hào))可以利用 Daniel Kahneman 提出的系統(tǒng) 1 和系統(tǒng) 2 思維的概念。
人工深度神經(jīng)網(wǎng)絡(luò)大致對(duì)應(yīng)于人類快速、直觀、通常是感官的思維(系統(tǒng) 1),而符號(hào)人工智能大致對(duì)應(yīng)于人類速度較慢的系統(tǒng)性思維(系統(tǒng) 2)。例如,當(dāng)你開車去上班時(shí),你使用系統(tǒng) 1 思維;你幾乎處于自動(dòng)駕駛狀態(tài)。但假如你和你最好的朋友一起開車旅行,一起討論生活的意義。這并不完全是一個(gè)自動(dòng)駕駛的場(chǎng)景(除非你已經(jīng)把一切都弄清楚了),所以你會(huì)使用系統(tǒng) 2 思維。
雖然符號(hào) AI 逐漸消失,但符號(hào)無(wú)疑是理解和傳遞概念的有效途徑。我們每次說(shuō)話、閱讀和寫作都在使用它們,所以人工智能應(yīng)該利用好符號(hào)。類似符號(hào)的特征有時(shí)會(huì)出現(xiàn)在深度學(xué)習(xí)方法中;例如,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以識(shí)別圖像的輪廓等特征。遺憾的是,目前大多數(shù)深度學(xué)習(xí)方法都沒(méi)有充分利用符號(hào)的力量。符號(hào)方法也是如此;人類不斷地將原始的感官輸入——視覺(jué)、聽覺(jué)、嗅覺(jué)、味覺(jué)、觸覺(jué)和情感——映射到我們的符號(hào)中,所以我們應(yīng)該像深度學(xué)習(xí)那樣為符號(hào)方法的符號(hào)注入感知意義。
Marcus 呼吁加大對(duì)神經(jīng)符號(hào)人工智能的投入,這似乎值得一試,但是否已經(jīng)有任何概念證明?雖然不像純深度學(xué)習(xí)的成就那樣廣為人知,但神經(jīng)符號(hào)方法并沒(méi)有置身事外。首先,Marcus 認(rèn)為,AlphaGo 將深度學(xué)習(xí)與符號(hào)樹搜索相融合,形成了一種神經(jīng)符號(hào)學(xué)方法。此外,2018 年,Ellis 等人開發(fā)了一種神經(jīng)符號(hào)模型,使用 CNN 將手繪圖像轉(zhuǎn)換為雖有缺陷但人類可讀的計(jì)算機(jī)圖形程序。雖然人類必須驗(yàn)證這些程序的正確性,但看到 CNN 生成比圖像輪廓更復(fù)雜的人類可解釋的符號(hào)系統(tǒng)還是很令人興奮的。最后,2020 年,Cranmer 等人開發(fā)了一種技術(shù),利用圖神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中自動(dòng)提取符號(hào)表達(dá)式,發(fā)現(xiàn)了一個(gè)預(yù)測(cè)暗物質(zhì)濃度的新公式。的確,神經(jīng)符號(hào)方法似乎有著巨大的潛力。
未來(lái)展望
現(xiàn)在我們已經(jīng)了解為什么人工智能仍然達(dá)不到我們直觀的智能感——盡管它取得了許多成功。深度學(xué)習(xí)肯定會(huì)繼續(xù)產(chǎn)生更多新穎實(shí)用的應(yīng)用,但它不太可能成為我們邁向 AGI 的唯一方法??紤]到智能的多面性,組合使用多種方法似乎比完全依托深度學(xué)習(xí)更合適。其他方法究竟是什么還有待觀察。
神經(jīng)符號(hào)學(xué)方法——結(jié)合人工神經(jīng)網(wǎng)絡(luò)和符號(hào)來(lái)模擬我們的“快”和“慢”思維——似乎很有前途;但那也可能是一條死胡同??紤]到人工智能還很年輕,我們需要做的主要事情是防止輕率地拋棄方法,把人工智能作為一個(gè)探索性的尋路階段,用各種各樣的方法進(jìn)行實(shí)驗(yàn)。
原文鏈接:
https://blog.deepgram.com/ai-still-feels-artificial-what-are-we-missing/