2022年劍橋AI全景報告,文本生成圖像掀起新風暴?。?14頁)
日前,2022年《State of AI Report》新鮮出爐。
作為每年發(fā)布的AI報告,作者從研究、產(chǎn)業(yè)、政策、安全、預測五個維度對最新人工智能發(fā)展現(xiàn)狀和未來預期進行了深入分析和說明。
報告囊括的技術范疇包括:AI、AI安全、機器學習、強化學習、深度學習、模型、自監(jiān)督學習、語言模型、計算機視覺等。
這一年,AI的亮眼表現(xiàn)
研究領域
基于文本到圖像的生成能力,擴散模型(Diffusion models)在計算機視覺界掀起一場風暴。
AI研究影響到更多科學議題,從塑料回收、核聚變反應堆控制,到發(fā)掘天然產(chǎn)品。
把標度法則重新聚焦在數(shù)據(jù)上:模型的尺度并不是所需全部,發(fā)展單一的模型,關鍵是要盯住數(shù)據(jù)。
社區(qū)驅(qū)動的開源大模型進展飛速,從而讓這種小集體合作方式能夠與大型實驗室相競爭。
通過神經(jīng)科學的啟發(fā),人工智能的研究方法開始越來越像認知科學。
產(chǎn)業(yè)領域
半導體初創(chuàng)公司在與英偉達等巨頭的角逐中是否有勝算?統(tǒng)計數(shù)據(jù)顯示,英偉達的規(guī)模領先20-100倍。
大型科技公司正努力擴張AI云,并與A(G)I初創(chuàng)公司建立合作。
招聘凍結(jié)、人工智能實驗室解散,促使DeepMind和OpenAI在內(nèi)的巨頭企業(yè)成立了更多初創(chuàng)公司。
首個自主醫(yī)療成像診斷被授予CE標志。
AI最新的代碼研究被快速轉(zhuǎn)化為商業(yè)開發(fā)工具。
政策領域
學術界和產(chǎn)業(yè)界的鴻溝可能無法彌合,幾乎沒有什么工作是在學術界完成的。
學術界正在將它們研究工作交接給非傳統(tǒng)出身,分散的研究群體。
在應用領域上值得注意的是,人工智能技術被持續(xù)應用在大量國防產(chǎn)品中,國防初創(chuàng)人工智能公司獲得資本青睞。
安全領域
在AI安全的研究上,雖然人們的認知、人才的供給和資金的投入都在增長,但要提升這方面的能力并不容易。
哪些實現(xiàn)了,哪些沒實現(xiàn)?
2021年的報告中曾對2022年作出8項預期,復盤來看哪些實現(xiàn)了,哪些沒實現(xiàn)。
實現(xiàn)的預期中,包括取代RNNs的Transformers,在游戲中超過了人類的表現(xiàn),取得這一成績主要因為DeepMind的Gato模型可以預測未來的狀態(tài)和行動。日內(nèi)瓦大學的IRIS則解決了在Atari環(huán)境中設定的任務。此外,DeepMind在物理科學的研究上也有重大突破。
未能實現(xiàn)的預期:Graphcore、Cerebras、SambaNova、Groq、Mythic中至少有一家被大型科技公司或者半導體公司收購,實際上并沒有發(fā)生。阿斯麥的市值也遠沒有達到5000億美元,目前只有1650億美元。
還有一些遲到的預期被驗證。
比如2019年曾預期,人工智能的治理成為一個更大的問題,至少有一家主流AI公司會對治理及管理模式作出實質(zhì)性的調(diào)整,Anthropic作為公益性公司的成立證明了這一點。
2020年預期英偉達最終沒有完成對Arm的收購,在今年年初也得到驗證。
最新研究成果和產(chǎn)業(yè)進展
在人工智能的研究領域,Deepmind這一年做出不少貢獻,包括數(shù)學和材料科學。
Deepmind的研究人員同牛津大學、悉尼大學等院校教授合作,將AI應用于數(shù)學中的拓撲和表示論領域。在《自然》雜志的一篇文章中,通過研究紐結(jié)的結(jié)構(gòu),發(fā)現(xiàn)了數(shù)學在不同領域間隱藏的聯(lián)系。
繼通過強化學習擊敗最好的圍棋和象棋人類選手后,AlphaZero被重新用作矩陣乘法的計算。
此外,自從開放源代碼,DeepMind的AlphaFold 2已被數(shù)百篇研究論文引用。目前,AlphaFold 2 可以用來預測2億種已知蛋白質(zhì)的三維結(jié)構(gòu),包括植物、細菌、動物和其他生物。
與此同時,擴散模型在圖像的生成上正在超越GANS,成為文本生成圖像最先進的模型。在文本轉(zhuǎn)視頻、文本轉(zhuǎn)音頻,以及分子設計等領域也開始得到應用。
Stability.ai 和Midjourney兩家公司所創(chuàng)建的文本轉(zhuǎn)圖像模型可以與已經(jīng)發(fā)展成熟的人工智能實驗室的產(chǎn)品相媲美。而通過這項技術,Midjourney實現(xiàn)了盈利,Stability則將其模型開源。
谷歌基于擴散模型的文本生成視頻研究也在今年4月開啟。之后,谷歌和Meta都宣稱在這一領域取得重大突破。
Meta通過發(fā)布“Make-a-Video”,讓擴散模型首次在業(yè)界產(chǎn)生轟動效應。緊隨其后,谷歌發(fā)布了兩個模型:基于擴散模型的Imagen和非擴散模型的Phenaki,后者能夠通過附加提示動態(tài)調(diào)整視頻的生成。
一項研究發(fā)現(xiàn),LLMs的“超能力”能讓機器人通過自然語言對每一個步驟的解釋來完成各種任務。但由于對機器人所處環(huán)境和現(xiàn)實能力缺乏認知,LLMs的所謂解釋就顯得“雞同鴨講”。不過,PaLM-SayCan最終解決了這個問題,從機器人能夠執(zhí)行多樣的、模糊的指令。
Transformer 作為一種解碼器架構(gòu),影響力已經(jīng)超出NLP,在計算機視覺上也發(fā)揮了高超水平,?正在成為真正的跨模態(tài)產(chǎn)品。
值得一提的是,自2010年以來,中國機構(gòu)的AI論文撰寫數(shù)量是美國的4.5倍。
在產(chǎn)業(yè)方面,英偉達通過在AI研究上的投資得以捆綁銷售軟硬件,從而獲得收益。比如,通過強化學習設計的人工智能芯片 H100 GPU 就被業(yè)界所期待。
智能編碼助手正在被快速部署,其中,OpenAI新創(chuàng)的機器學習工具Codex開啟了開放商業(yè)化,從研究到商業(yè)化只用了11個月。被認為是“AI程序員”的GitHub Copilot以10美元/月,或者100美元/年的價格開放銷售。其他包括亞馬遜和谷歌在內(nèi)的巨頭公司也在快速布局這一領域。
國家間的橫向?qū)Ρ壬希绹娜斯ぶ悄塥毥谦F數(shù)量領先,其次是中國和英國。截至目前,美國有292家人工智能獨角獸企業(yè),價值合計達4.6萬億美元。中國有69家,總估值1.4萬億。
最后,兩位作者對人工智能的安全性問題上也有不少思考。在他看來,伴隨著人工智能的迅速發(fā)展,未來高性能系統(tǒng)的安全性仍然不夠不明確:
“雖然許多擔憂是推測的,但早期人工智能先驅(qū)們認為,未來高性能,與經(jīng)濟發(fā)展融為一體的人工智能系統(tǒng)可能會帶來災難性的失敗,對人類構(gòu)成威脅?!?/p>
對此,英國人工智能產(chǎn)業(yè)界首先承認這些潛在災難的風險性。然而,盡管認知在提升,也吸引了更多的人才,資金也逐漸到位,但這些并不等同于防范能力的提升。所以,這一領域還需要各界提高重視。
報告節(jié)選如下:
公眾號《俠說》;小程序:俠說智庫;官網(wǎng):www.guotaixia.com