最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

戈登貝爾獎獲得者張林峰:「AI + Science」的路徑思考

2021-08-24 15:44 作者:智源社區(qū)  | 我要投稿

撰文:張林峰,北京深勢科技公司創(chuàng)始人及首席科學(xué)家,戈登貝爾獎獲得者

編輯:賈 偉



這篇文章是我近期一些思考的總結(jié)。這些思考離不開近幾年來與很多小伙伴日日夜夜的探討,我深表懷念和感激。

在鄂維南老師的影響下、在DeepModeling開源社區(qū)和深勢科技的實踐中,我早已認定AI+Science是當(dāng)今時代的一大主題。但是,對于什么是值得當(dāng)下做的事情、以及如何有效地推進它們,我依舊在苦苦思考。AI在很多場景從算法到工程的發(fā)展歷史告訴我們,整個問題難在了規(guī)模化和場景深入。在這個的過程中,所有相關(guān)要素——不同背景的人才、不同模式的算力、行業(yè)發(fā)展的歷史依賴等——都可能在不同的階段成為瓶頸。一個好的架構(gòu)設(shè)計以及協(xié)同和激勵機制將無比地重要。換句話說,我們需要打破物理的拼湊、產(chǎn)生chemistry。

在這篇文章里,我將先從我們的愿景出發(fā),論述AI+Science終將帶來怎樣的改變。緊接著,我將著重探討實現(xiàn)愿景的路徑。我將用大段文字總結(jié)和展望以我們所做的Deep Potential(DP)為代表的AI+Science項目的四個階段:

  • End-to-end解決方案+開源;

  • 自動化產(chǎn)生模型與數(shù)據(jù);

  • 工程化——規(guī)模工程、數(shù)據(jù)工程、性能工程;

  • 面向產(chǎn)業(yè)場景的迭代演繹,并以此為基礎(chǔ)給出對AI+Science發(fā)展路徑的思考。

最后,從對「不對稱性」和「不確定性」的思考出發(fā),我將探討我們需要的協(xié)同模式和文化。

這是我第一次試圖論述關(guān)于AI+Science走向大規(guī)模工程的話題?!腹こ袒沟牟糠终剂撕艽蟮钠?。無論是像有限元這樣的科學(xué)計算方法,還是像神經(jīng)網(wǎng)絡(luò)這樣的AI工具,工程化都是它們大規(guī)模解決問題的必經(jīng)之路。

對AI+Science相關(guān)的話題來說,早期可能對擅長工程化的朋友們的門檻有些高。但是,一些走在前面的項目的工程化已經(jīng)開始了!對工程化有深刻洞見和豐富實踐的朋友們,現(xiàn)在是你們大展身手的時候!

作者簡介

本文作者張林峰,北京深勢科技公司創(chuàng)始人及首席科學(xué)家。2016年本科畢業(yè)于北京大學(xué)元培學(xué)院,2020年博士畢業(yè)于普林斯頓大學(xué)應(yīng)用數(shù)學(xué)系。林峰通過有效結(jié)合機器學(xué)習(xí)和多尺度建模方法,有效解決了計算化學(xué)、分子模擬、增強采樣等方向中的一些關(guān)鍵問題,對物理、化學(xué)、材料、生物等領(lǐng)域的第一性原理建模和模擬產(chǎn)生較大影響。與合作者發(fā)展了DeePMD-kit等開源分子模擬軟件和DeepModeling社區(qū)。林峰作為核心開發(fā)者的工作獲得2020年度高性能計算領(lǐng)域最高獎ACM戈登貝爾獎。


一、愿景:AI+Science終將帶來怎樣的改變?


有兩篇文章可以為這個問題的理論基礎(chǔ)提供參考。

一篇是鄂維南老師今年在《Notice of the American Mathematical Society》發(fā)表的高瞻遠矚的文章《The Dawning of a New Era in Applied Mathematics》,

另一篇是我與鄂老師和韓劼群今年在《Physics Today》上發(fā)表的《Machine Learning Assisted Modeling》。

AI和Science都是很大的詞,用這倆詞是有點蹭熱度的。我們將Science限制在科學(xué)計算所關(guān)聯(lián)到的范圍內(nèi)。

科學(xué)計算希望做的,是從第一性的科學(xué)原理及實驗觀測出發(fā),將不同尺度現(xiàn)實世界發(fā)生的事情映射到計算模擬的世界中。

維數(shù)災(zāi)難,圖片來源:網(wǎng)絡(luò)

過去幾十年里,人們在不同尺度上針對不同場景發(fā)展了一系列有效的物理建模與科學(xué)計算方法,并在航天、機械、燃燒、土木等應(yīng)用領(lǐng)域產(chǎn)生了巨大的影響。當(dāng)下科學(xué)計算的瓶頸在哪里?是在經(jīng)典計算機計算模式的約束下,算法面臨“維度災(zāi)難”的問題。

科學(xué)計算在航天中的應(yīng)用,圖源:網(wǎng)絡(luò)

再看看AI。近年來,隨著數(shù)據(jù)、算力規(guī)模的爆炸式上升,以深度學(xué)習(xí)為代表的AI技術(shù)像是一個大錘子,數(shù)據(jù)在哪里,AI大錘就砸向哪里。CV、NLP等領(lǐng)域是AI算法的應(yīng)用大戶,數(shù)據(jù)越來越多,模型也越來越大。在這個意義上,AI面臨的瓶頸在哪里?我想,數(shù)據(jù)和需求的瓶頸在哪里,AI的瓶頸也就在哪里。AI算法工程的標(biāo)志性動作是針對給定數(shù)據(jù)集的模型工程,但這個數(shù)據(jù)集對應(yīng)多大程度的場景深度和產(chǎn)業(yè)需求,或許是比模型工程更難的問題。

AI+Science意味著AI的復(fù)雜數(shù)據(jù)處理能力和Science的第一性原理的結(jié)合。AI有望助力解決科學(xué)計算中的維度災(zāi)難問題,將不同尺度的物理模型有效連接起來;而物理模型的演繹能力又能為我們產(chǎn)生更多數(shù)據(jù),從而推動更好的AI解決方案。

AI+Science終將帶來怎樣的改變?

我想有三點。

首先,它將帶來科學(xué)研究范式的改變,以及由此帶來的生產(chǎn)力的解放。更強的建模能力將使得各個領(lǐng)域的人們更有機會解決他們關(guān)注的問題上;

其次,它將推動工業(yè)設(shè)計范式的改變,以及由此帶來的產(chǎn)業(yè)升級,甚至推動實現(xiàn)真正的數(shù)字孿生;

最后,在基礎(chǔ)研究到產(chǎn)業(yè)落地的長鏈條上,我相信AI+Science也將推動新的人才體系、激勵與協(xié)同機制的形成。


二、路徑:如何讓愿景成真?

這是一個復(fù)雜的問題。DP是一個有趣的實踐。去年我寫過一篇DP回顧性文章,這里隨著思考和實踐的深入,我覺得有必要換個角度寫。

一個典型AI+Science項目的生命周期——DP發(fā)展階段總結(jié)與展望


階段一:End-to-end(E2E)解決方案+開源。

對于DP早期的發(fā)展,E2E和開源二者缺一不可,而二者在當(dāng)時看來,都不是那么自然的選擇。

【干了什么】

DP不是第一個機器學(xué)習(xí)輔助分子動力學(xué)的方案,但在我看來它是第一個滿足E2E特點的方案。


機器學(xué)習(xí)輔助分子動力學(xué),圖源:網(wǎng)絡(luò)


所謂E2E,在這里指的是實現(xiàn)了這樣的效果:所有相關(guān)從業(yè)者,無論是做化學(xué)、材料、地質(zhì)、還是生物,只要有量子模型求解的數(shù)據(jù),就可以試著拿DeePMD-kit(DP的開源軟件方案)訓(xùn)練一把,而大概率在一兩天內(nèi)發(fā)現(xiàn)結(jié)果還不錯。

這聽起來是當(dāng)時所有類似方法吹噓的事情,但是想做到這點實屬不易。原因在于,這需要在AI能力(高維復(fù)雜函數(shù)的表達能力等)和物理約束(對稱性等)之間做非常微妙的平衡。

舉個反例,有很多人做有機分子的勢能面,很自然地把分子的成鍵信息總結(jié)為輸入扔給神經(jīng)網(wǎng)絡(luò)。但這樣一來,這個方案對合金這樣沒有共價鍵等信息的體系就天生不work了。

【效果是什么】

E2E+開源的效果是顯著的。它定義了一個合適的接口,實現(xiàn)了我們與各個方向?qū)<业膶υ挕?/p>

尤記得從17年夏天起,我博士一年級的尾巴上,我能因此得以與物理、化學(xué)、生物、材料等各個方向的專家交流。

交流是最寶貴的機會。通過幫助他們解決問題,我也快速了解了各個領(lǐng)域的關(guān)鍵問題,以很快的方式學(xué)到了很多知識。

從開源軟件的角度講,它的功能、性能、魯棒性開始被快速迭代驗證。我們以純自發(fā)的方式實現(xiàn)了開源軟件的去中心化開發(fā)、分布式同行評審。

【難點在哪里】

E2E是不易的,難在它是一個非??鐚W(xué)科的批判性思考的過程。這個過程中“偏見”和“洞見”只有一線之差。

開源也是不易的。盡管我后來學(xué)到開源的方方面面,但是很長時間里我們是沒有自覺性的認知的,且我們所面向的用戶大多還是以學(xué)術(shù)課題組為單位、以學(xué)術(shù)發(fā)表及學(xué)術(shù)會議等活動為溝通方式。

我和王涵、劼群在TensorFlow(TF)仍在0.x版本的時候把DP實現(xiàn)在TF上,并通過C++ API把訓(xùn)練好的模型和主流分子動力學(xué)軟件LAMMPS/i-pi等鏈接了起來,使得用戶可以比較無縫地使用,這在當(dāng)時是不主流的。


LAMMPS 通過MD模擬了Fe-Ni-Co基板上鋁層的氧化,顯示了孔的形成,圖源:LAMMPS


再往后的幾年時間里,我們對模型的整體改動都很小。盡管同期我們看到更多模型方案出來,甚至學(xué)界似乎有股“搞方法”比“鑿應(yīng)用”更被認可的導(dǎo)向,但那陣子我們一直深耕著DP的應(yīng)用和其他尺度上的方法開發(fā),積極拓寬著我們的認知和能力邊界。我一度同時拿著幾十個不同背景同學(xué)的數(shù)據(jù)幫他們做擬合、做分析。往往擬合不下去是更令我興奮的,因為這意味著要么數(shù)據(jù)有問題、要么我們的方案還不夠好,這是激發(fā)我們進一步思考的機會。


順便提一下,我們相關(guān)文章的發(fā)表要晚于解決方案的開源,因為一來學(xué)術(shù)發(fā)表的同行評審周期長,二來一個跨學(xué)科E2E的模型其實文章投哪里都不討好,我們被拒絕過很多次。
當(dāng)前學(xué)術(shù)發(fā)表體系面臨著極其嚴峻的挑戰(zhàn)。想想開源軟件和學(xué)術(shù)發(fā)表在同行評審模式上的差別吧:一個人對開源軟件感興趣,往往是因為ta的某個痛點需求能被更好地滿足;軟件在功能、性能方面的表現(xiàn)和一些潛在的bug可以被快速驗證。底線是,用戶可以直接用腳投票。
反觀學(xué)術(shù)發(fā)表的同行評審,學(xué)術(shù)文章越來越多、reviewer的時間精力投入和專業(yè)程度越來越不可控、impact factor和citation越來越成為bias學(xué)術(shù)研究的事實魔爪,在AI等熱門領(lǐng)域惡性循環(huán)已然形成。
我不是說學(xué)術(shù)發(fā)表體系不好,恰恰它和開源都本是以物質(zhì)富足后的精神追求為最本質(zhì)的驅(qū)動力的。但很遺憾,目前整個體系被扭曲的很厲害。從這個意義上,開源是我們采取的一種軟件開發(fā)使用的協(xié)同方式,僅此而已。如果也有和impact factor、citation類似的指標(biāo)(或許是star和PR等)決定著開源社區(qū)太多的東西,那也會出問題的。
目前雖然有大量AI+Science主題下的工作,但我看到的絕大多數(shù)都還是在這里階段一的早期環(huán)節(jié)小打小鬧。這除了問題本身確實難之外,也與當(dāng)下糟糕的學(xué)術(shù)發(fā)表體系不無關(guān)系。


【誰是主角】

這個階段的算法和軟件開發(fā)只需要幾個人的投入。

但值得注意的是,作為用戶的各領(lǐng)域?qū)<乙彩俏覀儏f(xié)同開發(fā)的主體。用戶-深度用戶-開發(fā)者的體系也在這個過程中潛移默化地形成了。


階段二:自動化產(chǎn)生模型與數(shù)據(jù)


【干了什么】

在模型和代碼被逐漸驗證的過程中,新的命題出現(xiàn)了:如何有效產(chǎn)生數(shù)據(jù)?

引用DP回顧性文章中的段落:

第一性原理數(shù)據(jù)往往十分昂貴;利用第一性原理分子動力學(xué)產(chǎn)生的數(shù)據(jù)往往只能采樣到構(gòu)型空間相對小的區(qū)域。特別是當(dāng)人們準(zhǔn)備很多昂貴數(shù)據(jù)后,還是會發(fā)現(xiàn)由于數(shù)據(jù)不夠而導(dǎo)致模型訓(xùn)練不好。

這個時候, 想要有真正可靠的DP模型,我們就必須有一個自動化、漸進式改進模型的策略?;谶@個考慮,我們發(fā)展了DP-GEN。DP-GEN抽象了三個部分:

1. 基于當(dāng)前DP模型的探索,該探索服務(wù)于模型最終用途,可以是不同溫壓下的直接模擬、可以是一些增強采樣算法,等等;

2. 對于探索到的不夠準(zhǔn)的數(shù)據(jù),進一步進行打標(biāo)簽,即DFT計算能量和受力;

3. 將新的DFT數(shù)據(jù)加入已有數(shù)據(jù)集,通過進一步訓(xùn)練來得到更好的模型。

三個部分不斷循環(huán)迭代,模型也會不斷得到改進。當(dāng)DP-GEN收斂時,我們會得到可以可靠地服務(wù)于最終目的的DP模型,同時得到產(chǎn)生該模型的必要訓(xùn)練數(shù)據(jù)集。


【效果是什么】

去中心化的交叉驗證是一個積累信心的過程。

作為結(jié)果,大家考慮的點逐漸由“搞波數(shù)據(jù)、訓(xùn)個模型、做個應(yīng)用、發(fā)個paper”,變成了“怎樣能一勞永逸地用DP模型替代已有模型做我關(guān)心的體系”、“我關(guān)心的哪些領(lǐng)域難題可能可以被DP有效解決”等。

更重要的是,這么一個看似簡單的流程將不同尺度上做不同模擬、用不同軟件的人都聚在了一起。例如,在第一性原理計算這個環(huán)節(jié)有十多個電子結(jié)構(gòu)軟件,核心開發(fā)者顯然不會熟悉所有軟件。于是,社區(qū)中熟悉不同軟件且有用DP-GEN需求的人很自然地就成為了相應(yīng)功能的開發(fā)者和維護者。

【難點在哪里】

做DP-GEN的過程第一次讓一幫算法開發(fā)者和做各方向應(yīng)用的科學(xué)家們感受到了工程化的困難。

DP-GEN的算法想法很簡單,甚至學(xué)界呆慣了的人很容易不把它當(dāng)回事。但它卻有極為豐富的適配領(lǐng)域的變種,且作為一個循環(huán)迭代式的工作流,它在不同環(huán)節(jié)對算力規(guī)模、彈性的需求還不一樣。

這對我們抽象問題、定義接口的能力、彈性調(diào)度的能力、過程管理的能力都提出了挑戰(zhàn),這事實上也讓學(xué)界的用戶很難駕馭。這是不同領(lǐng)域人員協(xié)同的放大版。我們至今尚未能有信心地發(fā)布v1.0版本。

【誰是主角】

在這個過程中,領(lǐng)域?qū)<易兊迷絹碓街匾?,他們是定義問題的人,也是驗證模型、做深入應(yīng)用的人。

同時,更多工程化的主角呼之欲出。我也認清了核心開發(fā)者的一個新角色:做不同群體之間的橋梁。

做不同群體之間的橋梁,圖源:網(wǎng)絡(luò)

階段三:工程化——規(guī)模工程、數(shù)據(jù)工程、性能工程

這個階段要做的事情已經(jīng)逐漸明晰,但工程難度可謂越來越高。很多是我們在進行中、且迫切需要有工程經(jīng)驗的小伙伴支持的。我相信,對DP來說,這是眼下最具有挑戰(zhàn)性、也最激動人心的事情。

我把工程化需求簡要總結(jié)為三類:規(guī)模工程、數(shù)據(jù)工程、性能工程。這個分類未必是最好的,這里只是為了方便拋出問題。

【規(guī)模工程】

這部分寫給做云基礎(chǔ)設(shè)施、AI后臺支持的朋友們!DP-GEN這樣的科學(xué)計算工作流有怎樣的特點?它與CV/NLP等場景的active learning有點像,但最大的不同是,它實現(xiàn)了數(shù)據(jù)標(biāo)注和模型訓(xùn)練的計算閉環(huán),這里沒有數(shù)據(jù)標(biāo)注工!

這是一個循環(huán)式的工作流,在資源無限、理想調(diào)度能力下的典型模式是需要幾塊GPU花幾個小時訓(xùn)練,接著需要更多GPU做各種條件下的模擬演繹,然后需要近萬核CPU機器做電子結(jié)構(gòu)計算。

但是,在有限、類型單一的資源,特別是科學(xué)計算一般依托的超算集群上,這個過程很難高效。以下我回答兩個問題。

問題一,以前為什么這樣的需求不夠典型?DP-GEN對應(yīng)的是云上面向計算的彈性調(diào)度需求。科學(xué)計算本身是很大的需求,但是傳統(tǒng)的需求類型主要還是大規(guī)模高并行的高性能集群。近年來高通量計算也很火,但計算類型偏簡單、也不是持續(xù)性大規(guī)模的需求。AI+Science看起來是把高并行的高性能計算特點和高并發(fā)的云計算特點所代表的兩個極端的中間地帶填滿了,而且填的很均勻。未來類似邏輯的工作流將越來越多。

問題二,用云不挺好嗎?是的,我們發(fā)現(xiàn)了!從20年初開始,學(xué)界常用的高性能集群已經(jīng)滿足不了我們對DP Library(見下面“模型數(shù)據(jù)工程”部分)發(fā)展的訴求了。我們走上了上云之路。這個過程中,我們很感謝阿里云的支持。但與此同時,我們也意識到,當(dāng)時的我們所代表的科學(xué)計算群體跟云計算基礎(chǔ)設(shè)施還是不太匹配的。事實表明,這里面的gap還是得靠我們自己來填補。這么摸爬滾打的半年后,我們發(fā)現(xiàn)自己節(jié)省了巨大的成本,開心的不得了。再往后,“云原生”突然也成為了我們身邊非常熱的話題。

有了這樣的經(jīng)歷,我們逐漸認識到面向計算密集流程的云基礎(chǔ)設(shè)施是科學(xué)計算群體的公共需求。像DP-GEN這樣的模型生產(chǎn)、數(shù)據(jù)采樣的工作流將填滿從微觀到宏觀的各個尺度,而有了模型和計算引擎后,更多性質(zhì)計算和與實驗交互的工作流才開始對這個基礎(chǔ)設(shè)施真正提出挑戰(zhàn):從幾千臺機器的并發(fā)算力到逐漸幾萬、幾十萬的需求;從規(guī)范的建立到為開發(fā)者提供框架、組件、SDK。對于日志、容災(zāi)等一系列在業(yè)界有過很多實踐的話題,我們也有很多新的特點和需求。

這是“AI+Science”從創(chuàng)新到落地所不得不做的事情,我們需要對這件事感到激動的高手們的幫助!篇幅所限,我也挖個坑,把更多內(nèi)容留給未來的一篇文章,總結(jié)與小伙伴們的探索和實踐。

最后,更多性質(zhì)計算和與實驗交互的工作流設(shè)計是一個眼下的困難。前陣子我們想借用一些已有框架來做好基礎(chǔ)設(shè)施,然后向社區(qū)呼吁這件事。但是,我們發(fā)現(xiàn)自己低估了這件事的難度。沒有更多實踐,我們也很難抽象。因此,我們目前不得不再提前向社區(qū)呼吁這件事情的重要性,同時積累經(jīng)驗。在最近舉辦的首屆DeepModeling Hackathon里面,我們驚喜地發(fā)現(xiàn),有幾個相關(guān)項目還是做的挺不錯的。


【數(shù)據(jù)工程】

這部分寫給做AI算法工程、模型工程的朋友們!先說這個事是什么,再說這個事難在哪,再說為什么現(xiàn)在是好時候。

這個事情很直觀。設(shè)想五年后,對于每一個科學(xué)問題的研究、每一個材料/藥物設(shè)計的需求,人們還會從用DP-GEN產(chǎn)生模型、數(shù)據(jù)開始嗎?AI在很多領(lǐng)域的發(fā)展告訴我們,大數(shù)據(jù)和基于大數(shù)據(jù)產(chǎn)生的大模型,和小數(shù)據(jù)、小模型的玩法不一樣。

圖源:網(wǎng)絡(luò)

基于海量數(shù)據(jù)發(fā)展的預(yù)訓(xùn)練模型,將為下一步遷移、壓縮、反向設(shè)計等工作提供新的基礎(chǔ)。我們會搜數(shù)據(jù)庫,看有沒有直接滿足需求的數(shù)據(jù)集;即便沒有,我們也可以從已有數(shù)據(jù)和預(yù)訓(xùn)練模型出發(fā),做進一步的優(yōu)化。預(yù)訓(xùn)練的特征還可以幫助我們遷移到新的任務(wù)中,或者結(jié)合實驗進一步改進模型。

為了這件事情,我們一直在努力建設(shè)DP Library,將DP訓(xùn)練數(shù)據(jù)和模型收集在一起。

這個事情難在哪?難在領(lǐng)域跨度。

上述第二階段的領(lǐng)域?qū)<液瓦@里的模型工程所需要的專長非常不同。我們既要吸收GNN、attention這些新的招式,又要快速地在各個場景中通過一個個測試應(yīng)用驗證這些新的想法是否好使。

這里面的“各個”所代表的生物、化學(xué)、材料等方向的場景需求方也往往是語言不通的。這也造成DP Library里面很多關(guān)于數(shù)據(jù)、模型質(zhì)量的metric都很難確定。如果再加上其他各個尺度的需求,肉眼可見這會是未來發(fā)展的瓶頸。

為什么現(xiàn)在是好時候?兩點原因。

首先,做AI算法工程的朋友們漸漸開始關(guān)注科學(xué)計算領(lǐng)域了。DeepMind的alphafold2是個極端情況,但不得不說,像數(shù)據(jù)、模型和領(lǐng)域發(fā)展契合度那么好的話題真的不多(第一階段的DP也算一個)。我看到很多做AI算法工程的朋友將自己在CV/NLP等領(lǐng)域積累的聰明才智應(yīng)用于小分子homo-lumo gap、催化劑設(shè)計等打榜比賽的問題上,既興奮又郁悶。興奮于大家漸漸開始關(guān)注、了解、學(xué)習(xí)這方面的問題,郁悶于我覺得搞定那些比賽——特別是為小數(shù)點后幾位的事情排個一二三名——的意義有限。因為這樣產(chǎn)生的模型跟領(lǐng)域?qū)<业膽?yīng)用需求間有差距。我們需要一個模型工程師和行業(yè)專家的無縫交互接口。

所以,我這里的第二點原因是,我們想清楚并即將準(zhǔn)備好這個接口了:一個大數(shù)據(jù)集和一套測試接口。數(shù)據(jù)上,DP Library即將初具規(guī)模,數(shù)據(jù)豐富度即將有一個質(zhì)變。測試上,自動測試還是不夠的,但社區(qū)里的行業(yè)專家們積累了非常多的測試基準(zhǔn),我們也形成了很好的連接橋梁。自動化的模型工程和測試流程只是一個時間問題,有經(jīng)驗的AI算法工程師將大大加速這個時間階段。這是一個行業(yè)萌芽的起點!

【性能工程】

這部分寫給做高性能計算、軟硬件協(xié)同設(shè)計的朋友們!

對DP稍微了解的同學(xué)可能知道去年的一個大新聞,深度勢能團隊喜獲戈登貝爾獎。這個獎是高性能計算領(lǐng)域的最高獎。那篇新聞稿是我提前一個月寫好的。

其實在獎項還沒有公布的時候,我們準(zhǔn)備了DP進入獎項final list的新聞稿。但我們猶豫了很久,還是沒發(fā)這個稿。當(dāng)時我們認定,不管有沒有拿獎,都在獎項公布的第一時刻把我們最想說的話說出來:

「HPC+AI+Physical Models,這個方向大有可為!」

現(xiàn)在,我們更加地堅定了這一點。

深度勢能團隊獲得戈登貝爾獎,圖源:深勢科技

《深度勢能團隊喜獲戈登貝爾獎》這篇稿件最想說的是:

「站在這個時間節(jié)點上,展望未來:1)AI與HPC將助力解決更多的科學(xué)計算和生產(chǎn)實踐中的難題;2)新的范式下將誕生新的算法、新的軟件、新的高性能優(yōu)化任務(wù),甚至新的軟/硬件設(shè)計需求?!?/p>

又經(jīng)過快一年的時間,我們也有了更多的思考。

即便對于DeePMD-kit這樣走在最前面的“AI+Science”項目,我們也還有很長的路要走。

已經(jīng)有很多直接的工作發(fā)生在戈登貝爾獎之后了:

  • 模型壓縮算法讓訓(xùn)練好的模型在一鍵操作下不失精度地提速了一個數(shù)量級;

  • DeePMD-kit在各種不同的硬件平臺上的適配調(diào)優(yōu);

  • 一系列新feature的需求下即將完成大的版本更新等等。

此外,社區(qū)中一系列新玩法也呼吁著一些新方案,例如DP和經(jīng)典力場結(jié)合的分區(qū)域描述方法可能需要較好的動態(tài)負載均衡。

未來有兩件事將相伴相生,但也挑戰(zhàn)重重:

首先,算法端,既然模型工程是一路向前的,那么性能工程也得是緊密跟隨的。分布式訓(xùn)練、更豐富的模型壓縮蒸餾技術(shù)可能會成為下一步高性能優(yōu)化的重點。

其次,硬件端,正如AI的發(fā)展最終走向AI芯片一樣,隨著算法的固化和應(yīng)用場景的豐富化,軟硬件協(xié)同設(shè)計可能是不得不做的事情。這件事可能不屬于當(dāng)下,因為我們對算法、對已有硬件平臺、對最合適的中間框架的探索都還沒收斂。但是這件事很可能在不遠的將來。

想想Anton吧,那是21世紀初上一代分子動力學(xué)技術(shù)在生物體系上逐漸收斂后的最終產(chǎn)物。從08年,到14年,再到今年,Anton分子動力學(xué)專用機即將有3代。但是,隨著算法端和應(yīng)用端的劇烈變化,未來的Anton會不會適配、怎樣適配新的需求?按照Anton release的速度,這些事情可能在五六年后就要見分曉了。這真是激動人心的事情。

最后,說起性能工程,總有人問我對量子計算怎么看。我推薦下我寫的這篇文章吧。一句話總結(jié),我無比地擁抱量子計算的可能性,只不過我擁抱的方式是在當(dāng)下壓榨經(jīng)典方案的極限,為未來做好準(zhǔn)備。

階段四:面向產(chǎn)業(yè)場景的迭代演繹

這個階段與第二、三個階段會有overlap。從產(chǎn)業(yè)場景需求出發(fā),有很多事情需要提前做好準(zhǔn)備。

隨著第二、三階段的推進,越來越多的可能性正在被我們打開。例如,藥物對靶點的親和力會不會因此算的更準(zhǔn)?對電池正負極界面的動力學(xué)模擬會不會因此成為可能?我們期待的答案是“是的”,但我們需要做的遠不止實現(xiàn)這幾個功能。

這依舊是個接口設(shè)計和方案迭代的漫長過程。

我們的原則是,盡可能地實現(xiàn)最快、最大范圍的迭代。對于藥物設(shè)計行業(yè),計算機輔助藥物設(shè)計已經(jīng)有了上一代成熟的解決方案和較為廣泛的行業(yè)認知,所以我們做了SaaS(Software as a Service)化的藥物設(shè)計平臺Hermite,從而實現(xiàn)與從業(yè)人員的交互迭代;對于材料設(shè)計行業(yè),新能源材料設(shè)計剛剛涌現(xiàn)出旺盛的需求,但沒有像藥物那樣相對成熟的計算-實驗交互實踐,因此我們與需求最大的廠商做最直接的合作。

面向產(chǎn)業(yè)場景需求對算法和軟件工程人員來說是一件有一點點痛苦的事情,因為這里面的話語體系不一樣。但是,這條路只要趟通,就會變得十分有趣。對技術(shù)人員來說,這歸根結(jié)底會是一系列與模型優(yōu)化、性質(zhì)計算、數(shù)據(jù)處理、實驗相關(guān)的工作流設(shè)計問題。在開源社區(qū)積累的算法軟件和算力基礎(chǔ)設(shè)施上的實踐經(jīng)驗具有可復(fù)用性。

面向產(chǎn)業(yè)場景需求,最令我激動的莫過于實踐過程中一個個真實的問題將倒逼我們一路回歸到理論算法和算力的底層基礎(chǔ),激發(fā)新一輪的創(chuàng)新。這個在藥物自由能計算、材料缺陷性質(zhì)計算等場景已經(jīng)是在發(fā)生的事情了。

三、對AI+Science發(fā)展路徑的思考

用較長的篇幅回顧和展望DP項目的發(fā)展后,我們也試著總結(jié)和展望下整個AI+Science事業(yè)的發(fā)展之路。DP項目的發(fā)展是點動成線的過程。其他各個尺度的工具也會經(jīng)歷這個過程。我有幾個思考:

發(fā)展路徑,圖源:網(wǎng)絡(luò)

1. 早期發(fā)展階段。從真實需求出發(fā)往往是十分必要的:無論是算法發(fā)展驅(qū)動的需求、算力適配驅(qū)動的需求、還是場景落地驅(qū)動的需求。每個科學(xué)計算軟件的開發(fā)都是不小的工程,每個開發(fā)者和用戶真正想做的事不見得一致。但是,當(dāng)他們想做的事都指向同樣的一個眼下必須解決的問題時,這個問題就會成為真痛點問題。

大家往往在解決真痛點問題時才會同時迸發(fā)出戰(zhàn)斗力和創(chuàng)造力。這需要每個項目有鮮明的目標(biāo)定位和擁有強大自驅(qū)力的核心開發(fā)者。如果目標(biāo)定位不夠鮮明,就很難吸引“志同道合”的用戶和社區(qū)開發(fā)者;如果自驅(qū)力不夠強大,那么很多看似完不成但偉大的事情就沒有完成的可能了。這里我還是想大聲呼吁:這個痛點需求不是發(fā)文章、不是KPI!

2. 去中心的規(guī)?;炞C。如果開發(fā)者定義的痛點照顧到了很大一部分群體的需求,使得這部分群體人員能夠克服使用新工具的遷移成本嘗試起來,那么相應(yīng)的工具就走上了發(fā)展的快車道。這個時候最需要建立的,是開發(fā)者與各方向領(lǐng)域?qū)<抑g的橋梁。

3. 工程化。在這里,規(guī)模工程、數(shù)據(jù)工程、性能工程依舊缺一不可?;叵隓P相應(yīng)的挑戰(zhàn)是上一步“規(guī)模化驗證”和這一步的工程化的專家背景往往相去甚遠。但是,我們再回想下像有限元這樣的例子,一系列底層方法的工程化,不都是杰出的工程師們在巨大的需求下做到的事情嗎?隨著場景需求的指數(shù)級增加,AI+Science這波熱潮在迎來工程化的同時,也會對相應(yīng)知識體系產(chǎn)生大的沖擊。

尤記得一位業(yè)界大佬說:“無論哪件事,只要程序員群體撲上去,它的門檻一定會降下來?!币驗槲蚁嘈臕I+Science必將影響到人們的科研范式和工業(yè)體系,所以我相信,各個尺度的工具都將經(jīng)歷這個工程化的過程。

在各個尺度工具都有長足發(fā)展的同時,它們的組合也將更為有力地影響到它們的上下游。歸根結(jié)底我們走在一條打造新一代基礎(chǔ)設(shè)施的路上。

我們要做的要么是用數(shù)據(jù)改進模型,要么是基于模型的進一步控制或設(shè)計。AI給了我們模型函數(shù)和策略函數(shù)的表示及優(yōu)化能力。云將使得算力像電力一樣,讓做計算的人聚焦到計算的結(jié)果上;一系列不同尺度上的自動微分編程框架、高性能適配框架等的需求會革新現(xiàn)有的一切科學(xué)計算軟件;基于新引擎、實現(xiàn)不同目的的工作流將串聯(lián)起所有新的可能性。

到那一天,新一代工業(yè)設(shè)計系統(tǒng)與數(shù)字孿生,還只是可能嗎?

寫到這里,讓我來引用《工業(yè)軟件 無盡的邊疆:寫在十四五專項之前》中的內(nèi)容:

「發(fā)展工業(yè)軟件,要老老實實地從工具層開始。因為只有深磕工具層,才會發(fā)現(xiàn)數(shù)學(xué)的硬核,發(fā)現(xiàn)物理世界的基礎(chǔ)和自然科學(xué)。但除了數(shù)學(xué)基礎(chǔ)之外,還需要一些其它條件。

中科院計算數(shù)學(xué)所的創(chuàng)始人、計算數(shù)學(xué)的奠基人馮康先生,是國際公認的有限元權(quán)威。而在目前國際上大會和學(xué)術(shù)文章,有限元方面一定都缺不了中國人諸多身影。可以說中國是有限元大國,但在有限元CAE分析的商業(yè)化軟件,卻基本無所作為。為什么?

因為這就涉及到工業(yè)軟件的第二個特性,用戶側(cè)的知識反哺。工業(yè)軟件是用戶用出來的,用則進,不用則廢。而用戶要真正介入,還要依賴工業(yè)軟件的第三個特性:協(xié)同生態(tài)。

好的軟件,一定是有一群豐富的組件、插件、接口做配合,還有大量的模型庫、參數(shù)庫、物性庫等。廚房里如果只剩下一桶油,再多的蔬菜如何能做出好吃的大餐?沒有數(shù)學(xué)基礎(chǔ),就沒有軟件;沒有用戶哺育,就沒有商業(yè)產(chǎn)品;沒有協(xié)同生態(tài),就沒有產(chǎn)業(yè)化規(guī)模。

三者相互鎖定,無法單一開鎖。而目前中國工業(yè)軟件的現(xiàn)狀是,底部中空無根基,大學(xué)基礎(chǔ)研究十分缺乏;軟件廠家身羸弱,沒有造血能力;用戶無心陪小弟,拿來主義趕快車;協(xié)同舢板不成局,國內(nèi)廠家仍然是單打獨斗,缺乏組件與生態(tài)的配合。國外軟件已經(jīng)進入平臺協(xié)同的階段,基本已經(jīng)登上了連輪子都帶了鋼刀的希臘戰(zhàn)車,而國內(nèi)依然是各自為政。

可以說,四大頑疾不破,工業(yè)軟件難進。因此,發(fā)展工業(yè)軟件,一定要著眼于對工業(yè)軟件的全景認識,才能了解它完全迥異于其它‘砸腳的產(chǎn)品‘……工業(yè)軟件開發(fā)者需要耐得住寂寞,而遠景的規(guī)劃也需要滴灌潤土。不是捅破天,而是扎透地,這恐怕是工業(yè)軟件突破的唯一原則。」


AI+Science意味著新的數(shù)學(xué)工具串聯(lián)起更多物理模型的有效求解,這意味著工具層的顛覆!朋友們,還有比現(xiàn)在更好的機會嗎?


四、不對稱性與不確定性

最后我們談?wù)剠f(xié)同問題。

在AI+Science這項事業(yè)中,不光是物理問題面臨著“維度災(zāi)難”,軟、硬件工程與在此基礎(chǔ)之上的商業(yè)模型也面臨“維度災(zāi)難”。

或許更本質(zhì)的是,在這個鼓勵個體差異化、信息快速傳遞、關(guān)系錯綜復(fù)雜的世界里,面向某個愿景的有效協(xié)同模式都面臨著巨大的“維度災(zāi)難”。所謂的組織架構(gòu)和協(xié)同模式的設(shè)計對應(yīng)到微觀個體,也就像設(shè)計原子間相互作用的模型。不過這個模型的優(yōu)化不能放在監(jiān)督學(xué)習(xí)的框架內(nèi)。它更像是在定義好組織愿景、洞察好個人激勵后的強化學(xué)習(xí)問題。

信息不對稱,圖源:網(wǎng)絡(luò)

這里面的不對稱性和不確定性意味著什么?在很長時間里我一直覺得信息不對稱是一個組織最需要解決的問題。想想這蠻有道理,信息差太多、信息流不通往往是組織走向無效的起點。

然而,信息對稱就解決問題了嗎?把所有信息廣播給所有人是不是有效的?比信息不對稱更難的問題是認知不對稱。信息像是數(shù)據(jù),而認知像是處理器。信息的產(chǎn)生、傳播、接收、解讀是需要時間和能量的。

有相同知識背景的人可以通過很不花時間且很低能量的方式進行協(xié)同,但當(dāng)大家認知不對稱時,“信息對稱”也就變成了“你以為的信息對稱”。

舉個例子,在很長一段時間里,我知道我們需要最優(yōu)秀的工程師、需要最優(yōu)秀的藥物、材料設(shè)計的從業(yè)人員,但我需要懂他們的語言才能有效傳遞我想向他們傳遞的信息,才能讓他們產(chǎn)生興趣。其實我們基本不可能對所有事情都實現(xiàn)“認知對稱”(那會是擁有腦機接口后的人類的未來嗎?),但我覺得只要對“認知對稱”這個概念有足夠深刻的認知對稱,一個組織中每個個體就能真正有效地處理信息,知道在不同情況下如何處理信息,是自己私下處理,還是發(fā)起局域討論,還是拉響全局警報。也只有這樣,一個組織的個體之間才能相互欣賞各自的閃光點、和而不同、產(chǎn)生有效碰撞。

AI+Science是我看到的涉及學(xué)科最多的一項事業(yè)。理論基礎(chǔ)需要數(shù)理化,工程沉淀需要計算機,與各個應(yīng)用領(lǐng)域走向數(shù)字孿生的未來需要各行各業(yè)深刻的實踐。這里面需要有經(jīng)濟學(xué)的頭腦、政治學(xué)的智慧,需要有對商業(yè)本質(zhì)和長期價值的思考。

我不由得感慨,那個更廣義的AI是不是能把這些事情處理的更漂亮。我不知道這個問題的答案,但我很清楚的是,這是一個打破認知不對稱的過程,這是一個突破個體認知邊界、解放個體生產(chǎn)力的過程,這是一個重構(gòu)知識體系、重構(gòu)協(xié)同方式、磨合每個個體間交互接口的過程。

這個過程也是一個充滿不確定性的過程。一個偉大的愿景往往具有兩個特點,一個是偉大,另一個是實現(xiàn)難度極高。

這里有一個算法的不確定性、工程化的不確定性、商業(yè)化的不確定性,這里有一切外部因素帶來的不確定性。

對此,似乎最應(yīng)景的是我在深勢科技半年會上分享的標(biāo)題:“如果你的反應(yīng)不是退縮,而是激動”,哈哈哈。

在此處不如推薦一本名為《正見》的書,并摘錄其中的一段話:


......恐懼和焦慮是人類心智中主要的心理狀態(tài)。恐懼的背后是對確定性不斷的渴求。我們對未知感到恐懼。人心對肯定的渴望,是根植于我們對無常的恐懼。


當(dāng)你能夠覺察不確定性,當(dāng)你確信這些相關(guān)聯(lián)的成分不可能保持恒常與不變時,就能生起無畏之心。


你會發(fā)現(xiàn),自己真正能準(zhǔn)備好面對最壞的狀況,同時又能容許最好的發(fā)生。你會變得高貴而莊嚴。這種特質(zhì)能增強你的能力,不論是在工作、作戰(zhàn)、談和、組織家庭,或是在享受愛和情感關(guān)系。


知道下個轉(zhuǎn)彎處就有某件事等著你,接受從此刻起有無限的可能存在,你將學(xué)會運用遍在的覺性和預(yù)見的能力,如同英明的將軍一般,胸有成竹,毫不驚慌。


五、總 結(jié)

在今年5月6號我們發(fā)表的《DeepModeling社區(qū)宣言》中,首段寫道:

機器學(xué)習(xí)與物理建模的結(jié)合正在改變著科學(xué)研究的范式。那些希望通過計算建模突破科學(xué)邊界、解決困難問題的人們正在以前所未有的新方式集結(jié)起來。他們需要新的基礎(chǔ)設(shè)施——新的協(xié)作平臺,新的代碼框架,新的數(shù)據(jù)處理手段,新的算力使用方式;他們需要新的文化——追求通力協(xié)作、惠及大眾;追求知識與工具的自由交流與分享;追求尊重并欣賞相互的成就、和而不同。DeepModeling社區(qū)是這樣的一群人的社區(qū)。


對過去幾年實踐的思考讓我對“基礎(chǔ)設(shè)施”的構(gòu)想變得更為具象。而對不對稱性和不確定性的思考,則讓我更深刻地認識到我們需要怎樣的文化。

張林峰:做一個牧羊少年,圖源:深勢科技

擁抱開放,擁抱當(dāng)下,擁抱不確定性。從顛覆工具層、到惠及全人類,如果你的反應(yīng)不是退縮,而是激動,那么AI+Science的事業(yè)很可能適合你、我們很可能適合一起做一個牧羊少年。

戈登貝爾獎獲得者張林峰:「AI + Science」的路徑思考的評論 (共 條)

分享到微博請遵守國家法律
建德市| 清丰县| 本溪| 吴忠市| 收藏| 冷水江市| 兴化市| 大埔县| 酒泉市| 海阳市| 丁青县| 宁城县| 汾阳市| 芦山县| 连山| 周至县| 中山市| 新河县| 封丘县| 中西区| 古丈县| 泗洪县| 通河县| 南汇区| 乐清市| 武乡县| 深圳市| 新竹市| 文成县| 潼关县| 黄陵县| 龙门县| 垫江县| 日照市| 平舆县| 长沙市| 汉阴县| 华宁县| 英德市| 南木林县| 罗平县|