手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學習 » 科學觀察 | 人工智能驅(qū)動的科學研究新范式: 從?AI4S?到智能科學

科學觀察 | 人工智能驅(qū)動的科學研究新范式: 從?AI4S?到智能科學

2023-05-09 16:05 作者:中國科學院院刊 0人讀過 | 我要投稿

王飛躍1????繆青海2

1 中國科學院自動化研究所? 復雜系統(tǒng)管理與控制國家重點實驗室

2? 中國科學院大學? 人工智能學院

摘要

近期，以?ChatGPT?為代表的大模型技術(shù)正開啟人類社會智能化的新紀元。研究人工智能成功案例背后的技術(shù)原理，探索人工智能驅(qū)動的科學研究（AI for Science，AI4S）新范式，對促進我國科技進步、增強國家競爭力具有十分重要的意義。文章首先以數(shù)學、物理學、生物學、材料科學領(lǐng)域為例，簡述?AI4S?的研究進展。其次，面向近年來最為成功的人工智能范例，分析?AlphaFold?和?ChatGPT?的基本原理和關(guān)鍵技術(shù)。最后，在以上分析的基礎(chǔ)上，從算法、模型、數(shù)據(jù)、知識、人的因素等角度，總結(jié)大模型時代人工智能技術(shù)發(fā)展新趨勢，探討?AI4S?研究新范式。

在全球迎來前所未有之大變局的時代背景之下， ChatGPT?在?2022?年底一經(jīng)推出便掀起新一輪人工智能（AI）浪潮。以?ChatGPT?為代表的大模型技術(shù)影響空前深遠，正推動?AI?技術(shù)從特定應用和游戲等領(lǐng)域進入人們?nèi)粘Ｉ?，成為切切實實的生產(chǎn)力工具，人類社會的智能化革命已經(jīng)拉開帷幕。

圖靈獎得主?Jim Gary?認為科學研究經(jīng)歷了經(jīng)驗范式、理論范式、計算范式、數(shù)據(jù)驅(qū)動范式等?4?種范式。當前，許多科學家認為科學研究正在迎來新的范式，即第五范式。第五范式以虛實交互、平行驅(qū)動的 AI 技術(shù)為核心，以智聯(lián)網(wǎng)和區(qū)塊鏈構(gòu)建基礎(chǔ)，以融入人的價值和知識為手段，開啟以人機共融為特征的科學研究新時代。在產(chǎn)業(yè)方面，第五范式也稱為工業(yè)?5.0。而?AI?驅(qū)動的科學研究（AI for Science，AI4S），更是新范式在基礎(chǔ)科研的深度體現(xiàn)。

近期，科學技術(shù)部會同國家自然科學基金委員會啟動“人工智能驅(qū)動的科學研究”（AI for Science）專項部署。本文通過概述?AI4S?發(fā)展現(xiàn)狀、分析典型?AI?應用范例，進一步探討?AI4S?范式創(chuàng)新之路。

一??AI4S?發(fā)展現(xiàn)狀簡述

近幾年來，在深度學習等?AI?技術(shù)的推動下，AI4S?在數(shù)學、物理學、生物醫(yī)學、材料科學等領(lǐng)域取得了許多令人矚目的成績。

（1）?數(shù)學領(lǐng)域

2017?年以來，科學家嘗試使用機器學習、ResNet、seq2seq?模型等技術(shù)求解偏微分方程，獲得了更快更準的結(jié)果。2021?年，DeepMind開發(fā)了啟發(fā)數(shù)學家直覺靈感的機器學習框架，幫助數(shù)學家和?AI?研究人員在?Knots?理論方面發(fā)現(xiàn)新定理，證明了已提出?40?年之久的?Kazhdan-Lusztig?多項式。2022?年?10?月，同樣是?DeepMind?在?Nature?發(fā)文，推出在?AlphaZero（前身是著名的?AlphaGo）基礎(chǔ)上開發(fā)的AlphaTensor，并通過強化學習找到了矩陣相乘的最快算法。DeepMind?的系列工作，為?AI?驅(qū)動的數(shù)學研究（AI for Math）提供了可供參考的新范式。

（2）?物理領(lǐng)域

AI?方法除了用于實驗數(shù)據(jù)處理和分析之外，還幫助科學家設(shè)計實驗、優(yōu)化參數(shù)。20世紀?90?年代，高能與核物理學界就使用神經(jīng)網(wǎng)絡(luò)和符號?AI?輔助研究。2014?年，人工神經(jīng)網(wǎng)絡(luò)贏得了?ATLAS?實驗中識別希格斯玻色子的挑戰(zhàn)。2015?年，歐洲核子研究組織?CERN?成立了機器學習工作組來處理大型強子對撞機（LHC）產(chǎn)生的海量數(shù)據(jù)。2022?年2?月，DeepMind?在?Nature?上發(fā)表了其工作：通過深度強化學習對托卡馬克等離子體進行磁控。2022?年?8?月，物理學家使用人工神經(jīng)網(wǎng)絡(luò)找到了質(zhì)子中存在隱性內(nèi)含粲夸克（intrinsic charm quarks）的證據(jù)，這一發(fā)現(xiàn)可能會改寫量子色動力學的教科書。

（3）生物醫(yī)學領(lǐng)域

AlphaFold?是?AI4S?領(lǐng)域最成功的代表。從?2016?年開始，DeepMind?構(gòu)建?AI?系統(tǒng)來挑戰(zhàn)蛋白質(zhì)三維結(jié)構(gòu)預測任務。AlphaFold?將預測誤差縮小到原子尺度，而計算時間從數(shù)年縮減到數(shù)分鐘，顯著提升了效率。DeepMind?宣布其?2?億個蛋白質(zhì)結(jié)構(gòu)預測向世界各地的科學家提供開放訪問，這對加速藥物研究具有重大意義。除?AlphaFold?外，華盛頓大學開發(fā)的?RoseTTAFold、中國科學技術(shù)大學研發(fā)的?SCUBA等模型，也在該領(lǐng)域不斷突破。

（4）材料科學領(lǐng)域

2011?年，美國提出“材料基因組計劃”（MGI），旨在解碼材料的不同組成成分和性能的對應關(guān)系，借助高通量計算、大數(shù)據(jù)、AI?等技術(shù)，有效縮短了材料研發(fā)周期、降低了研發(fā)成本。2016?年?Nature?發(fā)布了美國哈弗福德學院和普渡大學的研究成果，科研人員利用機器學習算法，用“失敗”的實驗數(shù)據(jù)預測了新材料合成，這啟示機器學習等?AI?技術(shù)成為材料科學的重要研究方式。

正如我們所見，AI?在科學研究中的角色隨著深度學習的繁榮而發(fā)生了變化。早期，AI?方法只是作為輔助工具，幫助分析實驗數(shù)據(jù)。如今，AI?方法已成為更復雜任務（如定理證明、結(jié)構(gòu)設(shè)計和知識發(fā)現(xiàn)）實現(xiàn)過程中的關(guān)鍵技術(shù)。AI?還在不斷拓展學科領(lǐng)域，“人工智能驅(qū)動的科學研究”專項部署重點面向數(shù)學、物理學、化學、天文學等基礎(chǔ)學科，必將為這些學科快速發(fā)展帶來新契機。

二?熱點背后的AI范式分析

在算法、數(shù)據(jù)、算力三大引擎的驅(qū)動下，深度學習時代下的?AI?研究進展迅速，AlphaGo、AlphaFold、ChatGPT?等成為?AI?發(fā)展歷史上一座座里程碑。分析這些案例特點，總結(jié)成功經(jīng)驗，對于?AI?后續(xù)的創(chuàng)新和應用具有十分重要的啟發(fā)意義。

2.1?AlphaFold?研究范式

DeepMind?推出的?AlphaFold?系列是?AI4S?的最成功的代表之一，尤其是第二代?AlphaFold2?在?2020?年全球蛋白質(zhì)結(jié)構(gòu)預測比賽（CASP14）中拔得頭籌，蛋白質(zhì)三維結(jié)構(gòu)預測準確性接近實驗結(jié)果。AlphaFold2?的目標是根據(jù)輸入的一維氨基酸序列預測蛋白質(zhì)的三維結(jié)構(gòu)，其成功可以歸因于領(lǐng)域知識與深度學習前沿技術(shù)的融合。

從深度學習的角度來看，AphaFold?2?有?3?個亮點。

①AlphaFold?2?淘汰了第一代所采用的卷積神經(jīng)網(wǎng)絡(luò)（CNN）特征提取結(jié)構(gòu)，替換為基于注意力機制的性能更強的Evoformer。

②AlphaFold?2?不是簡單的單向處理流程，而是采用了循環(huán)迭代優(yōu)化。

③AlphaFold?2?同時使用帶標簽和未帶標簽的數(shù)據(jù)進行網(wǎng)絡(luò)訓練，并融入含噪自蒸餾處理。整體來看，AlphaFold?2?是一個包含多種算法和學習策略的系統(tǒng)化方法。

從知識融合的角度來看，相對于神經(jīng)網(wǎng)絡(luò)模型層面的創(chuàng)新，多元知識的表示和融合在?AphaFold?2?中扮演著更為關(guān)鍵的角色。

①蛋白質(zhì)結(jié)構(gòu)預測是一個專業(yè)方向，科學家通過數(shù)十年的研究積累了寶貴的知識和數(shù)據(jù)。ApphaFold?2?使用了?2?種類型的數(shù)據(jù)集：一種是序列數(shù)據(jù)集，如?UniRef?90、BFD、MGnify?等?；凇巴晃恢玫陌被嵩谖锓N間是不變的，2?個不同位置的氨基酸同步變化”這一領(lǐng)域知識，AlphaFold?2?從遺傳序列數(shù)據(jù)庫中搜索并構(gòu)建多序列比對（MSAs），而?MSA?的質(zhì)量決定了 ApphaFold?2?的預測準確性；另一種是結(jié)構(gòu)數(shù)據(jù)集，如?PDB?和?PDB70?等。ApphaFold?2?從這些結(jié)構(gòu)數(shù)據(jù)集中搜索并構(gòu)建殘基之間關(guān)系的配對（pair）表示。通過這種方式，一維氨基酸序列通過領(lǐng)域知識和數(shù)據(jù)集進行擴充，形成?2?個二維關(guān)系表示。

②Evoformer?接收?MSA?和?Pair?表示，在行、列?2?個維度進行注意力計算，完成?2?種表示的交叉融合。需要注意的是，在配對（pair）表示的注意力計算中引入了幾何知識，即氨基酸之間的距離要滿足三角不等式約束。

③在結(jié)構(gòu)預測模塊中，利用三維空間結(jié)構(gòu)平移和旋轉(zhuǎn)等變的知識，ApphaFold?2?引入了不動點注意力（IPA）計算。根據(jù)?IPA?輸出的殘基相對位移和旋轉(zhuǎn)，AlphaFold?2?進一步預測原子的空間位置。

④引入?OpenMM?中的?Amber?力場優(yōu)化工具，以確保輸出的三維結(jié)構(gòu)滿足立體化學約束。

從對?AphaFold?2?研究范式的分析可以看出，其特點是深度學習技術(shù)與各類知識的有機融合，涵蓋了知識、數(shù)據(jù)、算法、算力這?4?種第三代?AI?的核心要素。因此，圍繞深度學習，研究知識獲取、知識表示、知識集成、知識利用，即知識自動化方法，探索“知識-學習”協(xié)同組織形式，開發(fā)協(xié)助?AI4S?研究的系統(tǒng)化基礎(chǔ)框架，應當?shù)玫?AI?界和科學界的共同重視和大力投入。

2.2 ChatGPT?研發(fā)范式

自?2022?年?11?月起，ChatGPT?掀起新一輪?AI?全球浪潮。ChatGPT?因其能夠進行多輪對話、承認錯誤、反駁錯誤前提和拒絕回答不恰當?shù)膯栴}而享有盛譽。ChatGPT?在回答問題的準確性和邏輯完整性方面超越了現(xiàn)有的聊天機器人，在遵守道德、倫理、法律方面也有很好的表現(xiàn)。ChatGPT?是?OpenAI?近年來研發(fā)的一系列?GPT?模型在對話場景的實例，有?3?個技術(shù)特征。

（1）ChatGPT?基于大規(guī)模預訓練語言模型，即著名的?GPT-3?系列（GPT-3.5）

在過去的幾年里，大規(guī)模的預訓練模型發(fā)展迅速。大規(guī)模預訓練模型通過學習大量的公開數(shù)據(jù)，將學習到的知識存儲在大規(guī)模參數(shù)之中，不斷刷新多個領(lǐng)域中多數(shù)任務的最高性能紀錄，是通向通用人工智能的可行路徑。

（2）ChatGPT?使用人類反饋強化學習（RLHF）在?GPT-3.5?上進行微調(diào)

微調(diào)是包含?2?個數(shù)據(jù)集的過程，共有?3?步：第一步，由?2?個?AI?訓練師基于給定采樣提示（prompt）通過對話生成人類演示數(shù)據(jù)集，用于?GPT-3.5?微調(diào)訓練，結(jié)果稱為有監(jiān)督微調(diào)模型（SFT）。第二步，通過?AI?培訓師和聊天機器人之間的對話收集比較數(shù)據(jù)集，對?SFT?模型輸出的多個結(jié)果，由?AI?培訓師給出從最好到最差的打分排序。之后，用這個排序數(shù)據(jù)集訓練強化學習的獎勵模型，此過程也是有監(jiān)督的方式。第三步，使用近端策略優(yōu)化（PPO）算法，由獎勵模型生成?reward，通過強化學習進一步微調(diào)?SFT?模型。第二步和第三步重復多次，最后得到?PPO?模型，即?ChatGPT。

（3）GPT?模型按照“開發(fā)-部署”的理念迭代完善

將初步開發(fā)完成的模型部署上線，為用戶提供測試服務，由此收集用戶與模型的交互數(shù)據(jù)作為進一步優(yōu)化模型的基礎(chǔ)。開發(fā)（學習）和部署（應用）形成閉環(huán)，這種迭代優(yōu)化策略在降低語言模型誤用風險方面起著至關(guān)重要的作用。

ChatGPT?范式再次展示了預訓練大型模型的強大功能，凸顯了人類在引導大模型遵循人類規(guī)則方面的重要作用。由此可見，針對大模型的微調(diào)、上下文學習、指示學習、提示學習是?AI?的重要研究方向。

三?探索?AI4S?研究新范式

AI?本身的研究范式也在不斷轉(zhuǎn)變。自?AI?誕生之初，人們基于幾個基本假設(shè)（如獨立同分布、Markov屬性等），使用初級方法（如?Perceptron等）解決簡單的問題（如簡單的二元分類、回歸等），并由此產(chǎn)生了?3?種基本范式——監(jiān)督學習、無監(jiān)督學習和強化學習。但面對復雜問題時，這些基本范式存在局限性。因此，隨著新的算法（BP?算法、分層訓練等）和模型（CNN、長短期記憶人工神經(jīng)網(wǎng)絡(luò)?LSTM?等）的出現(xiàn)，AI?逐漸發(fā)展出主動學習、遷移學習、終身學習等新范式。近年來，AlphaGo?和?ChatGPT?等前沿進展以其革命性的成就引領(lǐng)了新一輪的范式轉(zhuǎn)變。從范式轉(zhuǎn)變的角度看待人工智能的發(fā)展，對促進探索?AI4S?創(chuàng)新應用具有重要價值，為此，以下從算法、模型、數(shù)據(jù)、知識、人的角色等方面進行分析。

3.1 算法

算法是人工智能的基石。典型?AI?新范式中使用的算法不僅限于機器學習，還涉及整個人工智能領(lǐng)域，包括搜索和推理。例如，AlphaGo?的主干是蒙特卡洛樹搜索（MCTS）算法。近年來出現(xiàn)的新算法，例如受熱力學啟發(fā)的擴散模型（Diffusion Model），在AI生成內(nèi)容（AIGC）領(lǐng)域顯示出巨大潛力。由此可以看出，Science for AI?對?AI?算法創(chuàng)新也具有重要意義，應得到同?AI4S?一樣的重視。

3.2 模型

機器學習模型的創(chuàng)新是推動人工智能發(fā)展的核心要素。尤其是神經(jīng)網(wǎng)絡(luò)新架構(gòu)：從?M-P?模型到?Perceptron，從?LeNet?到?ResNet，從?LSTM?到?Transformer。AlphaGo?以?CNN?為主干網(wǎng)絡(luò)，用于提取棋局特征、輔助走棋決策和棋局評估。AlphaFold?2?用Transformer（EvoFormer）替換?CNN?模型，這是其性能相比第一代有巨大提升的主要原因之一。ChatGPT?建立在基礎(chǔ)模型（GPT-3）之上，充分利用了大規(guī)模預訓練語言模型的力量。利用大模型的規(guī)模效應，研究利用?prompt?等方法引導大模型釋放內(nèi)在能力，是?AI4S?重要方向之一。

3.3 數(shù)據(jù)

數(shù)據(jù)是深度學習的三大核心驅(qū)動力之一，但存在標簽數(shù)量少、標注成本高、分布不平衡、隱私保護等問題。主動學習、溯因?qū)W習、對比學習、平行學習和遷移學習等學習范式，能夠在一定程度上克服數(shù)據(jù)標注的不足；而多任務學習、遷移學習、元學習和終身學習，在一定程度上能克服不同任務之間存在數(shù)據(jù)不平衡問題；聯(lián)邦學習可用來解決數(shù)據(jù)安全和隱私問題。

新范式在數(shù)據(jù)的使用方面有更多亮點，Syn2Real和?Sim2Real?等數(shù)據(jù)生成方法得到越來越多的重視。例如，AlphaGo?首先在人類棋局上訓練策略，通過自我對弈產(chǎn)生更多的數(shù)據(jù)來訓練更強大的策略網(wǎng)絡(luò)，進而產(chǎn)生更多的數(shù)據(jù)來訓練強大的價值網(wǎng)絡(luò)。AlphaFold?充分利用遺傳數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù)，還通過自蒸餾的方式使用未標注數(shù)據(jù)來彌補標注數(shù)據(jù)的不足。ChatGPT?使用人類的演示數(shù)據(jù)來微調(diào)?GPT-3.5，并通過?prompt?在聊天機器人和?AI?訓練師之間生成更多的數(shù)據(jù)，進一步訓練獎勵模型將數(shù)據(jù)生成過程自動化。這些范式具有一個共同特征，即它們在缺乏標記數(shù)據(jù)時嘗試生成數(shù)據(jù)以提高性能。

3.4 知識

AI?基本范式很少顯式引入知識，但在模型設(shè)計（如?CNN）時引入的歸納偏置（inductive bias）也可以看作是先驗知識。中級范式通常有?3?種引入知識的方式：

①直接（如主動學習）或間接（如課程學習）通過學習策略的設(shè)計來提高學習性能；

②使用從先前任務或其他任務（數(shù)據(jù)）中學到的知識來幫助新的學習任務。例如，多任務學習、遷移學習、元學習、平行學習等；

③整合上述?2?種方法，設(shè)計并維護一個專門的知識庫來輔助學習過程。例如，終身學習和溯因?qū)W習等。

目前，大多數(shù)機器學習范式都采用知識的嵌入表示，以便將知識融合到學習過程中；但其中有?2?個例外，即終身學習和歸納學習，它們具有獨立的知識庫。我們還發(fā)現(xiàn)反饋對于學習中的知識獲取、整合和自動化至關(guān)重要。高級范式高度依賴知識，例如，AlphaGo?首先利用人類棋手的經(jīng)驗（可看作一種知識）訓練策略網(wǎng)絡(luò)，然后利用圍棋規(guī)則（也是一種知識）通過強化學習改進策略，進一步通過自我對弈生成大量棋局。AlphaFold?整合了生物學家的發(fā)現(xiàn)，以及來自遺傳學、數(shù)學和化學領(lǐng)域的知識，這種高級范式是知識密集型的代表，為?AI4S?的進一步研究提供重要參考。ChatGPT?的基礎(chǔ)是大規(guī)模預訓練語言模型（GPT3），可以看作是從海量數(shù)據(jù)中提煉出來的隱性知識庫，而提示工程（prompt engineering）是引導大模型生成內(nèi)容并對齊到人類會話風格、倫理和規(guī)范的過程。

運用知識的能力很大程度上決定了學習能力。然而，將知識整合到機器學習的過程中具有很大挑戰(zhàn)，知識的獲取、表示、集成、利用等環(huán)節(jié)通常需要人類的參與?！叭斯ぶ悄茯?qū)動的科學研究”專項部署強調(diào)圍繞藥物研發(fā)、基因研究、生物育種、新材料研發(fā)等需求，而知識融入在這些專業(yè)性強的?AI4S?領(lǐng)域中作用尤為突出。為此，將大模型打造為知識工廠，研究服務于科學家的知識自動化方法，將是推動高效?AI4S?的重要保障。

3.5 人的因素

在深度學習之前，依賴于人類專家的特征工程在?AI?研究中起著決定性的作用。特征工程既費時又低效，而深度學習解決了這個問題。深度神經(jīng)網(wǎng)絡(luò)能夠自動、準確、高效地提取特征，由此，端到端學習模型越來越受歡迎。然而，在某些應用中，人扮演著重要的角色，如提出要求、設(shè)定目標、提供知識、實施控制、執(zhí)行評估等。因此，端到端學習不是最終目標，不能簡單地將人類從機器學習過程中移除。人類在環(huán)（human-in-loop）模式的價值在?ChatGPT?的成功中顯而易見，其中來自人類反饋的強化學習（RLHF）發(fā)揮了關(guān)鍵作用。

除以上因素之外，開展?AI4S?研究的組織方式也是不可回避的重要問題。當前，國際上多種針對產(chǎn)品開發(fā)的?DAO（分布式開放自主組織）和針對基礎(chǔ)研究的?DeSci（分布式開放科學運動）正蓬勃興起，特色就是利用智能科學與技術(shù)（IST），基于區(qū)塊鏈和智能合約的數(shù)字組織和數(shù)字治理。ChatGPT?的誕生本質(zhì)上也是得益于這種模式，DeSci?和?DAO?也值得我們關(guān)注。