龔海鵬:AlphaFold2與結(jié)構(gòu)生物學
近年來,受益于人工智能和深度學習技術(shù)的快速發(fā)展以及結(jié)構(gòu)生物學數(shù)據(jù)的大量積累,蛋白質(zhì)結(jié)構(gòu)預(yù)測的方法學取得了突破性的進展。2020年舉辦的第14屆蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽CASP14中,Google DeepMind團隊開發(fā)出的人工智能算法AlphaFold2(簡稱AF2)震驚了世界,對競賽的目標蛋白的預(yù)測精度GDT_TS分數(shù)超過了90%,意味著對其中很多蛋白所預(yù)測的結(jié)構(gòu)與實驗結(jié)構(gòu)非常接近,RMSD在1-2埃以內(nèi)。2021年7月15日,DeepMind團隊在Nature雜志發(fā)表論文,詳細描述了AF2的設(shè)計思路,并提供了可運行的開源代碼。同一天,David Baker 團隊在Science雜志發(fā)表論文,提出了采用類似設(shè)計思路的RoseTTAFold算法及其開源代碼。隨后,DeepMind團隊使用AF2預(yù)測了多個物種中共30余萬個無實驗結(jié)構(gòu)的蛋白質(zhì)的結(jié)構(gòu)模型,并聯(lián)手EBI建立了結(jié)構(gòu)預(yù)測數(shù)據(jù)庫AFDB。這一系列成果的出現(xiàn)吸引了科學界的大量關(guān)注,大家眾說紛紜。一方面,施一公教授等頂級結(jié)構(gòu)生物學家甚至宣稱AF2本世紀最重要的科學突破;另一方面,也有科學家對AF2預(yù)測的精度提出質(zhì)疑。此外,有很多人認為實驗結(jié)構(gòu)生物學會成為昨日黃花,逐漸退出歷史舞臺。本文中對此現(xiàn)象做出一些個人解讀。
撰文 | 龔海鵬(清華大學生命科學學院副教授、博士生導師、北京結(jié)構(gòu)生物學高精尖創(chuàng)新中心研究員)
01AF2的重要性和創(chuàng)新性
根據(jù)Anfinsen法則,蛋白質(zhì)的氨基酸序列決定其三維結(jié)構(gòu),同時三維結(jié)構(gòu)又是蛋白質(zhì)行使其生物學功能的基礎(chǔ)。因此,研究蛋白質(zhì)序列和結(jié)構(gòu)間關(guān)系的蛋白質(zhì)折疊問題是生物物理領(lǐng)域最重要的基礎(chǔ)問題之一,困擾了科學界50年之久。由于蛋白質(zhì)序列和結(jié)構(gòu)之間屬于高維到高維的映射關(guān)系,傳統(tǒng)上采用數(shù)學或物理的方法都無法解決這一問題。近年來,隨實驗技術(shù)的進步,通過新一代測序技術(shù)和蛋白質(zhì)晶體學以及冷凍電鏡等結(jié)構(gòu)生物學方法,積累了大量的蛋白質(zhì)序列和結(jié)構(gòu)信息,為使用人工智能技術(shù)研究序列-結(jié)構(gòu)間關(guān)系打下了良好基礎(chǔ)。從2016年舉辦的CASP12競賽開始,各種深度學習技術(shù)廣泛應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域,引發(fā)了結(jié)構(gòu)預(yù)測準確度的快速提升。AF2是其中的集大成者,采用了不同于以往方法的全新算法設(shè)計,具有極高的創(chuàng)新性。從生物物理角度看,AF2設(shè)計的神經(jīng)網(wǎng)絡(luò)架構(gòu),特別是Evoformer架構(gòu)中序列信息與氨基酸殘基相互作用圖譜間的迭代優(yōu)化,與蛋白質(zhì)折疊的物理機理隱隱吻合。同時,模型第一次成功地實現(xiàn)了端對端的精準結(jié)構(gòu)預(yù)測,以序列比對為輸入,不經(jīng)過中間步驟,直接預(yù)測三維結(jié)構(gòu)坐標。此外,能顯著提高預(yù)測水平的recycling和self-distillation等技術(shù)也是首次應(yīng)用于結(jié)構(gòu)預(yù)測領(lǐng)域,體現(xiàn)了工程設(shè)計優(yōu)化對方法學發(fā)展的重要性。因此,無論是從方法設(shè)計的角度還是從性能的角度看,AF2都體現(xiàn)了人工智能方法和生物物理思想的完美結(jié)合,不失為近年來最重要的科學突破之一。

02AF2的局限性
受限于算法和硬件,AF2在實用中還有一定的局限性。首先,DeepMind團隊使用AF2算法對近期(2018年4月30日至2021年2月15日)新解析出的一萬余條蛋白質(zhì)序列進行了結(jié)構(gòu)預(yù)測。雖然其中近一半的蛋白預(yù)測精度較高,RMSD95(覆蓋95%殘基的RMSD)在2埃以內(nèi),但是仍有許多蛋白的預(yù)測結(jié)果不佳,比如近20%的蛋白其RMSD95超過8埃。眾所周知,依托結(jié)構(gòu)的機理研究和藥物開發(fā)等往往需要高精度的結(jié)構(gòu)模型,誤差在2埃以上的預(yù)測模型對真實應(yīng)用沒有指導作用。因此,針對這些蛋白,仍然需要采用實驗結(jié)構(gòu)生物學方法進行結(jié)構(gòu)解析。其次,AF2在預(yù)測時嚴重依賴GPU顯存,即使使用目前市面上最好的A100顯卡,在進行單卡預(yù)測時該算法也僅能處理2500殘基以內(nèi)的蛋白序列。如果使用CPU進行預(yù)測則會嚴重影響算法的運行效率,而且隨蛋白殘基數(shù)越多,對內(nèi)存的壓力越大。當前的AF2程序還無法像單顆粒冷凍電鏡一樣解析出超大型復(fù)合體的結(jié)構(gòu)。第三,AF2的輸入信息來源于多重序列比對(MSA),而非單純的氨基酸序列。多重序列比對相當于自然界以進化的方式做的實驗,其中含有許多額外的信息。根據(jù)測算,當不使用MSA而僅使用目標蛋白的單序列信息時,AF2的預(yù)測精度大幅度下滑。因此AF2還不能算是完全解決了序列和結(jié)構(gòu)間的映射關(guān)系。最后,AF2等結(jié)構(gòu)預(yù)測方法目前僅能預(yù)測特定氨基酸序列的一種構(gòu)象。蛋白質(zhì)在行使生物學功能時往往需要發(fā)生構(gòu)象變化。比如酶從失活狀態(tài)轉(zhuǎn)變?yōu)榛钚誀顟B(tài)、膜轉(zhuǎn)運蛋白需要通過構(gòu)象變化交替接觸膜兩側(cè)的溶液、蛋白和配體結(jié)合時發(fā)生構(gòu)象變化等等。在實驗結(jié)構(gòu)生物學方法中,冷凍電鏡、核磁共振、小角散射和單分子等技術(shù)都可以在一定程度上捕捉結(jié)構(gòu)的動態(tài)特征,揭示構(gòu)象變化過程。目前的AF2還不具有這樣的能力??梢钥吹剑捎谝陨暇窒扌?,AF2至少在目前階段還無法取代實驗結(jié)構(gòu)生物學的地位。

03AF2為新一代結(jié)構(gòu)生物學的發(fā)展提供契機
即便有以上的局限性,AF2的提出仍屬于重要的科學突破。同時AF2將會成為實驗結(jié)構(gòu)生物學的重要工具,并推動相關(guān)領(lǐng)域的進一步發(fā)展。首先,冷凍電鏡等實驗生物學研究的前提是目標蛋白的表達和提純,因此往往在天然蛋白質(zhì)序列中引入點突變,以穩(wěn)定蛋白的結(jié)構(gòu)(比如把目標蛋白鎖定在一種主要構(gòu)象中)。在缺乏結(jié)構(gòu)信息時,突變位點的設(shè)計往往以經(jīng)驗為主,費時費力。AF2可以快速預(yù)測蛋白的結(jié)構(gòu),為突變位點的設(shè)計提供重要的結(jié)構(gòu)信息作為參考?;诮Y(jié)構(gòu)的突變位點設(shè)計顯然更有針對性,比如相對于蛋白結(jié)構(gòu)的內(nèi)部殘基,表面的殘基的突變往往不容易破壞結(jié)構(gòu)的穩(wěn)定性。其次,AF2預(yù)測的結(jié)構(gòu)可以作為實驗結(jié)構(gòu)生物學的初始結(jié)構(gòu)模型,輔助最終的結(jié)構(gòu)建模。比如,X射線晶體衍射實驗往往由于缺乏相位信息無法建立結(jié)構(gòu)模型,已有研究表明,AF2預(yù)測的結(jié)構(gòu)可以提供重要的相位信息,從而有效輔助蛋白質(zhì)晶體學家快速解析結(jié)構(gòu)。再比如,單顆粒冷凍電鏡結(jié)構(gòu)解析中二維圖像的分類對最終模型的建立至關(guān)重要,但是目前的算法要先依賴經(jīng)驗進行初始分類再迭代優(yōu)化。AF2預(yù)測的結(jié)構(gòu)顯然可以對二維圖像的分類提供重要的理論指導,從而進一步優(yōu)化電鏡結(jié)構(gòu)模型的建模。第三,AF2預(yù)測的結(jié)構(gòu)可以提供初始坐標作為蛋白質(zhì)結(jié)構(gòu)動態(tài)研究的基礎(chǔ)。冷凍電鏡斷層掃描、核磁共振、小角散射以及單分子熒光等實驗可以快速獲取蛋白質(zhì)的部分結(jié)構(gòu)特征用于表征或描述蛋白質(zhì)的結(jié)構(gòu)動態(tài)變化,但是這些方法或者只能得到低分辨率的結(jié)構(gòu)信息(如冷凍電鏡斷層掃描),或者完全缺失結(jié)構(gòu)細節(jié)(如小角散射和單分子熒光),或者需要復(fù)雜冗長的實驗流程才能得到結(jié)構(gòu)細節(jié)(如核磁共振)。顯然,AF2預(yù)測的結(jié)構(gòu)可以為這些方法補充缺失的結(jié)構(gòu)信息。最后,有了AF2預(yù)測的結(jié)構(gòu),分子動力學模擬等計算化學方法也會有更廣泛的應(yīng)用。傳統(tǒng)的分子動力學模擬計算需要以可靠的結(jié)構(gòu)作為模擬起始點,因此很難用于研究未知結(jié)構(gòu)蛋白。AF2則大大擴展了分子動力學模擬計算的研究范圍,從而對分子機理的研究、蛋白質(zhì)設(shè)計和藥物設(shè)計等提供重要的輔助作用。

綜上所述,以AF2為代表的新一代蛋白質(zhì)結(jié)構(gòu)預(yù)測方法將會成為結(jié)構(gòu)生物學的重要補充,并推動整個結(jié)構(gòu)生物學領(lǐng)域的進一步發(fā)展。在新的形式下,需要充分利用蛋白質(zhì)結(jié)構(gòu)預(yù)測算法提供的信息對結(jié)構(gòu)生物學的研究模式進行新的探索。

作者簡介


龔海鵬博士分別于1997年和2000年于清華大學生物科學與技術(shù)系(后改為生命科學學院)獲得學士以及碩士學位,后前往美國約翰霍普金斯大學攻讀博士學位,師從George Rose教授,并于 2007年獲得生物物理學博士學位。隨后,其加入芝加哥大學Tobin Sosnick教授實驗室從事博士后研究。2009年,其返回清華大學任教至今,現(xiàn)為清華大學生命科學學院副教授、博士生導師、北京結(jié)構(gòu)生物學高精尖創(chuàng)新中心研究員。其實驗室專注于與蛋白質(zhì)結(jié)構(gòu)相關(guān)的計算研究和方法開發(fā),包括蛋白質(zhì)結(jié)構(gòu)預(yù)測、定量分析生物大分子的大尺度構(gòu)象變化等研究。
本文經(jīng)授權(quán)轉(zhuǎn)載自微信公眾號“結(jié)構(gòu)生物學高精尖創(chuàng)新中心”。