顏寧點(diǎn)評AlphaFold2 + 外行買家秀:蛋白結(jié)構(gòu)預(yù)測神器初體驗
顏寧點(diǎn)評AlphaFold2 + 外行買家秀:蛋白結(jié)構(gòu)預(yù)測神器初體驗
去年年末,谷歌公司旗下DeepMind團(tuán)隊研發(fā)的AlphaFold2人工智能系統(tǒng)在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP)上取得驚人的準(zhǔn)確度,多數(shù)預(yù)測模型與實(shí)驗測得的蛋白質(zhì)結(jié)構(gòu)模型高度一致,引起舉世矚目。《返樸》曾發(fā)表多位相關(guān)領(lǐng)域科學(xué)家的評論. 時隔半年,7月16日,DeepMind在《自然》雜志上發(fā)文,公開了進(jìn)一步優(yōu)化的AlphaFold2源代碼并詳細(xì)描述了其設(shè)計框架和訓(xùn)練方法。幾天后,DeepMind又發(fā)布了由AlphaFold預(yù)測的蛋白結(jié)構(gòu)數(shù)據(jù)庫,免費(fèi)提供給全球科研人員開發(fā)使用。對此,《返樸》總編、結(jié)構(gòu)生物學(xué)家顏寧提出了自己的見解。

最近這次AlphaFold帶來的震撼其實(shí)不如第一次大,因為有了上一次的突破,現(xiàn)在這個結(jié)果基本是水到渠成。對比了一下鈉離子通道的結(jié)構(gòu)——預(yù)測的部分與電鏡已經(jīng)解析的部分吻合得還行,但沒有任何homology model(同源模型)的部分,比如電鏡結(jié)構(gòu)里看不到的部分,在預(yù)測的結(jié)構(gòu)里依然是一團(tuán)無序的圈圈。
AlphaFold毫無疑問是對整個生物學(xué)的一場變革,而不局限在結(jié)構(gòu)生物學(xué)領(lǐng)域。但它并不是結(jié)構(gòu)生物學(xué)的終點(diǎn),而是可以把結(jié)構(gòu)作為起點(diǎn)去做更多的東西。生命在于運(yùn)動——分子層面的運(yùn)動是冷凍電鏡技術(shù)革命之后結(jié)構(gòu)生物學(xué)新的重點(diǎn)。以我的科研為例,我們的目標(biāo)并不是要獲得研究對象的折疊信息,而是要解析其處于不同工作狀態(tài)的精準(zhǔn)構(gòu)象信息,以此來理解它的工作機(jī)理和致病機(jī)理。
短短幾天,學(xué)界針對AlphaFold已經(jīng)形成兩派:做超級復(fù)合物的嘆為觀止,做膜蛋白的,比如我,感覺幫助不大,并且誤差較大。這是為什么?
有人認(rèn)為,是因為膜蛋白有脂水兩相;有人認(rèn)為,是因為膜蛋白本身解出來的可靠數(shù)據(jù)少,不夠供AI訓(xùn)練;還有評論說,是因為膜蛋白靜態(tài)簡單,動態(tài)復(fù)雜;超級復(fù)合物則相反,而AlphaFold強(qiáng)在靜態(tài)蛋白結(jié)構(gòu)預(yù)測。
膜蛋白的折疊有著相對復(fù)雜的脂分子環(huán)境,一旦缺少可靠的模型,AlphaFold所預(yù)測的蛋白質(zhì)折疊可能大體正確,但在具體構(gòu)象上與實(shí)驗數(shù)據(jù)有較大的差距。而決定膜蛋白復(fù)雜功能的,不是它相對簡單的折疊模式,而是精細(xì)的構(gòu)象變化。
AI最大的挑戰(zhàn),將會是在未來。關(guān)于分子的動態(tài)研究、動態(tài)預(yù)測、動態(tài)模擬等等,其實(shí)還有很多問題都值得解決。在上次AlphaFold橫空出世的時候我就說過,希望AI下一步可以解決分子動力學(xué)模擬對于很多生物過程無能為力的問題。那就繼續(xù)期待AlphaDynamics吧?
——顏寧

撰文 | 繼省
最近一周以來,生物醫(yī)藥圈子被AlphaFold v2.0刷屏,每天打開微信朋友圈,都能看到至少一半的新消息與它有關(guān)。這款由谷歌旗下人工智能公司 DeepMind團(tuán)隊開發(fā)的蛋白三維結(jié)構(gòu)預(yù)測程序,在2020年的蛋白結(jié)構(gòu)盲測比賽CASP中一騎絕塵獨(dú)領(lǐng)風(fēng)騷;而這次研發(fā)團(tuán)隊把全部代碼任性地開放,并把Uniprot*上大部分代表性蛋白序列都給預(yù)測了一遍。
*UniProt是一個免費(fèi)使用的蛋白質(zhì)序列與功能信息數(shù)據(jù)庫。
與此同時,蛋白設(shè)計領(lǐng)域的大神David Baker課題組參考AlphaFold的思路,利用他們長期在蛋白質(zhì)設(shè)計領(lǐng)域的優(yōu)勢推出了一款同類軟件RosettaFold。后者雖然不如AlphaFold覆蓋全面,但在一些代表性的蛋白結(jié)構(gòu)預(yù)測上已經(jīng)可以與之媲美,并且對計算資源的占用更少。
我偶爾也會八卦:是不是RosettaFold的良性競爭壓力促成了AlphaFold的全面開源?總之,一時間結(jié)構(gòu)生物學(xué)、人工智能、合成生物學(xué)還有生物醫(yī)藥投資等多個領(lǐng)域的研究者開始了熱烈的討論。
但熱鬧是他們的,我只關(guān)心我課題里的蛋白能不能利用這兩個程序的某一個來凹個造型,哦不對,預(yù)測個結(jié)構(gòu)。
對于絕大多數(shù)實(shí)驗生物學(xué)從業(yè)者來說,我們在實(shí)驗室中研究某個蛋白功能之后,常想進(jìn)一步了解一下它們的空間結(jié)構(gòu),這樣就能夠更好地理解和詮釋我們在實(shí)驗中看到的一些現(xiàn)象,也可以針對空間結(jié)構(gòu)去開發(fā)設(shè)計一些藥物,來阻斷蛋白的功能?!?dāng)然,這部分設(shè)計需要另外的專家。
AlphaFold把預(yù)測結(jié)果以數(shù)據(jù)庫的形式公開在了網(wǎng)絡(luò)上。對于只想薅羊毛的用戶,不啻天外福音。于是我興致勃勃地打開了它的預(yù)測結(jié)果查詢網(wǎng)站(alphafold.ebi.ac.uk)。

我一看,直接輸入蛋白或者基因名就可以了,非常符合我這種不懂結(jié)構(gòu)生物學(xué)和人工智能的選手。
好,先來一個試試。以前讀博士時,經(jīng)常研究一種叫beta-catenin的蛋白,這是一個在脊椎動物個體發(fā)育和癌癥等多個生物學(xué)過程里都非常重要的蛋白。輸入蛋白名稱后,得到25條結(jié)果,對應(yīng)人、大鼠、小鼠、斑馬魚等多個模式物種。這25條當(dāng)然不是現(xiàn)在地球上已知叫beta-catenin的全部蛋白,但能有模式物種的結(jié)果,就很有代表性了。

排在第一位的鏈接,是人的beta-catenin。就可以看到一個五顏六色的三維結(jié)構(gòu)——不同顏色代表著AlphaFold預(yù)測的可靠性,深藍(lán)色和淺藍(lán)色代表AlphaFold對預(yù)測模型很有信心,而橙色和黃色代表他們也不太確信??梢钥吹?,beta-catenin蛋白中間12個像彈簧一樣的alpha螺旋,這類連在一起的alpha螺旋有個諢名叫Armadillo repeat,得名于動物犰狳(Armadillo,如下圖)。

(https://dfwwildlife.org/)

怎么樣,這兩家伙還挺像吧?
但是預(yù)測出來這個犰狳重復(fù)并不出奇——PDB數(shù)據(jù)庫*現(xiàn)已發(fā)表數(shù)個人類beta-catenin結(jié)構(gòu),說明這段序列比較穩(wěn)定,換言之就是供AlphaFold學(xué)習(xí)訓(xùn)練的知識比較充沛,它預(yù)測也比較容易。反倒是這段重復(fù)區(qū)域的前后兩端(N端和C端)還各有近百個氨基酸,至今沒有穩(wěn)定的結(jié)構(gòu)問世(當(dāng)然,可能蛋白本身在這個區(qū)域就屬于比較混沌無序的),而AlphaFold的模型里,在N端(氨基端)和C端(羧基端)也同樣分?jǐn)?shù)很低,并沒有顯著改善。
*PDB,全稱Protein Data Bank,是目前最主要的收集蛋白質(zhì)三維結(jié)構(gòu)的數(shù)據(jù)庫。
再試驗一個我現(xiàn)在導(dǎo)師課題組里研究多年的膜蛋白TGFBR2,這是一個受體酪氨酸激酶,既是膜受體又是激酶,同樣沒有全長結(jié)構(gòu)問世。同樣的流程,找到人TGFBR2,打開結(jié)構(gòu)后是下面的情形:這個蛋白明顯出現(xiàn)了三個分?jǐn)?shù)比較高的區(qū)域,包括靠近N端的配體結(jié)合區(qū),中間的跨膜區(qū),和C端的激酶區(qū),從序列上看,和目前人們對這一蛋白的功能認(rèn)識很吻合。而畫面中橙黃色低分區(qū)域,也同樣是PDB已有結(jié)構(gòu)里缺失信息的部分。

單從這兩個例子看來,AlphaFold的確可以復(fù)現(xiàn)科學(xué)家實(shí)驗得到的蛋白結(jié)構(gòu)。尤其是這個激酶區(qū),套用網(wǎng)上流行的俏皮話來說,不說非常相似吧,簡直是一模一樣。

左圖:AlphaFold預(yù)測的TGFBR2結(jié)構(gòu)(中間為激酶區(qū)),下方的深綠色模塊對應(yīng)上方高亮的激酶區(qū);右圖:PDB數(shù)據(jù)庫上的代表性TGFBR2激酶區(qū)結(jié)構(gòu),是實(shí)驗得到的結(jié)構(gòu)數(shù)據(jù)。
當(dāng)然了,說一模一樣太夸張,還是有細(xì)微差別的。最重要的一點(diǎn),右側(cè)實(shí)驗得到的結(jié)構(gòu)里有一個化學(xué)小分子結(jié)合到蛋白上,這是一種生理調(diào)控下的蛋白狀態(tài);蛋白在有無化合物結(jié)合、不同化合物結(jié)合的狀態(tài)下都會呈現(xiàn)不同的細(xì)微變化,而正是這些變化才體現(xiàn)了蛋白質(zhì)的多樣而神奇的功能。在這一點(diǎn)上,AlphaFold給出了一個單一的最優(yōu)解,是無法覆蓋蛋白質(zhì)的千姿百態(tài)的。
但即便如此,AlphaFold也是做到了此前人們無法想象和做到的事情。
做了兩個測試之后,自然就想到,如果隨意給一段序列,能否輕松地得到一個結(jié)構(gòu)模型呢?畢竟這才是AlphaFold最讓人興奮的地方。AlphaFold的正式運(yùn)算需要的資源非常龐大,個人或者小團(tuán)隊如果家里沒礦的話,想自己搭平臺運(yùn)算基本沒戲;好在谷歌提供了一個免費(fèi)的云端平臺Colab(https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb),可以運(yùn)行精簡版的AlphaFold。平臺入口就在AlphaFold數(shù)據(jù)庫的底端FAQ里。

AlphaFold Colab界面
這個云端平臺解放了硬件,只要你準(zhǔn)備好了要預(yù)測的氨基酸序列就可以了。當(dāng)然運(yùn)算方法比完整的AlphaFold要“簡陋”一些。但聊勝于無,要啥自行車呢?
結(jié)構(gòu)預(yù)測前的準(zhǔn)備工作有三步:第一步連接平臺,第二步安裝第三方軟件,第三步下載AlphaFold。連接平臺需要登錄(似乎只能用谷歌賬號,不太確定國內(nèi)的同行們能否使用),安裝軟件和下載AlphaFold只需點(diǎn)一下鼠標(biāo),各需2-3分鐘。當(dāng)真是哪里不會點(diǎn)哪里,So easy!

下面進(jìn)入正式預(yù)測環(huán)節(jié),我用的是系統(tǒng)輸入框里自帶的序列(長約70個氨基酸,經(jīng)我查證這是某種細(xì)菌里的未命名蛋白)。同樣是三步,第一步把冰箱門打開把序列輸進(jìn)去;第二步搜庫,也就是看看已知結(jié)構(gòu)里有沒有序列和輸入序列相似的;第三步給出一個最優(yōu)解。晚上做到搜庫時,系統(tǒng)顯示要幾十分鐘,我就去睡覺了。結(jié)果早上醒來發(fā)現(xiàn),搜是搜完了,但因為長時間沒有動作,系統(tǒng)把我踢下來了,我又要重新開始。然而不管我是重新搜庫,還是從頭裝軟件,到了搜庫這一步總是遇到同一個模塊丟失的錯誤。憑我相當(dāng)有限的編程知識,我重啟了一下電腦,解決了

。經(jīng)過了約半小時的搜庫和約15分鐘的計算建模之后,我得到了一個很漂亮的回形針蛋白,從圖中可以看到,可信度還是比較高的。


后來我咨詢了一位懂編程的朋友,他告訴我可以把每一步的代碼粘在一起,這樣就不用手動一步一步地點(diǎn)擊觸發(fā)程序了。而且可以把Colab綁定谷歌云盤,這樣就有更多的存儲空間可以用了。這可能是懂編程的人們都知道的事情。要不咋說我是外行買家秀呢。
在AlphaFold搜庫的半小時里,我還探索了一下RosettaFold。華盛頓大學(xué)David Baker實(shí)驗室課題組搭建并公開的這個服務(wù)器每周都能吸引超過5000條計算任務(wù),我用Colab上的示范序列來測試RosettaFold的預(yù)測效果,提交了任務(wù)之后發(fā)現(xiàn)前面還有3000個任務(wù)在排隊,且等著吧。從運(yùn)算時效上來看,還是AlphaFold Colab更快。有意嘗鮮且手里有實(shí)驗數(shù)據(jù)的朋友,不妨兩個平臺都試試。
前面我在AlphaFold數(shù)據(jù)庫里檢索的beta-catenin和TGFBR2兩個蛋白,其實(shí)屬于已知結(jié)構(gòu)的蛋白了,Uniprot上有大量尚無PDB結(jié)構(gòu)的蛋白條目,在AlphaFold上都有預(yù)測結(jié)果。比如AlphaFold數(shù)據(jù)庫首頁搜索框下方的示例Q8W3K0,這是一種存在于模式植物擬南芥里的蛋白,可能具有抗病作用。AlphaFold預(yù)測出來的結(jié)果驚艷到我了,蛋白好漂亮!難怪無數(shù)俊男美女投身到蛋白結(jié)構(gòu)解析的大軍中,這真的是門藝術(shù)。

At1g58602蛋白預(yù)測結(jié)構(gòu)(UniProt編號Q8W3K0)
以上就是我簡單的體驗經(jīng)歷。從我不成熟也不算專業(yè)的角度來看,AlphaFold對結(jié)構(gòu)生物學(xué)家的沖擊可能不大:一來,蛋白的無序區(qū)域(指不能形成穩(wěn)定三維結(jié)構(gòu)的區(qū)域)涉及氨基酸分子的自由運(yùn)動,個中規(guī)律仍然需要結(jié)構(gòu)生物學(xué)家去揭秘;二來,很多重要的生理病理性蛋白(如離子通道蛋白),在不同的活性狀態(tài)下都會有很精妙的構(gòu)象變化(conformational change),在細(xì)胞內(nèi)外也會因為和各種各樣的其他蛋白結(jié)合而呈現(xiàn)出千變?nèi)f化的空間構(gòu)象。以AlphaFold目前僅用蛋白本身序列作為輸入信息的算法邏輯,至少還不能熟練應(yīng)對上面提到的幾種情形。
但AlphaFold的問世,本身就是一件打破常規(guī)超乎想象的創(chuàng)舉,我們有理由期待這個工具會不斷進(jìn)化,持續(xù)給我們驚喜。如顏寧老師所說,也許在不久的將來,隨著人們對蛋白質(zhì)分子動力學(xué)知識的加深,引入分子動力學(xué)模擬的AlphaDynamics會橫空出世,來預(yù)測出同一個蛋白的多個穩(wěn)定構(gòu)象。而對廣義的實(shí)驗生物學(xué)家來說,AlphaFold無疑提供了一個全新又容易上手的虛擬驗證平臺——設(shè)計一款融合蛋白,一個全新的小肽,或是給自己中意的蛋白制造幾個氨基酸突變,拿AlphaFold的預(yù)測結(jié)果和實(shí)驗結(jié)果相互佐證,會讓本就刺激的工作更加有趣,也可以為AlphaFold未來的進(jìn)化提供了更多真實(shí)數(shù)據(jù)。
未來可期!愿大家折疊快樂!