ProtTrans: Towards Cracking the Language of Life’s Code Through
計算生物學(xué)和生物信息學(xué)從蛋白質(zhì)序列中提供了大量的數(shù)據(jù)資源,非常適合使用自然語言處理中的語言模型。這些語言模型以低推理成本跨越新的預(yù)測領(lǐng)域。在這里,我們使用來自UniRef和BFD的數(shù)據(jù),其中包含高達(dá)3930億個氨基酸,對兩個自回歸模型(Transformer-XL,XLNet)和四個自編碼器模型(BERT,Albert,Electra,T5)進行了訓(xùn)練。我們使用5616個GPU和高達(dá)1024個核心的TPU Pod在Summit超級計算機上進行了訓(xùn)練。通過降維技術(shù),我們發(fā)現(xiàn)來自未標(biāo)記數(shù)據(jù)的原始蛋白質(zhì)語言模型嵌入捕獲了蛋白質(zhì)序列的一些生物物理特征。我們驗證了將這些嵌入作為獨占輸入用于后續(xù)任務(wù)的優(yōu)勢。第一個任務(wù)是對蛋白質(zhì)二級結(jié)構(gòu)進行每個殘基的預(yù)測(3種狀態(tài)的準(zhǔn)確度Q3為81%-87%);第二個任務(wù)是對蛋白質(zhì)亞細(xì)胞定位進行每個蛋白質(zhì)的預(yù)測(10種狀態(tài)的準(zhǔn)確度Q10為81%)和膜內(nèi)與水溶性(2種狀態(tài)的準(zhǔn)確度Q2為91%)的預(yù)測。對于每個殘基的預(yù)測,最具信息的嵌入(ProtT5)首次在不使用進化信息的情況下勝過了最先進的技術(shù),從而避免了昂貴的數(shù)據(jù)庫搜索。綜合而言,結(jié)果表明蛋白質(zhì)語言模型學(xué)到了生命語言的某些語法規(guī)則。為了促進未來的研究,我們在https://github.com/agemagician/ProtTrans上發(fā)布了我們的模型。

深度學(xué)習(xí)(DL)近來與高性能計算(HPC)齊頭并進,取得了科學(xué)領(lǐng)域的新突破。更強大的超級計算機[1],[2]和先進的庫[3],[4],[5],[6],[7]使得能夠使用高級處理單元(包括圖形處理單元(GPU)和張量處理單元(TPU))在更大的數(shù)據(jù)集上訓(xùn)練更復(fù)雜的模型。
通過上下文化的語言模型(LMs)[8],[9],自然語言處理(NLP)從HPC的進展中受益良多。特別是變形金剛[10]已經(jīng)在多個任務(wù)[11],[12]上達(dá)到了最先進的性能(SOA)。標(biāo)注的局限不會限制LMs:自監(jiān)督訓(xùn)練完全依賴輸入的順序,例如通過重建周圍序列中的錯誤標(biāo)記。訓(xùn)練完成后,我們可以從LMs中提取一些學(xué)習(xí)到的信息,稱為嵌入。遷移學(xué)習(xí)指的是使用這些嵌入作為接下來訓(xùn)練的有監(jiān)督模型的輸入的思想。這兩個步驟將計算量較大的LM預(yù)訓(xùn)練外包給了HPC基礎(chǔ)設(shè)施,將計算量較小的推理留給了通用硬件。
蛋白質(zhì)是生命的機器,由20個不同的基本化學(xué)構(gòu)件(稱為氨基酸)組成。像串珠一樣,這些氨基酸以一維(1D)序列被串在一起(連接后稱為殘基)。這些1D序列采用獨特的三維(3D)結(jié)構(gòu)(稱為蛋白質(zhì)3D結(jié)構(gòu)),而這些3D結(jié)構(gòu)執(zhí)行特定的功能(常被簡化為序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能)。與實驗蛋白質(zhì)結(jié)構(gòu)相比,我們知道更多數(shù)量級的蛋白質(zhì)氨基酸序列(序列-結(jié)構(gòu)差距)[14]。了解蛋白質(zhì)結(jié)構(gòu)有助于理解其功能。通過基于人工智能(AI)的預(yù)測方法,更一般地說,通過填補序列注釋差距是計算生物學(xué)和生物信息學(xué)面臨的關(guān)鍵挑戰(zhàn)之一。通過遷移學(xué)習(xí)利用大量未標(biāo)記數(shù)據(jù)可能成為彌合這些差距的關(guān)鍵。
計算生物學(xué)中的頂級預(yù)測方法[15],[16],[17],[18],[19],[20]結(jié)合了機器學(xué)習(xí)(ML)和進化信息(EI),最早被證明是預(yù)測蛋白質(zhì)二級結(jié)構(gòu)[21],[22]的優(yōu)勝策略,有兩個步驟。首先,搜索總結(jié)為多序列比對(MSA)的一系列相關(guān)蛋白質(zhì)家族,并提取這個比對中所包含的進化信息。其次,通過監(jiān)督學(xué)習(xí)將進化信息輸入到ML中,利用結(jié)構(gòu)或功能的隱含約束。在預(yù)測未經(jīng)實驗證明的蛋白質(zhì)時,這些方法僅利用在訓(xùn)練模型中隱含的實驗信息。由于所有其他信息都源自序列的知識,因此這些方法除了廣泛可得的EI之外,不需要其他附加的輸入信息,這與生物序列數(shù)據(jù)庫的快速增長有關(guān)[23],[24]。然而,使用EI也有一些代價。首先,在預(yù)測整個蛋白質(zhì)組(組織中的所有蛋白質(zhì))時,為所有蛋白質(zhì)編譯EI是計算上昂貴的[25]。其次,并非所有蛋白質(zhì)都有可用的EI(內(nèi)在無序蛋白質(zhì)[26]或暗蛋白質(zhì)[27])。第三,當(dāng)EI最多樣化時,改進效果最好[28],[29]。第四,基于EI的預(yù)測在某種程度上平均了整個家族的特征,可能不能區(qū)分同一家族中兩個不同蛋白質(zhì)之間的差異。最新的、可以說是有史以來最大的一次蛋白質(zhì)結(jié)構(gòu)預(yù)測飛躍,即AlphaFold2,是基于EI和ML的先進組合[30]。盡管該方法在預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)時達(dá)到了前所未有的精確度,但AlphaFold2模型的計算成本比編制EI要高出幾個數(shù)量級。
通過先進的LMs,NLP的飛躍已經(jīng)成功地推廣到了通過在蛋白質(zhì)上訓(xùn)練的先進LMs來理解生命語言[31],[32],[33],[34],[35],[36],[37],[38],[39]。類似于NLP,這些方法將整個蛋白質(zhì)序列解釋為一個句子,將其組成部分(氨基酸)解釋為單個單詞。蛋白質(zhì)序列限制為采用特定的優(yōu)化了特定功能的3D結(jié)構(gòu)。這些約束反映了NLP中的語法和含義規(guī)則。由于LMs直接從單個蛋白質(zhì)序列中提取特征,它們可能在不使用EI的情況下達(dá)到SOA的性能。
在這個名為ProtTrans的項目中,我們追求了兩個目標(biāo)。首先,我們探索了在蛋白質(zhì)上訓(xùn)練的語言模型以及用于訓(xùn)練的蛋白質(zhì)序列數(shù)據(jù)庫的擴展限制。其次,我們比較了自回歸和自編碼預(yù)訓(xùn)練對后續(xù)有監(jiān)督訓(xùn)練成功的影響,并將這里訓(xùn)練的所有LMs與使用進化信息(EI)的現(xiàn)有SOTA解決方案進行了比較[40]。
