最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ProtGPT2 is a deep unsupervised language model for protein desig

2023-07-05 13:37 作者:Aster的小號(hào)  | 我要投稿

蛋白質(zhì)設(shè)計(jì)的目標(biāo)是構(gòu)建定制化的新型蛋白質(zhì),以解決許多環(huán)境和生物醫(yī)學(xué)問(wèn)題。最近,基于Transformer的架構(gòu)的進(jìn)展使得語(yǔ)言模型能夠生成具有人類化能力的文本。在這里,受到這一成功的啟發(fā),我們介紹了ProtGPT2,這是一個(gè)在蛋白質(zhì)空間上訓(xùn)練的語(yǔ)言模型,可以按照自然規(guī)律生成全新的蛋白質(zhì)序列。生成的蛋白質(zhì)顯示出自然氨基酸的偏好,并且無(wú)序預(yù)測(cè)表明,在ProtGPT2生成的蛋白質(zhì)中,88%是球狀的,與自然序列一致。在蛋白質(zhì)數(shù)據(jù)庫(kù)中進(jìn)行敏感序列搜索顯示,ProtGPT2序列與自然序列有一定的遠(yuǎn)緣關(guān)系,而相似性網(wǎng)絡(luò)進(jìn)一步證明ProtGPT2正在對(duì)蛋白質(zhì)空間中未被探索的區(qū)域進(jìn)行采樣。AlphaFold對(duì)ProtGPT2序列的預(yù)測(cè)顯示,它們具有完全折疊的非理想化結(jié)構(gòu),包括大環(huán)和具有獨(dú)特拓?fù)浣Y(jié)構(gòu)的片段,這些結(jié)構(gòu)在當(dāng)前的結(jié)構(gòu)數(shù)據(jù)庫(kù)中尚未被捕捉到。ProtGPT2可以在幾秒鐘內(nèi)生成序列,并且是免費(fèi)提供的。

自然語(yǔ)言處理(NLP)在最近幾年取得了非凡的進(jìn)展。大規(guī)模預(yù)訓(xùn)練的語(yǔ)言模型徹底改變了NLP領(lǐng)域,以及我們?cè)谌粘I钪惺褂玫脑S多工具,如聊天機(jī)器人、智能助手或翻譯機(jī)器。我們和其他人一直注意到蛋白質(zhì)序列和人類語(yǔ)言之間的類比1,2。蛋白質(zhì)序列可以被描述為一串來(lái)自化學(xué)上定義的字母表,即天然氨基酸的拼接,就像人類語(yǔ)言一樣,這些字母排列組成次級(jí)結(jié)構(gòu)元素("單詞"),進(jìn)而組裝成域("句子")來(lái)執(zhí)行一項(xiàng)功能("意義")。其中最有吸引力的相似之處之一是蛋白質(zhì)序列和自然語(yǔ)言一樣是信息完備的:它們以極高的效率按照氨基酸的順序完全存儲(chǔ)了結(jié)構(gòu)和功能。隨著NLP領(lǐng)域?qū)斫夂蜕山咏祟惸芰Φ恼Z(yǔ)言的非凡進(jìn)展,我們假設(shè)這些方法為僅基于序列的蛋白質(zhì)相關(guān)問(wèn)題(如蛋白質(zhì)設(shè)計(jì))提供了一扇新的大門(mén)。

盡管蛋白質(zhì)序列和人類語(yǔ)言存在差異,但它們的類比已經(jīng)刺激了將NLP方法應(yīng)用于蛋白質(zhì)研究問(wèn)題幾十年2。監(jiān)督式NLP方法通過(guò)將輸入序列與標(biāo)簽一起訓(xùn)練以產(chǎn)生預(yù)測(cè)模型已被應(yīng)用于各種任務(wù),如檢測(cè)結(jié)構(gòu)相似性或預(yù)測(cè)穩(wěn)定性3,4。在BioSeq-BLM平臺(tái)5,6中提供了大量應(yīng)用于生物分子的監(jiān)督式語(yǔ)言模型。然而,自從Transformer7誕生以來(lái),無(wú)監(jiān)督學(xué)習(xí),即在無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練的方法,已經(jīng)成為一種多功能的語(yǔ)言建模工具。幾種基于Transformer的模型,如TCR-BERT8,epiBERTope9,ESM10,ProtTrans11或ProteinBERT12,已經(jīng)證明在其他方法13,14 中具有很高的競(jìng)爭(zhēng)力。其中大多數(shù)模型都使用了類似BERT的15架構(gòu)和去噪自編碼訓(xùn)練目標(biāo),即通過(guò)以某種方式損壞輸入記號(hào)并嘗試重構(gòu)原始句子來(lái)進(jìn)行預(yù)訓(xùn)練2。盡管可以調(diào)整這些模型進(jìn)行生成16,但它們最直接的應(yīng)用是序列嵌入。

語(yǔ)言模型的另一個(gè)重要分支受益于自回歸訓(xùn)練,即將模型訓(xùn)練為在給定上下文的情況下預(yù)測(cè)后續(xù)單詞。這些模型,其中最著名的可能是GPT-x系列17,擅長(zhǎng)生成長(zhǎng)且連貫的文本,有時(shí)甚至達(dá)到了引起關(guān)于其潛在濫用的辯論的程度18。蛋白質(zhì)自回歸語(yǔ)言模型,如ProGen19–21、RITA22和DARK23也進(jìn)行了研究,并展示了自回歸Transformer在蛋白質(zhì)設(shè)計(jì)中的潛力。受到這些工作以及英語(yǔ)模型(如GPT-x系列)不斷增強(qiáng)的能力的啟發(fā),我們想知道是否可以訓(xùn)練一個(gè)生成模型,能夠(i)有效地學(xué)習(xí)蛋白質(zhì)語(yǔ)言,(ii)生成適用且穩(wěn)定的蛋白質(zhì),以及(iii)了解這些序列與自然序列的關(guān)系,包括它們是否采樣了蛋白質(zhì)空間的未知區(qū)域。

在這里,我們介紹了ProtGPT2,一個(gè)擁有7.38億參數(shù)的自回歸Transformer模型,能夠高效地以高吞吐量生成全新的蛋白質(zhì)序列。通過(guò)在涵蓋整個(gè)蛋白質(zhì)空間的大約五千萬(wàn)個(gè)未注釋的序列上進(jìn)行訓(xùn)練,ProtGPT2已有效地學(xué)習(xí)了蛋白質(zhì)語(yǔ)言。ProtGPT2生成的蛋白質(zhì)序列的氨基酸組成和無(wú)序傾向與自然序列相當(dāng),同時(shí)與當(dāng)前蛋白質(zhì)空間“進(jìn)化地”遠(yuǎn)離。二級(jí)結(jié)構(gòu)預(yù)測(cè)計(jì)算表明,88%的序列是球狀的,與自然蛋白質(zhì)一致。使用相似性網(wǎng)絡(luò)對(duì)蛋白質(zhì)空間的表示表明,ProtGPT2序列通過(guò)擴(kuò)展自然超家族勘探了蛋白質(zhì)空間的“未知”區(qū)域。生成的序列顯示出與自然蛋白質(zhì)對(duì)應(yīng)物類似的穩(wěn)定性和動(dòng)態(tài)特性。由于ProtGPT2已經(jīng)進(jìn)行了預(yù)訓(xùn)練,它可以在標(biāo)準(zhǔn)工作站上在幾秒鐘內(nèi)用于生成序列,或者可以在用戶選擇的序列集上進(jìn)行進(jìn)一步的微調(diào),以增強(qiáng)特定蛋白質(zhì)家族。模型和數(shù)據(jù)集可在HuggingFace代碼庫(kù)24(https://huggingface.co/nferruz/ProtGPT2)上獲取。由于蛋白質(zhì)設(shè)計(jì)在從生物醫(yī)學(xué)到環(huán)境科學(xué)等領(lǐng)域解決問(wèn)題具有巨大潛力25,26,我們認(rèn)為ProtGPT2是朝著高效高吞吐量蛋白質(zhì)工程和設(shè)計(jì)的時(shí)代前進(jìn)的重要進(jìn)展。

ProtGPT2 is a deep unsupervised language model for protein desig的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
墨竹工卡县| 嘉义市| 大关县| 奉节县| 新泰市| 东乌| 城口县| 紫阳县| 庆元县| 清新县| 同仁县| 调兵山市| 顺平县| 望江县| 长兴县| 益阳市| 麦盖提县| 孟连| 本溪| 中山市| 罗江县| 格尔木市| 涟源市| 黎平县| 芜湖市| 伊川县| 镇雄县| 札达县| 邳州市| 广安市| 淅川县| 哈巴河县| 莱阳市| 会泽县| 介休市| 宁乡县| 玉门市| 拜泉县| 宜丰县| 海南省| 西和县|