最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Controllable protein design with language models

2023-07-05 13:37 作者:Aster的小號  | 我要投稿

21世紀(jì)給人類帶來了前所未有的環(huán)境和醫(yī)學(xué)挑戰(zhàn)。設(shè)計(jì)專門用于特定目的的新型蛋白質(zhì)有可能徹底改變我們應(yīng)對這些問題的能力。人工智能領(lǐng)域的最新進(jìn)展,為實(shí)現(xiàn)這一目標(biāo)鋪平了道路。蛋白質(zhì)序列本質(zhì)上類似于自然語言:氨基酸以多種組合方式排列,形成具有功能的結(jié)構(gòu),就像字母組成單詞和句子承載意義一樣。因此,在自然語言處理(NLP)的發(fā)展歷程中,其許多技術(shù)已被應(yīng)用于蛋白質(zhì)研究問題上,并不足為奇。過去幾年,我們見證了NLP領(lǐng)域的革命性突破。通過實(shí)施預(yù)訓(xùn)練模型的改進(jìn),使得生成具有人類般能力的文本成為可能,包括具有特定特性(如風(fēng)格或主題)的文本。在蛋白質(zhì)序列生成方面,受到NLP任務(wù)的巨大成功的鼓舞,我們預(yù)計(jì)專用的轉(zhuǎn)換器將在不久的將來主導(dǎo)著這一領(lǐng)域。通過在蛋白質(zhì)家族上進(jìn)行預(yù)訓(xùn)練模型的微調(diào),將能夠擴(kuò)展其新穎序列的范圍,這些序列可能高度異質(zhì),但仍然可能具有功能。結(jié)合細(xì)胞組分或功能等控制標(biāo)簽,將進(jìn)一步實(shí)現(xiàn)對新型蛋白質(zhì)功能的可控設(shè)計(jì)。此外,最近的模型可解釋性方法將幫助我們揭開“黑匣子”,從而增進(jìn)對折疊原理的理解。早期的研究表明,生成式語言模型在設(shè)計(jì)功能序列方面具有巨大潛力。我們相信,利用生成式文本模型創(chuàng)造新型蛋白質(zhì)是一個(gè)有前景且尚未深入探索的領(lǐng)域,并討論了它對蛋白質(zhì)設(shè)計(jì)的可預(yù)見影響。

蛋白質(zhì)是生命的普遍構(gòu)成要素,在幾乎每一個(gè)細(xì)胞過程中發(fā)揮著至關(guān)重要的作用。以定制化的方式快速、高效地設(shè)計(jì)特定蛋白質(zhì),將有潛力解決人類今天和未來所面臨的許多挑戰(zhàn)。例如,我們將能夠設(shè)計(jì)能夠代謝塑料廢物或水解污染毒素的酶,或者在流行病爆發(fā)時(shí)及時(shí)創(chuàng)建新的疫苗。然而,盡管取得了巨大的進(jìn)展,當(dāng)代研究在設(shè)計(jì)蛋白質(zhì)的能力上仍遠(yuǎn)遠(yuǎn)落后于自然界生成的蛋白質(zhì)。

蛋白質(zhì)設(shè)計(jì)的目標(biāo)是創(chuàng)造具有特定功能的定制結(jié)構(gòu)。這個(gè)巨大的挑戰(zhàn)通常被稱為反向蛋白質(zhì)折疊問題:與其尋找一種序列會折疊成的結(jié)構(gòu),而是要獲得一種能采用特定折疊的最優(yōu)序列。從數(shù)學(xué)上講,這個(gè)問題是通過優(yōu)化算法來解決的,這些算法搜索由能量函數(shù)定義的順序-結(jié)構(gòu)景觀的全局最小值。盡管最廣泛使用的能量函數(shù)相對簡單,但每個(gè)位置的構(gòu)型數(shù)和可能的組合會導(dǎo)致組合爆炸。因此,大多數(shù)蛋白質(zhì)設(shè)計(jì)軟件都依賴啟發(fā)式算法。由于這種復(fù)雜性,并且盡管最近取得了顯著進(jìn)展,從頭設(shè)計(jì)蛋白質(zhì)通常需要相當(dāng)長的時(shí)間和努力。絕大多數(shù)功能性蛋白質(zhì)是通過預(yù)選自然存在的支架結(jié)構(gòu),然后在迭代過程中優(yōu)化其功能,而不是同時(shí)設(shè)計(jì)序列和結(jié)構(gòu)以執(zhí)行特定功能。

雖然蛋白質(zhì)設(shè)計(jì)問題是通過以目標(biāo)結(jié)構(gòu)為目標(biāo)的物理化學(xué)函數(shù)來解決的,但蛋白質(zhì)的一個(gè)最顯著特點(diǎn)是它們在其氨基酸序列中完全編碼了其結(jié)構(gòu)和功能,并且效率極高。這意味著在沒有生物物理約束的情況下,僅憑序列就可以捕捉到蛋白質(zhì)的特性,從而為利用自然語言處理(NLP)方法開辟了新的蛋白質(zhì)研究領(lǐng)域。

下面的部分總結(jié)了自然語言和蛋白質(zhì)序列之間的相似性和差異,并展示了NLP研究已經(jīng)如何影響蛋白質(zhì)科學(xué)。我們將強(qiáng)調(diào)該領(lǐng)域中最顯著的發(fā)展,即Transformer架構(gòu)。接下來的部分將介紹Transformer的獨(dú)特生成能力如何重塑蛋白質(zhì)設(shè)計(jì)領(lǐng)域。最后,我們將對非自然催化反應(yīng)和定制新功能等非常具有挑戰(zhàn)性的情況下,Transformer架構(gòu)可能如何占據(jù)主導(dǎo)地位提出展望。我們希望這篇綜述能夠觸及人工智能和生物學(xué)領(lǐng)域,并鼓勵(lì)進(jìn)一步的協(xié)作努力,將NLP技術(shù)應(yīng)用于蛋白質(zhì)設(shè)計(jì)。在附錄1中提供了一些術(shù)語的詞匯表。

蛋白質(zhì)的語言

有幾個(gè)特征表明人類語言和蛋白質(zhì)序列之間的相似性,其中最明顯的可能是它們的層級組織。類似于人類語言,蛋白質(zhì)由一系列字符串組成:20種標(biāo)準(zhǔn)氨基酸。然后,這些字母組合形成單詞,氨基酸組合成二級結(jié)構(gòu)元素或保守的蛋白質(zhì)片段。就像單詞組合成攜帶意義的句子一樣,片段可以組合成不同的蛋白質(zhì)結(jié)構(gòu),從而發(fā)揮功能。

語言和蛋白質(zhì)的起源和演化也表現(xiàn)出一些相似之處。語言發(fā)展并不斷適應(yīng),涌現(xiàn)出更能反映我們不斷發(fā)展的社會的詞匯。目前,全球有超過8000種語言,分為140多個(gè)語言系列,而這些語言都源于5萬到7萬年前在非洲中部使用的一種共同祖先語言。同樣,地球上所有生物都有一個(gè)(最后的普遍)共同祖先——LUCA,一個(gè)在40億年前就存在的微生物,其中包含了已經(jīng)通過進(jìn)化發(fā)展起來的大多數(shù)現(xiàn)代蛋白質(zhì)結(jié)構(gòu)域。

在人類語言中,單詞與相鄰單詞以類似的方式產(chǎn)生關(guān)系并相互作用,如同氨基酸依賴于它們的順序周圍的其他氨基酸。然而,人類語言還存在著遠(yuǎn)程依賴關(guān)系,即不嚴(yán)格相鄰的單詞或形態(tài)素之間的依賴關(guān)系,比如長文本中不同句子之間的主語。這類似于蛋白質(zhì)結(jié)構(gòu)中的情況,序列中相距較遠(yuǎn)的氨基酸可能在3D結(jié)構(gòu)中相互作用,有時(shí)會跨越結(jié)構(gòu)域邊界。這種相關(guān)性也延伸到了蛋白質(zhì)中觀察到的其他行為。在句子的意義中添加或改變一個(gè)字母的有害效果與由單個(gè)突變引起的功能喪失等效。在保持意思的情況下改變單詞的順序類似于序列置換。最后,形成一個(gè)語法上正確但沒有明顯功能的無意義句子類似于設(shè)計(jì)的蛋白質(zhì)結(jié)構(gòu),如淀粉樣纖維。

然而,需要注意的是,蛋白質(zhì)和人類語言也存在著一些差異,這些差異對于將NLP應(yīng)用于蛋白質(zhì)研究構(gòu)成了挑戰(zhàn)。我們將列舉一些例子。首先,許多人類語言在書面文本中提供了明確可辨別的單詞定義(以中國為一個(gè)突出例外),但在蛋白質(zhì)中,“單詞邊界”不太明顯。一種可能的做法是使用二級結(jié)構(gòu)元素的定義或保守的片段。無論哪種情況下,標(biāo)記化過程都將依賴于三級結(jié)構(gòu)的可用性和計(jì)算量更大的計(jì)算。第二個(gè)有重大影響的差異是對蛋白質(zhì)語言的理解目前還缺乏,就像我們對許多已經(jīng)滅絕的語言目前也不了解一樣。雖然我們有用于訓(xùn)練蛋白質(zhì)語言的語料庫,但正確解讀生成的序列仍然是一個(gè)挑戰(zhàn),需要廣泛的實(shí)驗(yàn)測試來解析它們的功能性。第三,蛋白質(zhì)的演化顯然與語言的演化不同,受到隨機(jī)性和環(huán)境壓力的影響,并且必然會包含許多不規(guī)則性。雖然語言中存在音序法限制,即可能的連續(xù)音序列的演變方式,但這一方面在蛋白質(zhì)中更為明顯,蛋白質(zhì)語言模型必須學(xué)習(xí)與折疊為3D結(jié)構(gòu)相容的模式。最后,盡管具有可用的數(shù)據(jù)語料庫的人類語言數(shù)量有限,僅限于十幾種語言,但地球上目前有數(shù)百萬種物種,我們更常常關(guān)注的是蛋白質(zhì)的一般性質(zhì),而不是研究特定物種的蛋白質(zhì)。這個(gè)事實(shí)對于傳統(tǒng)的自然語言建模方法提出了質(zhì)疑,這些方法一次僅接受一個(gè)句子作為輸入。確實(shí),當(dāng)引入多序列比對(MSA)來預(yù)測物理接觸時(shí),蛋白質(zhì)結(jié)構(gòu)預(yù)測方法的性能大大提高。類似地,將MSA輸入引入大型神經(jīng)模型中,如MSA Transformer或AlphaFold,也取得了顯著成功。雖然與同義詞研究類似,但MSA的概念在NLP方法中沒有直接的類比。


Controllable protein design with language models的評論 (共 條)

分享到微博請遵守國家法律
邵阳市| 丁青县| 池州市| 牟定县| 鄂尔多斯市| 改则县| 环江| 乃东县| 获嘉县| 上犹县| 南城县| 瑞金市| 盱眙县| 东丽区| 会东县| 张家界市| 曲阜市| 凤山县| 南平市| 五常市| 怀仁县| 紫阳县| 会昌县| 高碑店市| 大英县| 平顶山市| 阿荣旗| 四川省| 四平市| 赤水市| 华容县| 景宁| 民权县| 青海省| 资源县| 麻阳| 石林| 慈溪市| 博白县| 洛隆县| 彭州市|