中國(guó)科大用深度學(xué)習(xí)實(shí)現(xiàn)高實(shí)驗(yàn)成功率的蛋白質(zhì)序列從頭設(shè)計(jì)

?
中國(guó)科學(xué)技術(shù)大學(xué)生命科學(xué)與醫(yī)學(xué)部劉海燕教授、陳泉副教授團(tuán)隊(duì)與信息科學(xué)技術(shù)學(xué)院李厚強(qiáng)教授團(tuán)隊(duì)合作,開發(fā)了一種基于深度學(xué)習(xí)為給定主鏈結(jié)構(gòu)從頭設(shè)計(jì)氨基酸序列的算法ABACUS-R,在實(shí)驗(yàn)驗(yàn)證中,ABACUS-R的設(shè)計(jì)成功率和設(shè)計(jì)精度超過(guò)了原有統(tǒng)計(jì)能量模型ABACUS。相關(guān)成果以“Rotamer-Free Protein Sequence Design Based on Deep Learning and Self-Consistency”為題于北京時(shí)間2022年7月21日發(fā)表于Nature Computational Science。
劉海燕教授、陳泉副教授團(tuán)隊(duì)致力于發(fā)展數(shù)據(jù)驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)方法,建立并實(shí)驗(yàn)驗(yàn)證了利用神經(jīng)網(wǎng)絡(luò)能量函數(shù)從頭設(shè)計(jì)主鏈結(jié)構(gòu)的SCUBA模型,以及對(duì)給定主鏈結(jié)構(gòu)設(shè)計(jì)氨基酸序列的統(tǒng)計(jì)能量函數(shù)ABACUS。然而,通過(guò)優(yōu)化能量函數(shù)來(lái)進(jìn)行序列設(shè)計(jì)的方法在成功率、計(jì)算效率等方面仍有不足。近期有多項(xiàng)研究表明,用深度學(xué)習(xí)進(jìn)行氨基酸序列設(shè)計(jì)能夠在天然氨基酸殘基類型恢復(fù)率等計(jì)算指標(biāo)上超過(guò)能量函數(shù)方法;但截至目前已正式發(fā)表的工作中,對(duì)相關(guān)方法的實(shí)驗(yàn)驗(yàn)證結(jié)果遠(yuǎn)未達(dá)到能量函數(shù)方法的成功率。該論文報(bào)道的ABACUS-R模型,則不僅在計(jì)算指標(biāo)上超過(guò)ABACUS,在實(shí)驗(yàn)驗(yàn)證中成功率和結(jié)構(gòu)精度也有大幅提高。
用ABACUS-R進(jìn)行序列設(shè)計(jì)的方法由兩部分組成(圖1)。第一部分為預(yù)訓(xùn)練的編碼器-解碼器網(wǎng)絡(luò):該網(wǎng)絡(luò)用Transformer把中心氨基酸殘基的化學(xué)和空間結(jié)構(gòu)環(huán)境映射為隱空間表示向量,再用多層感知機(jī)網(wǎng)絡(luò)將該向量解碼為包括中心殘基氨基酸類型在內(nèi)的多種真實(shí)特征(圖1a)。在方法的第二部分,經(jīng)用非冗余天然蛋白序列結(jié)構(gòu)數(shù)據(jù)訓(xùn)練后,ABACUS-R編碼器-解碼器被用于給定主鏈結(jié)構(gòu)的全部或部分氨基酸序列從頭設(shè)計(jì)。具體為:從任意初始序列出發(fā),對(duì)各個(gè)類型待定殘基分別應(yīng)用ABACUS-R編碼器-解碼器,得到環(huán)境依賴的最適宜殘基類型,并反復(fù)迭代至不同位點(diǎn)的殘基類型最大程度自洽(圖1b)。

圖1. 用ABACUS-R模型進(jìn)行蛋白質(zhì)序列設(shè)計(jì)的原理。(a) 預(yù)訓(xùn)練的編碼器-解碼器網(wǎng)絡(luò);(b)采用自洽迭代策略進(jìn)行全序列從頭設(shè)計(jì)。
在理論驗(yàn)證的基礎(chǔ)上,中國(guó)科大團(tuán)隊(duì)嘗試了實(shí)驗(yàn)表征用ABACUS-R對(duì)3個(gè)天然主鏈結(jié)構(gòu)重新設(shè)計(jì)的57條序列;其中86%的序列(49條)可溶表達(dá)并能折疊為穩(wěn)定單體;實(shí)驗(yàn)解析的5個(gè)高分辨晶體結(jié)構(gòu)與目標(biāo)結(jié)構(gòu)高度一致(主鏈原子位置均方根位移在1?以下)(圖2)。此外,與以前報(bào)道的從頭設(shè)計(jì)蛋白相似,ABACUS-R從頭設(shè)計(jì)的蛋白表現(xiàn)出超高熱穩(wěn)定性,去折疊溫度大多可達(dá)100℃以上。

圖2. 左側(cè)圖為實(shí)驗(yàn)驗(yàn)證采用的一個(gè)目標(biāo)主鏈結(jié)構(gòu)(天藍(lán)色)與相應(yīng)ABACUS-R設(shè)計(jì)蛋白晶體結(jié)構(gòu)(綠色)的疊合比較。在右側(cè)展示的局部結(jié)構(gòu)放大圖中,ABACUS-R設(shè)計(jì)蛋白的殘基間氫鍵等極性相互作用不同于天然結(jié)構(gòu)。
相較于ABACUS模型,ABACUS-R序列設(shè)計(jì)更高的成功率和結(jié)構(gòu)精度進(jìn)一步增強(qiáng)了數(shù)據(jù)驅(qū)動(dòng)蛋白質(zhì)從頭設(shè)計(jì)方法的實(shí)用性。ABACUS-R還提供了一種對(duì)蛋白質(zhì)局部結(jié)構(gòu)信息的預(yù)訓(xùn)練表示方式,可用于序列設(shè)計(jì)以外的其他任務(wù)。
我校生命科學(xué)與醫(yī)學(xué)部劉海燕教授、陳泉副教授、信息科學(xué)技術(shù)學(xué)院李厚強(qiáng)教授為該論文通訊作者。生命科學(xué)與醫(yī)學(xué)部碩士生劉宇楓、博士生張璐、信息科學(xué)技術(shù)學(xué)院博士生王煒倫為該論文共同第一作者。該研究工作得到了科技部、國(guó)家自然科學(xué)基金委和中國(guó)科學(xué)院的資助支持。
原文鏈接:https://www.nature.com/articles/s43588-022-00273-6
(生命科學(xué)與醫(yī)學(xué)部、信息科學(xué)技術(shù)學(xué)院、微尺度國(guó)家研究中心、細(xì)胞動(dòng)力學(xué)教育部重點(diǎn)實(shí)驗(yàn)室、科研部)

