散文網(wǎng) » 生活 »日常 » JCTC | 利用譜圖卷積神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)酶變異體的超高通量篩選

JCTC | 利用譜圖卷積神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)酶變異體的超高通量篩選

2023-04-04 10:16 作者:AIDDPro 0人讀過(guò) | 我要投稿

今天介紹的是近期格羅寧根大學(xué)發(fā)表在JCTC的一篇論文：《Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks》。這篇文章提出了一種使用圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）來(lái)預(yù)測(cè)酶復(fù)合物結(jié)合能的新方法。該方法可以在不到1毫秒的時(shí)間內(nèi)評(píng)估一種酶變異體，從而可以在單個(gè)GPU上搜索數(shù)十億個(gè)候選體。這一方法能夠有效地加速酶變異體篩選的過(guò)程，為尋找具有所需底物范圍的新酶變異體提供了新的思路。

研究背景

酶工程是通過(guò)改變構(gòu)成酶的氨基酸序列來(lái)改進(jìn)酶的性質(zhì)。改進(jìn)的性質(zhì)通常包括催化活性、底物特異性、對(duì)映選擇性或熱穩(wěn)定性等。目前酶工程的兩種主要方法是定向進(jìn)化和有理設(shè)計(jì)，但這些方法需要大量的實(shí)驗(yàn)或計(jì)算工作。機(jī)器學(xué)習(xí)（ML）和深度學(xué)習(xí)（DL）是指導(dǎo)酶工程研究的第三種可能性。然而，機(jī)器學(xué)習(xí)在蛋白質(zhì)工程中的應(yīng)用受到數(shù)據(jù)集大小和分子表示的挑戰(zhàn)，這些問(wèn)題可以通過(guò)更高效的算法和圖、序列等分子表示方法來(lái)解決。本研究提出了一種使用深度圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）來(lái)探索酶變異體適應(yīng)度景觀的方法，該方法是在傳統(tǒng)的分子建模方法生成的大數(shù)據(jù)集上進(jìn)行訓(xùn)練的，可以在不到24小時(shí)內(nèi)評(píng)估數(shù)千萬(wàn)個(gè)變異體。該方法可以加速酶變異體篩選的過(guò)程，為尋找具有所需底物范圍的新酶變異體提供了新的思路。本研究還以Vf-TA為例，介紹了如何使用GCN模型評(píng)分并預(yù)測(cè)酶變異體的適應(yīng)性。

方法

2.1 訓(xùn)練數(shù)據(jù)集

隨機(jī)生成了包含10,000個(gè)Vf-TA變異體的樣本庫(kù)作為訓(xùn)練數(shù)據(jù)。這些變異體是通過(guò)在預(yù)定的Nhot熱點(diǎn)中隨機(jī)突變，生成Lth-order突變體（L=1，單突變體；L=2，雙突變體等），并將其中一個(gè)氨基酸從20種天然氨基酸的集合中隨機(jī)選擇來(lái)生成的。每個(gè)樣本si都通過(guò)計(jì)算酶變異體與配體（圖1A）之間的結(jié)合自由能來(lái)進(jìn)行標(biāo)注(yi)。

圖1 ?A) 方法。在數(shù)據(jù)集中，酶變異體（si）的標(biāo)簽是變異體與配體在復(fù)合物中的結(jié)合自由能 (yi)。B) 查詢變異體的圖表示形式

2.2 數(shù)據(jù)標(biāo)簽

酶變異體的標(biāo)簽是使用變異體與配體形成復(fù)合物時(shí)的結(jié)合自由能標(biāo)注的。結(jié)合自由能來(lái)自Rosetta計(jì)算(Rosetta Interface Energy)。

2.3 蛋白質(zhì)的圖表示形式

作者使用圖表示法表示酶變異體，僅考慮與結(jié)合位點(diǎn)附近的蛋白質(zhì)殘基形成圖形，保留了23個(gè)殘基的節(jié)點(diǎn)，并允許這些殘基的較小子集進(jìn)行突變。節(jié)點(diǎn)矩陣X的特征化使用從AAindex中選取的F個(gè)特征進(jìn)行。邊屬性E被定義為蛋白質(zhì)殘基之間的成對(duì)距離的倒數(shù)。僅從蛋白質(zhì)序列評(píng)估新的變異體，大大降低了計(jì)算成本。

圖2 A) Vf-TA結(jié)合位點(diǎn)的圖形表示示例。B) 顯示邊權(quán)重矩陣的熱圖。C) 顯示特征矩陣的熱圖

2.4 圖卷積

輸入圖形??通過(guò)一系列卷積層（圖3），生成一個(gè)越來(lái)越抽象的輸入信號(hào)表示。本研究中使用的圖卷積層是由Bianchi等人提出的。

2.5 使用預(yù)訓(xùn)練的 LSTM 模型進(jìn)行表征學(xué)習(xí)

為了提高GCN模型的準(zhǔn)確性，使用了蛋白質(zhì)序列嵌入來(lái)補(bǔ)充輸入信號(hào)，嵌入通過(guò)預(yù)訓(xùn)練的雙向LSTM模型生成。LSTM模型使用來(lái)自Pfam數(shù)據(jù)庫(kù)的約1000萬(wàn)個(gè)蛋白質(zhì)序列進(jìn)行訓(xùn)練。

實(shí)驗(yàn)結(jié)果

3.1 經(jīng)過(guò)訓(xùn)練的譜圖卷積網(wǎng)絡(luò)能夠以高精度預(yù)測(cè)結(jié)合能

作者使用Rosetta生成和評(píng)分的Vf-TA酶-配體復(fù)合物突變庫(kù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練后的GCN模型不僅能夠高精度預(yù)測(cè)未知變異體的結(jié)合能，而且比Rosetta快六個(gè)數(shù)量級(jí)。在單個(gè)GPU上，每個(gè)變異體評(píng)估大約需要1.36毫秒，但可以進(jìn)行并行化。這種加速開(kāi)辟了以低計(jì)算成本掃描數(shù)十億的酶變異體的可能性。

圖5 A）KDE散點(diǎn)圖顯示GCN預(yù)測(cè)的結(jié)合能(縱軸; ?i)與Rosetta得分(橫軸; yi)在測(cè)試數(shù)據(jù)集(n=2,000)中的相關(guān)性。B）直方圖顯示使用訓(xùn)練模型(n=160,000)獲得的整個(gè)組合空間的結(jié)合能分布(黑線)，與Rosetta提出的設(shè)計(jì)(未用于訓(xùn)練)的直方圖重疊(藍(lán)色條形) (n = 800)。C）當(dāng)Rosetta負(fù)責(zé)從一組預(yù)定義的可變位置中提出新變異體時(shí)，生成的變異體將傾向于在組合和構(gòu)象空間中靠近

然后，作者使用在??1上訓(xùn)練的GCN模型對(duì)160,000個(gè)變異體進(jìn)行了篩選（圖4B），與在Rosetta中運(yùn)行以提出新變異體時(shí)獲得的變異體分布進(jìn)行了比較。結(jié)果顯示，GCN模型能夠依靠“蠻力”方法提出和Rosetta一樣好的變異體，但計(jì)算成本更低。此外，“蠻力”方法可以探索在組合或構(gòu)象空間中不接近初始變異體的變異體。研究還發(fā)現(xiàn)，訓(xùn)練數(shù)據(jù)集中的突變體程度和突變體所包含的氨基酸種類對(duì)模型性能有重要影響。使用高階突變體的訓(xùn)練數(shù)據(jù)集可以提高模型的預(yù)測(cè)準(zhǔn)確性，而訓(xùn)練數(shù)據(jù)集中含有的氨基酸種類也會(huì)影響模型的泛化能力。此外，低階突變體訓(xùn)練的模型無(wú)法很好地推廣到高階突變體，同時(shí)評(píng)估未見(jiàn)過(guò)的氨基酸時(shí)模型表現(xiàn)不佳。這強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)集的重要性以及在評(píng)估新的突變體時(shí)需要考慮氨基酸的多樣性（表3）。

3.2 預(yù)訓(xùn)練的雙向LSTM模型生成向量嵌入可以提高突變預(yù)測(cè)的準(zhǔn)確性

使用預(yù)訓(xùn)練的LSTM模型和GCN模型提高突變預(yù)測(cè)的準(zhǔn)確性，LM-GCN模型的預(yù)測(cè)性能比僅使用GCN模型更好。

3.3 在蛋白質(zhì)工程中的適用性

該方法在蛋白質(zhì)工程的應(yīng)用存在三個(gè)限制：1）生成訓(xùn)練數(shù)據(jù)集成本較高，但使用GPU訓(xùn)練模型時(shí)間較短，評(píng)估新突變體速度快；2）如果訓(xùn)練數(shù)據(jù)集中不存在優(yōu)秀的突變體，模型無(wú)法在優(yōu)秀得分區(qū)域進(jìn)行外推，但模型僅使用壞的突變體訓(xùn)練時(shí)仍能給出好的突變體最佳得分；3）如果突變體明顯改變蛋白質(zhì)主鏈構(gòu)象，可能會(huì)出現(xiàn)困難，但在度為1-8的突變體中主鏈變化不明顯，而且邊屬性對(duì)預(yù)測(cè)不是必要的。雖然存在限制，但本研究的重要性在于，一個(gè)簡(jiǎn)單算法能夠?qū)W習(xí)評(píng)估新的突變體組合所需的復(fù)雜協(xié)同關(guān)系，具有重要的應(yīng)用價(jià)值。

討論

作者認(rèn)為使用神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)評(píng)估突變體的復(fù)雜協(xié)同關(guān)系，加速蛋白質(zhì)-配體復(fù)合物結(jié)合能的預(yù)測(cè)，實(shí)現(xiàn)超高通量篩選，提高突變體篩選的效率。此外，利用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)和特征注入技術(shù)來(lái)快速預(yù)測(cè)突變體結(jié)合能。然而，該方法的應(yīng)用情況也是有限制的，因?yàn)镽osetta生成的結(jié)合能并不完美，發(fā)現(xiàn)的變體可能在濕實(shí)驗(yàn)中并不起作用。該計(jì)算策略可以減少探索組合空間所需的實(shí)驗(yàn)工作量，本研究還表明使用神經(jīng)網(wǎng)絡(luò)解決組合庫(kù)任務(wù)是有潛力的。

結(jié)論

作者提出了一種深度學(xué)習(xí)策略，利用神經(jīng)網(wǎng)絡(luò)的高組合能力，快速學(xué)習(xí)突變體的組合模式，實(shí)現(xiàn)酶變體與所需配體的結(jié)合能的預(yù)測(cè)。經(jīng)過(guò)微小數(shù)據(jù)集訓(xùn)練后，該方法實(shí)現(xiàn)了高準(zhǔn)確度。使用GCN模塊在突變熱點(diǎn)數(shù)量較少的數(shù)據(jù)集中表現(xiàn)出很高的準(zhǔn)確度，但在熱點(diǎn)數(shù)量較多的數(shù)據(jù)集中準(zhǔn)確度會(huì)降低。為了提高預(yù)測(cè)能力，本研究提出了LM-GCN模塊，它能注入預(yù)訓(xùn)練LM模塊生成的特征向量。本研究展示了神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)酶變體結(jié)合能方面的潛力，可以通過(guò)少量數(shù)據(jù)集進(jìn)行訓(xùn)練來(lái)實(shí)現(xiàn)高準(zhǔn)確度，提高了突變體篩選的效率

參考文獻(xiàn)Ramírez-Palacios C, Marrink SJ. Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks. J Chem Theory Comput. 2023 Mar 24. doi: 10.1021/acs.jctc.2c01227.代碼鏈接

https://github.com/crp-mol/super-HTS

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿，文中所述觀點(diǎn)僅代表作者本人觀點(diǎn)，不代表AIDD Pro平臺(tái)，如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀，請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán)，禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn

標(biāo)簽：神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)高通量篩選