JCTC | 利用譜圖卷積神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)酶變異體的超高通量篩選
今天介紹的是近期格羅寧根大學(xué)發(fā)表在JCTC的一篇論文:《Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks》。這篇文章提出了一種使用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來(lái)預(yù)測(cè)酶復(fù)合物結(jié)合能的新方法。該方法可以在不到1毫秒的時(shí)間內(nèi)評(píng)估一種酶變異體,從而可以在單個(gè)GPU上搜索數(shù)十億個(gè)候選體。這一方法能夠有效地加速酶變異體篩選的過(guò)程,為尋找具有所需底物范圍的新酶變異體提供了新的思路。

研究背景
酶工程是通過(guò)改變構(gòu)成酶的氨基酸序列來(lái)改進(jìn)酶的性質(zhì)。改進(jìn)的性質(zhì)通常包括催化活性、底物特異性、對(duì)映選擇性或熱穩(wěn)定性等。目前酶工程的兩種主要方法是定向進(jìn)化和有理設(shè)計(jì),但這些方法需要大量的實(shí)驗(yàn)或計(jì)算工作。機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)是指導(dǎo)酶工程研究的第三種可能性。然而,機(jī)器學(xué)習(xí)在蛋白質(zhì)工程中的應(yīng)用受到數(shù)據(jù)集大小和分子表示的挑戰(zhàn),這些問(wèn)題可以通過(guò)更高效的算法和圖、序列等分子表示方法來(lái)解決。本研究提出了一種使用深度圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來(lái)探索酶變異體適應(yīng)度景觀的方法,該方法是在傳統(tǒng)的分子建模方法生成的大數(shù)據(jù)集上進(jìn)行訓(xùn)練的,可以在不到24小時(shí)內(nèi)評(píng)估數(shù)千萬(wàn)個(gè)變異體。該方法可以加速酶變異體篩選的過(guò)程,為尋找具有所需底物范圍的新酶變異體提供了新的思路。本研究還以Vf-TA為例,介紹了如何使用GCN模型評(píng)分并預(yù)測(cè)酶變異體的適應(yīng)性。
方法
2.1 訓(xùn)練數(shù)據(jù)集
隨機(jī)生成了包含10,000個(gè)Vf-TA變異體的樣本庫(kù)作為訓(xùn)練數(shù)據(jù)。這些變異體是通過(guò)在預(yù)定的Nhot熱點(diǎn)中隨機(jī)突變,生成Lth-order突變體(L=1,單突變體;L=2,雙突變體等),并將其中一個(gè)氨基酸從20種天然氨基酸的集合中隨機(jī)選擇來(lái)生成的。每個(gè)樣本si都通過(guò)計(jì)算酶變異體與配體(圖1A)之間的結(jié)合自由能來(lái)進(jìn)行標(biāo)注(yi)。

2.2 數(shù)據(jù)標(biāo)簽
酶變異體的標(biāo)簽是使用變異體與配體形成復(fù)合物時(shí)的結(jié)合自由能標(biāo)注的。結(jié)合自由能來(lái)自Rosetta計(jì)算(Rosetta Interface Energy)。
2.3 蛋白質(zhì)的圖表示形式
作者使用圖表示法表示酶變異體,僅考慮與結(jié)合位點(diǎn)附近的蛋白質(zhì)殘基形成圖形,保留了23個(gè)殘基的節(jié)點(diǎn),并允許這些殘基的較小子集進(jìn)行突變。節(jié)點(diǎn)矩陣X的特征化使用從AAindex中選取的F個(gè)特征進(jìn)行。邊屬性E被定義為蛋白質(zhì)殘基之間的成對(duì)距離的倒數(shù)。僅從蛋白質(zhì)序列評(píng)估新的變異體,大大降低了計(jì)算成本。

2.4 圖卷積
輸入圖形??通過(guò)一系列卷積層(圖3),生成一個(gè)越來(lái)越抽象的輸入信號(hào)表示。本研究中使用的圖卷積層是由Bianchi等人提出的。

2.5 使用預(yù)訓(xùn)練的 LSTM 模型進(jìn)行表征學(xué)習(xí)
為了提高GCN模型的準(zhǔn)確性,使用了蛋白質(zhì)序列嵌入來(lái)補(bǔ)充輸入信號(hào),嵌入通過(guò)預(yù)訓(xùn)練的雙向LSTM模型生成。LSTM模型使用來(lái)自Pfam數(shù)據(jù)庫(kù)的約1000萬(wàn)個(gè)蛋白質(zhì)序列進(jìn)行訓(xùn)練。

實(shí)驗(yàn)結(jié)果
3.1 經(jīng)過(guò)訓(xùn)練的譜圖卷積網(wǎng)絡(luò)能夠以高精度預(yù)測(cè)結(jié)合能
作者使用Rosetta生成和評(píng)分的Vf-TA酶-配體復(fù)合物突變庫(kù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練后的GCN模型不僅能夠高精度預(yù)測(cè)未知變異體的結(jié)合能,而且比Rosetta快六個(gè)數(shù)量級(jí)。在單個(gè)GPU上,每個(gè)變異體評(píng)估大約需要1.36毫秒,但可以進(jìn)行并行化。這種加速開(kāi)辟了以低計(jì)算成本掃描數(shù)十億的酶變異體的可能性。

圖5 A)KDE散點(diǎn)圖顯示GCN預(yù)測(cè)的結(jié)合能(縱軸; ?i)與Rosetta得分(橫軸; yi)在測(cè)試數(shù)據(jù)集(n=2,000)中的相關(guān)性。B)直方圖顯示使用訓(xùn)練模型(n=160,000)獲得的整個(gè)組合空間的結(jié)合能分布(黑線),與Rosetta提出的設(shè)計(jì)(未用于訓(xùn)練)的直方圖重疊(藍(lán)色條形) (n = 800)。C)當(dāng)Rosetta負(fù)責(zé)從一組預(yù)定義的可變位置中提出新變異體時(shí),生成的變異體將傾向于在組合和構(gòu)象空間中靠近
然后,作者使用在??1上訓(xùn)練的GCN模型對(duì)160,000個(gè)變異體進(jìn)行了篩選(圖4B),與在Rosetta中運(yùn)行以提出新變異體時(shí)獲得的變異體分布進(jìn)行了比較。結(jié)果顯示,GCN模型能夠依靠“蠻力”方法提出和Rosetta一樣好的變異體,但計(jì)算成本更低。此外,“蠻力”方法可以探索在組合或構(gòu)象空間中不接近初始變異體的變異體。研究還發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)集中的突變體程度和突變體所包含的氨基酸種類對(duì)模型性能有重要影響。使用高階突變體的訓(xùn)練數(shù)據(jù)集可以提高模型的預(yù)測(cè)準(zhǔn)確性,而訓(xùn)練數(shù)據(jù)集中含有的氨基酸種類也會(huì)影響模型的泛化能力。此外,低階突變體訓(xùn)練的模型無(wú)法很好地推廣到高階突變體,同時(shí)評(píng)估未見(jiàn)過(guò)的氨基酸時(shí)模型表現(xiàn)不佳。這強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)集的重要性以及在評(píng)估新的突變體時(shí)需要考慮氨基酸的多樣性(表3)。

3.2 預(yù)訓(xùn)練的雙向LSTM模型生成向量嵌入可以提高突變預(yù)測(cè)的準(zhǔn)確性
使用預(yù)訓(xùn)練的LSTM模型和GCN模型提高突變預(yù)測(cè)的準(zhǔn)確性,LM-GCN模型的預(yù)測(cè)性能比僅使用GCN模型更好。
3.3 在蛋白質(zhì)工程中的適用性
該方法在蛋白質(zhì)工程的應(yīng)用存在三個(gè)限制:1)生成訓(xùn)練數(shù)據(jù)集成本較高,但使用GPU訓(xùn)練模型時(shí)間較短,評(píng)估新突變體速度快;2)如果訓(xùn)練數(shù)據(jù)集中不存在優(yōu)秀的突變體,模型無(wú)法在優(yōu)秀得分區(qū)域進(jìn)行外推,但模型僅使用壞的突變體訓(xùn)練時(shí)仍能給出好的突變體最佳得分;3)如果突變體明顯改變蛋白質(zhì)主鏈構(gòu)象,可能會(huì)出現(xiàn)困難,但在度為1-8的突變體中主鏈變化不明顯,而且邊屬性對(duì)預(yù)測(cè)不是必要的。雖然存在限制,但本研究的重要性在于,一個(gè)簡(jiǎn)單算法能夠?qū)W習(xí)評(píng)估新的突變體組合所需的復(fù)雜協(xié)同關(guān)系,具有重要的應(yīng)用價(jià)值。
討論
作者認(rèn)為使用神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)評(píng)估突變體的復(fù)雜協(xié)同關(guān)系,加速蛋白質(zhì)-配體復(fù)合物結(jié)合能的預(yù)測(cè),實(shí)現(xiàn)超高通量篩選,提高突變體篩選的效率。此外,利用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)和特征注入技術(shù)來(lái)快速預(yù)測(cè)突變體結(jié)合能。然而,該方法的應(yīng)用情況也是有限制的,因?yàn)镽osetta生成的結(jié)合能并不完美,發(fā)現(xiàn)的變體可能在濕實(shí)驗(yàn)中并不起作用。該計(jì)算策略可以減少探索組合空間所需的實(shí)驗(yàn)工作量,本研究還表明使用神經(jīng)網(wǎng)絡(luò)解決組合庫(kù)任務(wù)是有潛力的。
結(jié)論
作者提出了一種深度學(xué)習(xí)策略,利用神經(jīng)網(wǎng)絡(luò)的高組合能力,快速學(xué)習(xí)突變體的組合模式,實(shí)現(xiàn)酶變體與所需配體的結(jié)合能的預(yù)測(cè)。經(jīng)過(guò)微小數(shù)據(jù)集訓(xùn)練后,該方法實(shí)現(xiàn)了高準(zhǔn)確度。使用GCN模塊在突變熱點(diǎn)數(shù)量較少的數(shù)據(jù)集中表現(xiàn)出很高的準(zhǔn)確度,但在熱點(diǎn)數(shù)量較多的數(shù)據(jù)集中準(zhǔn)確度會(huì)降低。為了提高預(yù)測(cè)能力,本研究提出了LM-GCN模塊,它能注入預(yù)訓(xùn)練LM模塊生成的特征向量。本研究展示了神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)酶變體結(jié)合能方面的潛力,可以通過(guò)少量數(shù)據(jù)集進(jìn)行訓(xùn)練來(lái)實(shí)現(xiàn)高準(zhǔn)確度,提高了突變體篩選的效率
參考文獻(xiàn)Ramírez-Palacios C, Marrink SJ. Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks. J Chem Theory Comput. 2023 Mar 24. doi: 10.1021/acs.jctc.2c01227.代碼鏈接
https://github.com/crp-mol/super-HTS
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn