最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

JCTC | 利用譜圖卷積神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)酶變異體的超高通量篩選

2023-04-04 10:16 作者:AIDDPro  | 我要投稿

今天介紹的是近期格羅寧根大學(xué)發(fā)表在JCTC的一篇論文:《Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks》。這篇文章提出了一種使用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來(lái)預(yù)測(cè)酶復(fù)合物結(jié)合能的新方法。該方法可以在不到1毫秒的時(shí)間內(nèi)評(píng)估一種酶變異體,從而可以在單個(gè)GPU上搜索數(shù)十億個(gè)候選體。這一方法能夠有效地加速酶變異體篩選的過(guò)程,為尋找具有所需底物范圍的新酶變異體提供了新的思路。

研究背景

酶工程是通過(guò)改變構(gòu)成酶的氨基酸序列來(lái)改進(jìn)酶的性質(zhì)。改進(jìn)的性質(zhì)通常包括催化活性、底物特異性、對(duì)映選擇性或熱穩(wěn)定性等。目前酶工程的兩種主要方法是定向進(jìn)化有理設(shè)計(jì),但這些方法需要大量的實(shí)驗(yàn)或計(jì)算工作。機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)是指導(dǎo)酶工程研究的第三種可能性。然而,機(jī)器學(xué)習(xí)在蛋白質(zhì)工程中的應(yīng)用受到數(shù)據(jù)集大小和分子表示的挑戰(zhàn),這些問(wèn)題可以通過(guò)更高效的算法和圖、序列等分子表示方法來(lái)解決。本研究提出了一種使用深度圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來(lái)探索酶變異體適應(yīng)度景觀的方法,該方法是在傳統(tǒng)的分子建模方法生成的大數(shù)據(jù)集上進(jìn)行訓(xùn)練的,可以在不到24小時(shí)內(nèi)評(píng)估數(shù)千萬(wàn)個(gè)變異體。該方法可以加速酶變異體篩選的過(guò)程,為尋找具有所需底物范圍的新酶變異體提供了新的思路。本研究還以Vf-TA為例,介紹了如何使用GCN模型評(píng)分并預(yù)測(cè)酶變異體的適應(yīng)性。

方法

2.1 訓(xùn)練數(shù)據(jù)集

隨機(jī)生成了包含10,000個(gè)Vf-TA變異體的樣本庫(kù)作為訓(xùn)練數(shù)據(jù)。這些變異體是通過(guò)在預(yù)定的Nhot熱點(diǎn)中隨機(jī)突變,生成Lth-order突變體(L=1,單突變體;L=2,雙突變體等),并將其中一個(gè)氨基酸從20種天然氨基酸的集合中隨機(jī)選擇來(lái)生成的。每個(gè)樣本si都通過(guò)計(jì)算酶變異體與配體(圖1A)之間的結(jié)合自由能來(lái)進(jìn)行標(biāo)注(yi)。

圖1 ?A) 方法。在數(shù)據(jù)集中,酶變異體(si)的標(biāo)簽是變異體與配體在復(fù)合物中的結(jié)合自由能 (yi)。B) 查詢變異體的圖表示形式

2.2 數(shù)據(jù)標(biāo)簽

酶變異體的標(biāo)簽是使用變異體與配體形成復(fù)合物時(shí)的結(jié)合自由能標(biāo)注的。結(jié)合自由能來(lái)自Rosetta計(jì)算(Rosetta Interface Energy)。

2.3 蛋白質(zhì)的圖表示形式

作者使用圖表示法表示酶變異體,僅考慮與結(jié)合位點(diǎn)附近的蛋白質(zhì)殘基形成圖形,保留了23個(gè)殘基的節(jié)點(diǎn),并允許這些殘基的較小子集進(jìn)行突變。節(jié)點(diǎn)矩陣X的特征化使用從AAindex中選取的F個(gè)特征進(jìn)行。邊屬性E被定義為蛋白質(zhì)殘基之間的成對(duì)距離的倒數(shù)。僅從蛋白質(zhì)序列評(píng)估新的變異體,大大降低了計(jì)算成本。

圖2 A) Vf-TA結(jié)合位點(diǎn)的圖形表示示例。B) 顯示邊權(quán)重矩陣的熱圖。C) 顯示特征矩陣的熱圖

2.4 圖卷積

輸入圖形??通過(guò)一系列卷積層(圖3),生成一個(gè)越來(lái)越抽象的輸入信號(hào)表示。本研究中使用的圖卷積層是由Bianchi等人提出的。

圖3 譜圖卷積


2.5 使用預(yù)訓(xùn)練的 LSTM 模型進(jìn)行表征學(xué)習(xí)

為了提高GCN模型的準(zhǔn)確性,使用了蛋白質(zhì)序列嵌入來(lái)補(bǔ)充輸入信號(hào),嵌入通過(guò)預(yù)訓(xùn)練的雙向LSTM模型生成。LSTM模型使用來(lái)自Pfam數(shù)據(jù)庫(kù)的約1000萬(wàn)個(gè)蛋白質(zhì)序列進(jìn)行訓(xùn)練。

圖4 表示學(xué)習(xí)方法

實(shí)驗(yàn)結(jié)果

3.1 經(jīng)過(guò)訓(xùn)練的譜圖卷積網(wǎng)絡(luò)能夠以高精度預(yù)測(cè)結(jié)合能

作者使用Rosetta生成和評(píng)分的Vf-TA酶-配體復(fù)合物突變庫(kù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練后的GCN模型不僅能夠高精度預(yù)測(cè)未知變異體的結(jié)合能,而且比Rosetta快六個(gè)數(shù)量級(jí)。在單個(gè)GPU上,每個(gè)變異體評(píng)估大約需要1.36毫秒,但可以進(jìn)行并行化。這種加速開(kāi)辟了以低計(jì)算成本掃描數(shù)十億的酶變異體的可能性。

圖5 A)KDE散點(diǎn)圖顯示GCN預(yù)測(cè)的結(jié)合能(縱軸; ?i)與Rosetta得分(橫軸; yi)在測(cè)試數(shù)據(jù)集(n=2,000)中的相關(guān)性。B)直方圖顯示使用訓(xùn)練模型(n=160,000)獲得的整個(gè)組合空間的結(jié)合能分布(黑線),與Rosetta提出的設(shè)計(jì)(未用于訓(xùn)練)的直方圖重疊(藍(lán)色條形) (n = 800)。C)當(dāng)Rosetta負(fù)責(zé)從一組預(yù)定義的可變位置中提出新變異體時(shí),生成的變異體將傾向于在組合和構(gòu)象空間中靠近

然后,作者使用在??1上訓(xùn)練的GCN模型對(duì)160,000個(gè)變異體進(jìn)行了篩選(圖4B),與在Rosetta中運(yùn)行以提出新變異體時(shí)獲得的變異體分布進(jìn)行了比較。結(jié)果顯示,GCN模型能夠依靠“蠻力”方法提出和Rosetta一樣好的變異體,但計(jì)算成本更低。此外,“蠻力”方法可以探索在組合或構(gòu)象空間中不接近初始變異體的變異體。研究還發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)集中的突變體程度和突變體所包含的氨基酸種類對(duì)模型性能有重要影響。使用高階突變體的訓(xùn)練數(shù)據(jù)集可以提高模型的預(yù)測(cè)準(zhǔn)確性,而訓(xùn)練數(shù)據(jù)集中含有的氨基酸種類也會(huì)影響模型的泛化能力。此外,低階突變體訓(xùn)練的模型無(wú)法很好地推廣到高階突變體,同時(shí)評(píng)估未見(jiàn)過(guò)的氨基酸時(shí)模型表現(xiàn)不佳。這強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)集的重要性以及在評(píng)估新的突變體時(shí)需要考慮氨基酸的多樣性(表3)。

表1 GCN 和 LM-GCN 模型在不同數(shù)據(jù)集上的性能

3.2 預(yù)訓(xùn)練的雙向LSTM模型生成向量嵌入可以提高突變預(yù)測(cè)的準(zhǔn)確性

使用預(yù)訓(xùn)練的LSTM模GCN模型提高突變預(yù)測(cè)的準(zhǔn)確性,LM-GCN模型的預(yù)測(cè)性能比僅使用GCN模型更好。

3.3 在蛋白質(zhì)工程中的適用性

該方法在蛋白質(zhì)工程的應(yīng)用存在三個(gè)限制:1)生成訓(xùn)練數(shù)據(jù)集成本較高,但使用GPU訓(xùn)練模型時(shí)間較短,評(píng)估新突變體速度快;2)如果訓(xùn)練數(shù)據(jù)集中不存在優(yōu)秀的突變體,模型無(wú)法在優(yōu)秀得分區(qū)域進(jìn)行外推,但模型僅使用壞的突變體訓(xùn)練時(shí)仍能給出好的突變體最佳得分;3)如果突變體明顯改變蛋白質(zhì)主鏈構(gòu)象,可能會(huì)出現(xiàn)困難,但在度為1-8的突變體中主鏈變化不明顯,而且邊屬性對(duì)預(yù)測(cè)不是必要的。雖然存在限制,但本研究的重要性在于,一個(gè)簡(jiǎn)單算法能夠?qū)W習(xí)評(píng)估新的突變體組合所需的復(fù)雜協(xié)同關(guān)系,具有重要的應(yīng)用價(jià)值。

討論

作者認(rèn)為使用神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)評(píng)估突變體的復(fù)雜協(xié)同關(guān)系,加速蛋白質(zhì)-配體復(fù)合物結(jié)合能的預(yù)測(cè),實(shí)現(xiàn)超高通量篩選,提高突變體篩選的效率。此外,利用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)和特征注入技術(shù)來(lái)快速預(yù)測(cè)突變體結(jié)合能。然而,該方法的應(yīng)用情況也是有限制的,因?yàn)镽osetta生成的結(jié)合能并不完美,發(fā)現(xiàn)的變體可能在濕實(shí)驗(yàn)中并不起作用。該計(jì)算策略可以減少探索組合空間所需的實(shí)驗(yàn)工作量,本研究還表明使用神經(jīng)網(wǎng)絡(luò)解決組合庫(kù)任務(wù)是有潛力的。

結(jié)論

作者提出了一種深度學(xué)習(xí)策略,利用神經(jīng)網(wǎng)絡(luò)的高組合能力,快速學(xué)習(xí)突變體的組合模式,實(shí)現(xiàn)酶變體與所需配體的結(jié)合能的預(yù)測(cè)。經(jīng)過(guò)微小數(shù)據(jù)集訓(xùn)練后,該方法實(shí)現(xiàn)了高準(zhǔn)確度。使用GCN模塊在突變熱點(diǎn)數(shù)量較少的數(shù)據(jù)集中表現(xiàn)出很高的準(zhǔn)確度,但在熱點(diǎn)數(shù)量較多的數(shù)據(jù)集中準(zhǔn)確度會(huì)降低。為了提高預(yù)測(cè)能力,本研究提出了LM-GCN模塊,它能注入預(yù)訓(xùn)練LM模塊生成的特征向量。本研究展示了神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)酶變體結(jié)合能方面的潛力,可以通過(guò)少量數(shù)據(jù)集進(jìn)行訓(xùn)練來(lái)實(shí)現(xiàn)高準(zhǔn)確度,提高了突變體篩選的效率

參考文獻(xiàn)Ramírez-Palacios C, Marrink SJ. Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks. J Chem Theory Comput. 2023 Mar 24. doi: 10.1021/acs.jctc.2c01227.代碼鏈接

https://github.com/crp-mol/super-HTS

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn


JCTC | 利用譜圖卷積神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)酶變異體的超高通量篩選的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
陇西县| 泸西县| 陇南市| 自治县| 胶南市| 旅游| 资阳市| 阿尔山市| 玛纳斯县| 商水县| 同江市| 万州区| 灵璧县| 隆德县| 文安县| 铜梁县| 宽甸| 铅山县| 永顺县| 左云县| 南京市| 武鸣县| 文山县| 石河子市| 闻喜县| 客服| 本溪| 韶山市| 阿坝县| 贞丰县| 威远县| 宜丰县| 临海市| 沂水县| 凌源市| 博野县| 广南县| 松原市| 仁布县| 贵州省| 玛曲县|