散文網(wǎng) » 生活 »日常 » DiffPack: 利用扭轉(zhuǎn)角擴(kuò)散模型進(jìn)行蛋白質(zhì)側(cè)鏈Packing

DiffPack: 利用扭轉(zhuǎn)角擴(kuò)散模型進(jìn)行蛋白質(zhì)側(cè)鏈Packing

2023-07-11 14:07 作者:AIDDPro 0人讀過(guò) | 我要投稿

大家好，今天給大家分享一篇預(yù)印版文章《DiffPack: A Torsional Diffusion Model for?Autoregressive Protein Side-Chain Packing》

簡(jiǎn)介

蛋白質(zhì)在執(zhí)行生物功能方面發(fā)揮著關(guān)鍵作用；蛋白的3D結(jié)構(gòu)對(duì)于確定其功能至關(guān)重要。在給定了蛋白主鏈構(gòu)象的基礎(chǔ)上準(zhǔn)確預(yù)測(cè)蛋白質(zhì)側(cè)鏈的構(gòu)象對(duì)于應(yīng)用來(lái)說(shuō)很重要，例如：蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、設(shè)計(jì)和蛋白質(zhì)-蛋白質(zhì)相互作用。

傳統(tǒng)方法計(jì)算量大且精度有限，而現(xiàn)有的機(jī)器學(xué)習(xí)方法將問(wèn)題視為回歸任務(wù)而忽略了恒定的共價(jià)鍵長(zhǎng)度和角度所施加的限制。在在這項(xiàng)工作中，作者們提出了DiffPack，一種學(xué)習(xí)側(cè)鏈扭轉(zhuǎn)角的聯(lián)合分布的擴(kuò)散模型，側(cè)鏈唯一的自由度通過(guò)在扭轉(zhuǎn)空間上進(jìn)行擴(kuò)散和降噪來(lái)進(jìn)行訓(xùn)練和預(yù)測(cè)。為了避免同時(shí)從所有四個(gè)扭轉(zhuǎn)角度的同時(shí)擾動(dòng)帶來(lái)的問(wèn)題，作者提出自回歸生成從 X1 到 X4 的四個(gè)扭轉(zhuǎn)角并單獨(dú)為每個(gè)扭轉(zhuǎn)角訓(xùn)練擴(kuò)散模型。

通過(guò)幾個(gè)基準(zhǔn)上評(píng)估該方法用于蛋白質(zhì)側(cè)鏈Packing表明作者的方法取得了最優(yōu)的效果，同時(shí)模型大小也顯著降低，此外，作者還展示了他們的的方法可以增強(qiáng)AlphaFold2模型在側(cè)鏈預(yù)測(cè)方面的有效性。在這項(xiàng)研究中，作者不再通過(guò)在笛卡爾坐標(biāo)系中預(yù)測(cè)原子級(jí)坐標(biāo)的標(biāo)準(zhǔn)，而是通過(guò)引入DiffPack，一種扭轉(zhuǎn)擴(kuò)散模型模擬側(cè)鏈上四個(gè)二面角的聯(lián)合分布。通過(guò)在扭轉(zhuǎn)空間中進(jìn)行擾動(dòng)和去噪，作者使用 SE(3) 不變網(wǎng)絡(luò)來(lái)學(xué)習(xí)扭轉(zhuǎn)角聯(lián)合分布。這樣就可以利用物理限制的鍵長(zhǎng)來(lái)減少極大的搜索空間，從而捕獲蛋白質(zhì)側(cè)鏈復(fù)雜的能量景觀。盡管這樣做體現(xiàn)了一定的有效性，但是，在四個(gè)扭轉(zhuǎn)角上的直接進(jìn)行聯(lián)合擴(kuò)散過(guò)程可能會(huì)導(dǎo)致累積空間沖突和坐標(biāo)位移，這使得模型的去噪過(guò)程變得復(fù)雜化。為了解決這個(gè)問(wèn)題，作者進(jìn)一步提出了一種自回歸擴(kuò)散過(guò)程并訓(xùn)練單獨(dú)的擴(kuò)散模型來(lái)自回歸方式生成從 X1 到 X4 的四個(gè)扭轉(zhuǎn)角。訓(xùn)練期間，每擴(kuò)散模型只需要對(duì)其相應(yīng)的扭轉(zhuǎn)角進(jìn)行擾動(dòng)和去噪，同時(shí)保留蛋白質(zhì)上其他的部分結(jié)構(gòu)不變來(lái)避免上述問(wèn)題。最后，作者進(jìn)一步引入了三種采樣方案，以不斷提高推理結(jié)果：多輪采樣、退火溫度采樣、置信度模型，這些方法都帶來(lái)了明顯的效果。

模型架構(gòu)

如圖一所示，作者在這里提出的方法DiffPack利用了最近大火的擴(kuò)散模型，同時(shí)在蛋白質(zhì)側(cè)鏈的四個(gè)扭轉(zhuǎn)角單獨(dú)定義了擴(kuò)散過(guò)程并分別利用四個(gè)分?jǐn)?shù)網(wǎng)絡(luò)來(lái)從第一個(gè)扭轉(zhuǎn)角到第四個(gè)扭轉(zhuǎn)角進(jìn)行自回歸式的去噪來(lái)實(shí)現(xiàn)訓(xùn)練和推理。

如圖2 所示，CA碳原子上連接的側(cè)鏈具有最多從X1到X4個(gè)扭轉(zhuǎn)角，對(duì)側(cè)鏈的packing其實(shí)就是對(duì)這四個(gè)扭轉(zhuǎn)角的聯(lián)合分布進(jìn)行精準(zhǔn)預(yù)測(cè)。在給定了主鏈結(jié)構(gòu)和蛋白序列的情況下，就是建模給定主鏈和蛋白序列的條件分布，即：

上式中，S表示蛋白質(zhì)序列，Xbb 表示蛋白主鏈結(jié)構(gòu)，Xsc 表示待預(yù)測(cè)的側(cè)臉結(jié)構(gòu)。

如上所述，作者為了減少學(xué)習(xí)聯(lián)合分布的難度將四個(gè)角度分別利用四個(gè)分?jǐn)?shù)網(wǎng)絡(luò)來(lái)進(jìn)行自回歸式的建模,上面的式子就可以寫成分離的條件概率的式子：

結(jié)果分析

表1,表2中分別列出來(lái)了在CASP13,CASP14上側(cè)鏈packin任務(wù)中的常用指標(biāo)，側(cè)鏈角度MAE和ACC以ATOM RMSD指標(biāo)。與先前的SOTA模型相比較，DiffPack模型具有明顯的優(yōu)勢(shì)

同時(shí)，在表三中，作者還通過(guò)AlphaFold2 生成的蛋白主鏈最側(cè)鏈進(jìn)行補(bǔ)齊,發(fā)現(xiàn)會(huì)比原始的結(jié)果好，說(shuō)明這個(gè)工具可以用來(lái)增強(qiáng)蛋白結(jié)構(gòu)預(yù)測(cè)模型的結(jié)果。

在消融實(shí)驗(yàn)中（表4），作者對(duì)比了聯(lián)合擴(kuò)散四個(gè)扭轉(zhuǎn)角和隨機(jī)擴(kuò)散任意一個(gè)扭轉(zhuǎn)角的效果，以及文中提出的多個(gè)提高推理效果的方法，展示了這些技術(shù)的有效性。

案例展示

在圖3中，作者可視化了幾個(gè)推理的結(jié)果，與其他方法相比，文中的方法的精確度具有明顯的提升。

總結(jié)

在這篇工作中，作者提出了一種新的方法DiffPack，該方法利用扭轉(zhuǎn)空間中的擴(kuò)散過(guò)程來(lái)模擬蛋白質(zhì)側(cè)鏈packing。與普通的聯(lián)合擴(kuò)散過(guò)程不同，DiffPack包含了一個(gè)自回歸擴(kuò)散過(guò)程，實(shí)證結(jié)果表明，與現(xiàn)有方法相比，作者提出的方法在預(yù)測(cè)蛋白質(zhì)側(cè)鏈構(gòu)象方面具有一定的優(yōu)越性。

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿，文中所述觀點(diǎn)僅代表作者本人觀點(diǎn)，不代表AIDD Pro平臺(tái)，如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀，請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán)，禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn

標(biāo)簽：蛋白質(zhì)擴(kuò)散模型蛋白質(zhì)側(cè)鏈