DiffPack: 利用扭轉(zhuǎn)角擴(kuò)散模型進(jìn)行蛋白質(zhì)側(cè)鏈Packing
大家好,今天給大家分享一篇預(yù)印版文章《DiffPack: A Torsional Diffusion Model for?Autoregressive Protein Side-Chain Packing》
簡(jiǎn)介
蛋白質(zhì)在執(zhí)行生物功能方面發(fā)揮著關(guān)鍵作用;蛋白的3D結(jié)構(gòu)對(duì)于確定其功能至關(guān)重要。在給定了蛋白主鏈構(gòu)象的基礎(chǔ)上準(zhǔn)確預(yù)測(cè)蛋白質(zhì)側(cè)鏈的構(gòu)象對(duì)于應(yīng)用來(lái)說(shuō)很重要,例如:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、設(shè)計(jì)和蛋白質(zhì)-蛋白質(zhì)相互作用。
傳統(tǒng)方法計(jì)算量大且精度有限,而現(xiàn)有的機(jī)器學(xué)習(xí)方法將問(wèn)題視為回歸任務(wù)而忽略了恒定的共價(jià)鍵長(zhǎng)度和角度所施加的限制。在在這項(xiàng)工作中,作者們提出了DiffPack,一種學(xué)習(xí)側(cè)鏈扭轉(zhuǎn)角的聯(lián)合分布的擴(kuò)散模型,側(cè)鏈唯一的自由度通過(guò)在扭轉(zhuǎn)空間上進(jìn)行擴(kuò)散和降噪來(lái)進(jìn)行訓(xùn)練和預(yù)測(cè)。為了避免同時(shí)從所有四個(gè)扭轉(zhuǎn)角度的同時(shí)擾動(dòng)帶來(lái)的問(wèn)題,作者提出自回歸生成從 X1 到 X4 的四個(gè)扭轉(zhuǎn)角并單獨(dú)為每個(gè)扭轉(zhuǎn)角訓(xùn)練擴(kuò)散模型。
通過(guò)幾個(gè)基準(zhǔn)上評(píng)估該方法用于蛋白質(zhì)側(cè)鏈Packing表明作者的方法取得了最優(yōu)的效果,同時(shí)模型大小也顯著降低,此外,作者還展示了他們的的方法可以增強(qiáng)AlphaFold2模型在側(cè)鏈預(yù)測(cè)方面的有效性。在這項(xiàng)研究中,作者不再通過(guò)在笛卡爾坐標(biāo)系中預(yù)測(cè)原子級(jí)坐標(biāo)的標(biāo)準(zhǔn),而是通過(guò)引入DiffPack,一種扭轉(zhuǎn)擴(kuò)散模型模擬側(cè)鏈上四個(gè)二面角的聯(lián)合分布。通過(guò)在扭轉(zhuǎn)空間中進(jìn)行擾動(dòng)和去噪,作者使用 SE(3) 不變網(wǎng)絡(luò)來(lái)學(xué)習(xí)扭轉(zhuǎn)角聯(lián)合分布。這樣就可以利用物理限制的鍵長(zhǎng)來(lái)減少極大的搜索空間,從而捕獲蛋白質(zhì)側(cè)鏈復(fù)雜的能量景觀。盡管這樣做體現(xiàn)了一定的有效性,但是,在四個(gè)扭轉(zhuǎn)角上的直接進(jìn)行聯(lián)合擴(kuò)散過(guò)程可能會(huì)導(dǎo)致累積空間沖突和坐標(biāo)位移,這使得模型的去噪過(guò)程變得復(fù)雜化。為了解決這個(gè)問(wèn)題,作者進(jìn)一步提出了一種自回歸擴(kuò)散過(guò)程并訓(xùn)練單獨(dú)的擴(kuò)散模型來(lái)自回歸方式生成從 X1 到 X4 的四個(gè)扭轉(zhuǎn)角。訓(xùn)練期間,每擴(kuò)散模型只需要對(duì)其相應(yīng)的扭轉(zhuǎn)角進(jìn)行擾動(dòng)和去噪,同時(shí)保留蛋白質(zhì)上其他的部分結(jié)構(gòu)不變來(lái)避免上述問(wèn)題。最后,作者進(jìn)一步引入了三種采樣方案,以不斷提高推理結(jié)果:多輪采樣、退火溫度采樣、置信度模型,這些方法都帶來(lái)了明顯的效果。
模型架構(gòu)

如圖一所示,作者在這里提出的方法DiffPack利用了最近大火的擴(kuò)散模型,同時(shí)在蛋白質(zhì)側(cè)鏈的四個(gè)扭轉(zhuǎn)角單獨(dú)定義了擴(kuò)散過(guò)程并分別利用四個(gè)分?jǐn)?shù)網(wǎng)絡(luò)來(lái)從第一個(gè)扭轉(zhuǎn)角到第四個(gè)扭轉(zhuǎn)角進(jìn)行自回歸式的去噪來(lái)實(shí)現(xiàn)訓(xùn)練和推理。

如圖2 所示,CA碳原子上連接的側(cè)鏈具有最多從X1到X4個(gè)扭轉(zhuǎn)角,對(duì)側(cè)鏈的packing其實(shí)就是對(duì)這四個(gè)扭轉(zhuǎn)角的聯(lián)合分布進(jìn)行精準(zhǔn)預(yù)測(cè)。在給定了主鏈結(jié)構(gòu)和蛋白序列的情況下,就是建模給定主鏈和蛋白序列的條件分布,即:

上式中,S表示蛋白質(zhì)序列,Xbb 表示蛋白主鏈結(jié)構(gòu),Xsc 表示待預(yù)測(cè)的側(cè)臉結(jié)構(gòu)。
如上所述,作者為了減少學(xué)習(xí)聯(lián)合分布的難度將四個(gè)角度分別利用四個(gè)分?jǐn)?shù)網(wǎng)絡(luò)來(lái)進(jìn)行自回歸式的建模,上面的式子就可以寫成分離的條件概率的式子:

結(jié)果分析
表1,表2中分別列出來(lái)了在CASP13,CASP14上側(cè)鏈packin任務(wù)中的常用指標(biāo),側(cè)鏈角度MAE和ACC以ATOM RMSD指標(biāo)。與先前的SOTA模型相比較,DiffPack模型具有明顯的優(yōu)勢(shì)


同時(shí),在表三中,作者還通過(guò)AlphaFold2 生成的蛋白主鏈最側(cè)鏈進(jìn)行補(bǔ)齊,發(fā)現(xiàn)會(huì)比原始的結(jié)果好,說(shuō)明這個(gè)工具可以用來(lái)增強(qiáng)蛋白結(jié)構(gòu)預(yù)測(cè)模型的結(jié)果。

在消融實(shí)驗(yàn)中(表4),作者對(duì)比了聯(lián)合擴(kuò)散四個(gè)扭轉(zhuǎn)角和隨機(jī)擴(kuò)散任意一個(gè)扭轉(zhuǎn)角的效果,以及文中提出的多個(gè)提高推理效果的方法,展示了這些技術(shù)的有效性。

案例展示
在圖3中,作者可視化了幾個(gè)推理的結(jié)果,與其他方法相比,文中的方法的精確度具有明顯的提升。

總結(jié)
在這篇工作中,作者提出了一種新的方法DiffPack,該方法利用扭轉(zhuǎn)空間中的擴(kuò)散過(guò)程來(lái)模擬蛋白質(zhì)側(cè)鏈packing。與普通的聯(lián)合擴(kuò)散過(guò)程不同,DiffPack包含了一個(gè)自回歸擴(kuò)散過(guò)程,實(shí)證結(jié)果表明,與現(xiàn)有方法相比,作者提出的方法在預(yù)測(cè)蛋白質(zhì)側(cè)鏈構(gòu)象方面具有一定的優(yōu)越性。
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn