Bioinformatics | MFR-DTA:一種預(yù)測(cè)藥物-靶點(diǎn)結(jié)合親和力和區(qū)域的多功能穩(wěn)健模型

今天給大家講一篇2023年1月在Bioinformatics上發(fā)表的關(guān)于蛋白靶標(biāo)相互作用預(yù)測(cè)的一篇文章,作者提出了MFR-DTA模型,利用BioMLP模塊來(lái)提取生物序列特征,并且通過(guò)Mix-Decoder模塊提取藥物-靶標(biāo)相互作用信息,并同時(shí)預(yù)測(cè)對(duì)應(yīng)的結(jié)合區(qū)域,并在一個(gè)新的數(shù)據(jù)集sc-PDB上與一些現(xiàn)有sota方法比較綁定區(qū)域預(yù)測(cè)的準(zhǔn)確性,從而證明了其比現(xiàn)有的方法的優(yōu)越性。
蛋白靶標(biāo)相互作用預(yù)測(cè)研究背景
通常我們將藥物靶點(diǎn)相互作用預(yù)測(cè)是一個(gè)二值分類任務(wù),但是定值的標(biāo)簽通常很難反映相互作用的強(qiáng)度。Tang等人提出使用正則化最小二乘方法,將藥物靶點(diǎn)相互作用視為回歸任務(wù)來(lái)表示該作用的強(qiáng)度。此外,Oztu¨rk et al.等人首先提出了利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取的生物序列特征的DeepDTA模型來(lái)預(yù)測(cè)該任務(wù),進(jìn)一步,transformercpi利用自注意力機(jī)制增加了相互作用預(yù)測(cè)的可解釋性中,但該方法訓(xùn)練時(shí)消耗了一定的內(nèi)存。然而大部分基于注意力機(jī)制的方法在識(shí)別綁定區(qū)域上效果不是很好,或者說(shuō)突出顯示的區(qū)域與蛋白質(zhì)的生物學(xué)特性無(wú)關(guān)。
MFR-DTA模型總體架構(gòu)
2.1 ?BioMLP及CNN架構(gòu)
如圖1所示,BioMLP/CNN塊的輸入是藥物或蛋白質(zhì)特征表示。其中藥物特征表示由分子指紋和圖卷積方法提取的特征組成,蛋白的特征是由氨基酸嵌入(AAE)和單詞嵌入(WE)組成。作者首先利用全局特征提取器,提取不同生物序列的相關(guān)性,該模塊包含了三個(gè)完全連接的層和兩個(gè)ReLU層,接著藥物的表征通過(guò)CNN架構(gòu),蛋白的表征通過(guò)MLP架構(gòu)來(lái)提取,其中空間注意力模塊用來(lái)捕獲相鄰原子之間的局部關(guān)系。BioMLP使用較少的線性層來(lái)提取局部特征,適用于較短藥物序列。相比之下,BioCNN使用了更多的卷積層,有效地提取如蛋白質(zhì)序列這樣復(fù)雜的特征。

2.2 構(gòu)建混合解碼塊
如圖2所示,混合解碼器可以提取蛋白和配體之間的交互特征從而預(yù)測(cè)它們之間的結(jié)合區(qū)域。公式如下所示

其中Si表示為結(jié)合區(qū)域的第i個(gè)元素,即將藥物特征矩陣作為一個(gè)卷積核,并通過(guò)卷積運(yùn)算將蛋白質(zhì)特征與核進(jìn)行相乘得到二者交互的信息。若該值較高則被認(rèn)為是藥物靶標(biāo)的結(jié)合區(qū)域。進(jìn)一步,作者通過(guò)全局平均池化將鄰接矩陣向下采樣為原子連通性向量,從而減少參數(shù)量。
最后,通過(guò)兩個(gè)增強(qiáng)(S-E)塊和一個(gè)交叉注意力(C-A)塊來(lái)分別融合蛋白與蛋白之間,藥物與藥物之間以及蛋白質(zhì)和藥物之間的相互作用的特征,最終通過(guò)平均池化以及拼接的方式藥物-蛋白相互作用特征,再通過(guò)全連接層從而預(yù)測(cè)二者結(jié)合親和力。

實(shí)驗(yàn)結(jié)果
3.1 評(píng)估數(shù)據(jù)集和指標(biāo)
作者利用三個(gè)數(shù)據(jù)源,KIBA和Davis以及sc-PDB上的額外的氨基酸序列數(shù)據(jù),各自數(shù)據(jù)相應(yīng)的蛋白藥物數(shù)量分布如圖3所示。三個(gè)數(shù)據(jù)集的蛋白質(zhì)序列長(zhǎng)度均小于1500為主,分布相對(duì)均勻。大多數(shù)藥物都是由小于100個(gè)原子組成的小分子。
此外,作者通過(guò)分子量、拓?fù)錁O性表面積、氫鍵供體數(shù)量、氫鍵受體數(shù)量和油水分配系數(shù)等性質(zhì)發(fā)現(xiàn)Davis和KIBA中化合物的性質(zhì)是相似的,這些性質(zhì)決定了藥物是否與蛋白質(zhì)發(fā)生相互作用。訓(xùn)練方式采用5折交叉驗(yàn)證來(lái)訓(xùn)練樣本分為訓(xùn)練集和驗(yàn)證集。
模型的評(píng)價(jià)指標(biāo)包括一致性指數(shù),均方誤差,相關(guān)系數(shù)等。一致性指數(shù)是估計(jì)了預(yù)測(cè)結(jié)果與實(shí)際觀察到的結(jié)果相一致的概率。

3.2 蛋白質(zhì)特征提取與融合方法的分析
實(shí)驗(yàn)分析結(jié)果如圖4所示,作者在提取蛋白表征的時(shí)候分別提取了氨基酸的嵌入以及單詞嵌入兩種提取特征表示方法都取得了良好的效果。氨基酸的嵌入的生物學(xué)特性有助于模型預(yù)測(cè)親和力,因此它在CI指標(biāo)方面表現(xiàn)更好。單詞嵌入提取方法提供了更多的語(yǔ)義信息,使得模型在MSE指標(biāo)表現(xiàn)得更好。

3.3 不同交互特征提取方法的分析
為了研究所提出的混合解碼器塊的有效性,分別采用只是做拼接和替換informer塊來(lái)進(jìn)行消融對(duì)比,如圖4所示,X軸和y軸分別表示一個(gè)樣本的預(yù)測(cè)和測(cè)量的親和力的值。只是拼接的話,在Davis數(shù)據(jù)集上,標(biāo)簽值小的樣本數(shù)量比標(biāo)簽值大的數(shù)量更多,因此模型預(yù)測(cè)的親和力的值通常小于測(cè)量的模型。相比之下,informer塊和混合解碼器塊都可以有效地緩解這個(gè)問(wèn)題,而混合解碼器塊的性能更為突出。此外,KIBA的標(biāo)簽分布相對(duì)正常。這三種方法的散點(diǎn)也大部分集中在對(duì)角線上,而混合解碼器塊的散點(diǎn)分布更為集中。

結(jié)論
作者提出了一種新的MFR-DTA方法來(lái)同時(shí)預(yù)測(cè)DTA和結(jié)合區(qū)域。首先通過(guò)BioMLP/CNN塊提取生物序列特征,整合單個(gè)元素特征和全局位置特征。然后,利用逐元素融合塊對(duì)提取的特征進(jìn)行融合,再利用混合解碼器來(lái)提取蛋白配體相互作用的特征再通過(guò)將全連接層從而預(yù)測(cè)二者之間的親和力。在未來(lái)希望引入更多有效的蛋白配體數(shù)據(jù)集提高深度學(xué)習(xí)模型的魯棒性,并繼續(xù)提高DTA模型的生物學(xué)可解釋性,同時(shí)提高其準(zhǔn)確性從而幫助研究人員發(fā)現(xiàn)新藥。
參考文獻(xiàn)
Abbasi,K. et al. (2020) DeepCDA: deep cross-domain compound–protein af-finity prediction through LSTM and convolutional neural networks.Bioinformatics, 36, 4633–4642.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn