TB-IECS:一種基于機(jī)器學(xué)習(xí)的可用于虛擬篩選的準(zhǔn)確評(píng)分函數(shù)
近日,一篇關(guān)于機(jī)器學(xué)習(xí)的評(píng)分函數(shù)的文章《TB-IECS: an accurate machine learning-based scoring function for virtual screening》于2023年7月發(fā)表在J Cheminform雜志。作者提出了一種名為TB-IECS的評(píng)分函數(shù),該函數(shù)結(jié)合了來(lái)自Smina和NNScore2的能量項(xiàng),并使用XGBoost構(gòu)建模型。TB-IECS 的虛擬篩選能力在DUD-E和LIT-PCBA數(shù)據(jù)集以及 ChemDiv 數(shù)據(jù)庫(kù)中的七個(gè)靶標(biāo)數(shù)據(jù)集上進(jìn)行了評(píng)估。結(jié)果表明,TB-IECS表現(xiàn)優(yōu)于Glide SP和Dock等傳統(tǒng)評(píng)分函數(shù),同時(shí)也有效地平衡了效率和準(zhǔn)確性。

研究意義
基于結(jié)構(gòu)的虛擬篩選(SBVS)是藥物發(fā)現(xiàn)中常用的方法,其中分子對(duì)接是核心技術(shù)之一。分子對(duì)接可以預(yù)測(cè)蛋白質(zhì)-配體復(fù)合物的結(jié)合模式,并使用評(píng)分函數(shù)估算結(jié)合親和力。然而,傳統(tǒng)評(píng)分函數(shù)的準(zhǔn)確性可能不足,因此開(kāi)發(fā)了基于從蛋白質(zhì)-配體復(fù)合物中生成的廣泛描述符的機(jī)器學(xué)習(xí)評(píng)分函數(shù)(MLSF)。在這項(xiàng)研究中,作者提出了一種新的評(píng)分函數(shù),稱(chēng)為基于理論的相互作用能量組合評(píng)分(TB-IECS),它采用經(jīng)典的XGBoost算法,基于Smina和NNScore2獲得的能量項(xiàng)開(kāi)發(fā)。探索了TB-IECS用于虛擬篩選的能力,以及不同特征組合、機(jī)器學(xué)習(xí)算法和特征向量長(zhǎng)度對(duì)模型性能的影響。
數(shù)據(jù)集
如表1所示,本研究使用的基準(zhǔn)數(shù)據(jù)集包括DUD-E的多樣化子集(數(shù)據(jù)集I)和?LIT-PCBA 的一個(gè)子集(數(shù)據(jù)集II)。DUD-E 包含22,886個(gè)分子,102個(gè)靶點(diǎn)。LIT-PCBA數(shù)據(jù)集包含15個(gè)靶點(diǎn),共有7844個(gè)活性化合物和407,381個(gè)非活性化合物。此外,作者還隨機(jī)從ChemDiv數(shù)據(jù)庫(kù)提取化合物用于擴(kuò)展LIT-PCBA中7個(gè)靶點(diǎn)的偽配體集來(lái)構(gòu)建數(shù)據(jù)集III。表1 DUD-E和LIT-PCBA的不同子集的信息

評(píng)分函數(shù)及能量項(xiàng)
本研究使用了15種傳統(tǒng)評(píng)分函數(shù)對(duì)從對(duì)接中獲得的對(duì)接構(gòu)象重新評(píng)分,并從輸出的評(píng)分文件中提取描述符。根據(jù)物理原理,這15種評(píng)分函數(shù)的能量項(xiàng)可以大致分為以下幾類(lèi):

工作流程
本研究的完整工作流程如圖1所示。首先,收集了三個(gè)數(shù)據(jù)集,并通過(guò)對(duì)接預(yù)測(cè)蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)。選擇數(shù)據(jù)集I和數(shù)據(jù)集II中每個(gè)配體的排名前1的結(jié)合復(fù)合物生成描述符,并由15個(gè)經(jīng)典評(píng)分函數(shù)重新評(píng)分。然后,將15個(gè)評(píng)分函數(shù)的分解能量項(xiàng)作為描述符用于構(gòu)建MLSFS。第一種策略將不同公式中不同相互作用類(lèi)型的特征合并,產(chǎn)生了288種組合(表2)。另一種方法則采用基于樹(shù)的特征選擇生成的重要性評(píng)分,共有36種特征組合(表2)。因此,共獲得了324個(gè)特征組合進(jìn)行進(jìn)一步分析。接下來(lái),利用SVM算法基于數(shù)據(jù)集I的324個(gè)特征組進(jìn)行訓(xùn)練和測(cè)試。根據(jù)324個(gè)模型的性能,選擇了5種最佳特征組合,以進(jìn)一步研究特征向量長(zhǎng)度、物理化學(xué)能量組合和機(jī)器學(xué)習(xí)算法對(duì)模型性能的影響。最后,作者提出了一種新的基于Smina、NNScore2和XGBoost算法獲得的能量項(xiàng)構(gòu)建的TB-IECS,并進(jìn)一步評(píng)估了其在數(shù)據(jù)集I、數(shù)據(jù)集II和數(shù)據(jù)集III上的篩選能力。


實(shí)驗(yàn)結(jié)果
5.1 在不同特征上訓(xùn)練的模型的性能
本研究通過(guò)對(duì)接預(yù)測(cè)蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu),利用15個(gè)經(jīng)典評(píng)分函數(shù)的分解能量項(xiàng)作為描述符,構(gòu)建了324個(gè)特征組合,其中包括基于公式和基于樹(shù)的求和、平均方法。最終使用SVM算法訓(xùn)練和測(cè)試這些不同的特征組合,并選擇出5種最佳的組合(圖2)。研究結(jié)果表明,基于公式的方法通常比基于樹(shù)的方法表現(xiàn)更好。

5.2 模型預(yù)測(cè)分析
作者選擇了基于公式、基于樹(shù)的求和和基于樹(shù)的平均方法來(lái)組合15個(gè)經(jīng)典評(píng)分函數(shù)的分解能量項(xiàng),構(gòu)建了不同的特征組合,并使用SVM算法對(duì)這些特征進(jìn)行訓(xùn)練和測(cè)試(表3)。從每組中選擇出最佳特征組合,并根據(jù)基于樹(shù)的方法對(duì)特征重要性的預(yù)測(cè),選擇了具有最高重要性得分的能量項(xiàng)進(jìn)行組合,產(chǎn)生了2個(gè)其他特征組合。如圖3所示,使用所有特征進(jìn)行訓(xùn)練和測(cè)試的模型在大多數(shù)測(cè)試目標(biāo)上表現(xiàn)最佳,但基于理論的特征組合模型也顯示出令人滿(mǎn)意的準(zhǔn)確性。與使用單個(gè)評(píng)分函數(shù)的能量項(xiàng)相比,基于理論的特征組合通常會(huì)提高模型性能。此外,特征向量長(zhǎng)度也可能影響模型性能。


5.3 不同相互作用特征和特征向量長(zhǎng)度對(duì)模型性能的影響
為了研究不同相互作用類(lèi)型對(duì)模型性能的影響,作者創(chuàng)建了一系列特征組合。如圖4所示,在任何一種相互作用類(lèi)型缺失時(shí),F(xiàn)1得分沒(méi)有顯著降低,F(xiàn)1得分的分布也保持不變。這表明,基于理論的特征組合中包含了足夠多的描述符,使它們不會(huì)對(duì)單個(gè)相互作用類(lèi)型的缺失敏感。不同相互作用類(lèi)型對(duì)模型性能的影響較小,而基于理論的特征組合可以提高模型的魯棒性。
在測(cè)試的所有目標(biāo)中,隨著特征數(shù)量的增加,F(xiàn)1得分也在增加。當(dāng)特征數(shù)量增加到約200時(shí),F(xiàn)1得分達(dá)到了最終穩(wěn)定狀態(tài),進(jìn)一步增加特征數(shù)量并沒(méi)有提高準(zhǔn)確性。此外,NNScore與互補(bǔ)描述符的使用有益于提高模型性能。

5.4 不同機(jī)器學(xué)習(xí)算法對(duì)模型性能的影響
根據(jù)圖5的結(jié)果顯示,SVM模型在平均F1得分方面表現(xiàn)最佳,而RF模型表現(xiàn)最差。考慮到XGBoost模型與SVM模型表現(xiàn)相當(dāng),并且計(jì)算速度比SVM模型更快,因此作者選擇XGBoost算法進(jìn)行進(jìn)一步的建模。

5.5 在最優(yōu)的描述符和機(jī)器學(xué)習(xí)算法上訓(xùn)練模型
基于上述結(jié)果,作者選擇了長(zhǎng)特征向量和XGBoost算法,并嘗試構(gòu)建一個(gè)準(zhǔn)確的機(jī)器學(xué)習(xí)評(píng)分函數(shù)。將單個(gè)能量項(xiàng)分解為蛋白質(zhì)殘基和配體原子的貢獻(xiàn)分?jǐn)?shù)(IFP)可以顯著提高模型性能。最終,作者選擇Chemplp ifp作為新的基于理論的特征組合。NNScore和Smina的能量成分也被用于新的基于理論的特征。
5.6 模型在數(shù)據(jù)集上的表現(xiàn)
作者首先在DUD-E數(shù)據(jù)集上進(jìn)行了測(cè)試(如表4所示)。總體而言,基于新的理論特征組合訓(xùn)練的模型優(yōu)于傳統(tǒng)的評(píng)分函數(shù)。在大多數(shù)情況下,Smina_nn模型表現(xiàn)最佳。因此,作者選擇Smina_nn模型作為最終的評(píng)分函數(shù),命名為TB-IEC。

隨后,作者在LIT-PCBA數(shù)據(jù)集上對(duì)模型進(jìn)行了驗(yàn)證,在LIT-PCBA數(shù)據(jù)集上,TB-IECS的AUC值有所下降,但仍然顯著高于Glide SP。此外,與Glide SP相比,TB-IECS表現(xiàn)出更好的識(shí)別能力(表5)。為了進(jìn)一步探索TB-IECS的篩選能力,專(zhuān)門(mén)針對(duì)七個(gè)不同的靶標(biāo)訓(xùn)練了七個(gè)TB-IECS模型,并用于對(duì)ChemDiv數(shù)據(jù)庫(kù)(數(shù)據(jù)集III)進(jìn)行篩選。如圖6所示,TB-IECS在數(shù)據(jù)集III上的表現(xiàn)類(lèi)似于在LIT-PCBA上的表現(xiàn)。至于EF(1%),TB-IECS和Glide SP在數(shù)據(jù)集III上的表現(xiàn)均優(yōu)于在LIT-PCBA上的表現(xiàn),但TB-IECS比Glide SP更有效??傊?,TB-IECS在虛擬篩選方面展現(xiàn)出潛在的能力,并在不同的評(píng)估中優(yōu)于Glide SP。


結(jié)論
本研究提出了一種基于理論的特征組合的機(jī)器學(xué)習(xí)評(píng)分函數(shù)(TB-IECS),該函數(shù)利用多個(gè)傳統(tǒng)評(píng)分函數(shù)中描述蛋白質(zhì)-小分子復(fù)合物重要非鍵合相互作用的能量成分,重新組合形成特征向量。TB-IECS利用強(qiáng)大的篩選能力進(jìn)行構(gòu)建,能夠有效地評(píng)估蛋白質(zhì)-小分子復(fù)合物的親和力。研究發(fā)現(xiàn),選擇適當(dāng)?shù)奶卣鹘M合可以提高模型性能,而特征向量長(zhǎng)度對(duì)模型效率有很大影響。TB-IECS在DUD-E數(shù)據(jù)集、LIT-PCBA數(shù)據(jù)集和實(shí)際情景的虛擬篩選中表現(xiàn)出更好的性能,并顯著提高了傳統(tǒng)評(píng)分函數(shù)中早期識(shí)別率較低的問(wèn)題。TB-IECS在MLSF中表現(xiàn)出優(yōu)越性,有望成為一種準(zhǔn)確的虛擬篩選方法。
參考文獻(xiàn)
Zhang, X., Shen, C., Jiang, D., Zhang, J., Ye, Q., Xu, L., Hou, T., Pan, P., & Kang, Y. (2023). TB-IECS: an accurate machine learning-based scoring function for virtual screening. Journal of cheminformatics, 15(1), 63. https://doi.org/10.1186/s13321-023-00731-x
代碼
https://github.com/schrojunzhang/TB-IEC-Score
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀(guān)點(diǎn)僅代表作者本人觀(guān)點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn