JCIM | 稀疏蛋白激酶活性數(shù)據(jù)的大規(guī)模建模
近日,一篇關(guān)于激酶活性數(shù)據(jù)建模的論文:《Large-Scale Modeling of Sparse Protein Kinase Activity Data》于2023年6月發(fā)表在JCIM雜志。作者構(gòu)建了一個激酶的基準(zhǔn)集,用于基準(zhǔn)測試和建立激酶活性預(yù)測模型。

研究意義
蛋白激酶是一類超過500種負(fù)責(zé)蛋白質(zhì)磷酸化的酶家族。大多數(shù)信號通路都包含激酶,在蛋白質(zhì)調(diào)節(jié)的各個方面起到關(guān)鍵作用。計算機(jī)輔助藥物設(shè)計(CADD)可以通過減少合成化合物的數(shù)量和所需實驗的數(shù)量來降低藥物研發(fā)成本,特別是在早期藥物發(fā)現(xiàn)階段。
在藥物設(shè)計中,目標(biāo)是建立具有泛化能力的模型,即盡可能地能夠很好地預(yù)測新化合物的性質(zhì)。因此,模型性能應(yīng)該使用“真實”的劃分方法進(jìn)行評估(即盡可能地對應(yīng)實際情況)。
本文介紹了一種“隨機(jī)全局平衡選擇”(RGES),它可以解決多任務(wù)建模中數(shù)據(jù)泄漏、數(shù)據(jù)平衡問題;同時,最近由Tricarico等人提出的一種基于“相異性驅(qū)動的全局平衡聚類”(DGBC)切分可以解決數(shù)據(jù)泄漏、數(shù)據(jù)平衡和分子差異性問題。它同時最大化差異性并在全局范圍內(nèi)平衡各個集合。
主要貢獻(xiàn)
本文介紹了兩個經(jīng)過篩選和整理的大型激酶活性數(shù)據(jù)集,它們來自公共數(shù)據(jù)庫:
Kinase200包含197個激酶,每個激酶至少200個活性數(shù)據(jù)點。
Kinase1000包含74個激酶,每個激酶至少1000個活性數(shù)據(jù)點。
所選的激酶在人類蛋白質(zhì)激酶樹上用圖1突出顯示。作者使用出了兩種平衡的80-10-10多任務(wù)劃分方法用于活性預(yù)測模型:基于隨機(jī)拆分和聚類的方法。

圖1 人類蛋白質(zhì)激酶樹,其中突出顯示了所選的激酶。Kinase1000中的激酶為藍(lán)色,而Kinase200中的額外激酶為橙色。節(jié)點的大小表示每個所選激酶的化合物數(shù)。
數(shù)據(jù)集創(chuàng)建
作者從Papyrus數(shù)據(jù)集中檢索了所有被標(biāo)記為“高”質(zhì)量的蛋白激酶活性數(shù)據(jù)點,并過濾掉了分子量大于1000 Da的化合物,以及多次測量的標(biāo)準(zhǔn)差大于1.0對數(shù)單位的數(shù)據(jù)。此外,刪除了所有的變構(gòu)數(shù)據(jù),以及刪除所有與變構(gòu)分子的Tanimoto相似性大于0.8的化合物。Kinase200和Kinase1000數(shù)據(jù)如表一所示。

數(shù)據(jù)劃分
使用RGES拆分或DGBC拆分方法,將數(shù)據(jù)集劃分為訓(xùn)練集、測試集和驗證集,其中80%的數(shù)據(jù)用于訓(xùn)練集,10%用于測試集,10%用于驗證集。然后使用三種不同的方式進(jìn)行評估:
數(shù)據(jù)平衡?- 每個子集和目標(biāo)的數(shù)據(jù)百分比
數(shù)據(jù)分布?- 每個子集中pChEMBL值的分布
化學(xué)差異性?- 每個子集中化合物與其他子集中所有化合物相比的最小Tanimoto距離的分布
實驗結(jié)果
5.1 數(shù)據(jù)拆分
如圖2A所示,無論是使用RGES還是DGBC拆分方法,每個目標(biāo)分子的比例均值都接近80%/10%/10%,標(biāo)準(zhǔn)差很小。RGES拆分方法的分子比例略微更加平衡。在圖2B中,每個子集的pActivity值分布非常相似,表明活性值在所有子集之間也很好分布。對于兩種拆分方法,化學(xué)相似性的分布在圖2C中展示,?DGBC拆分方法比RGES拆分方法產(chǎn)生更多的化學(xué)差異性子集。這使得DGBC更具挑戰(zhàn)性,因此更適合測試模型的普適性。

5.2 模型測試結(jié)果
表2和圖3展示了使用隨機(jī)森林模型(RFST)、XGBoost(XGBST)和單任務(wù)chemprop(CPST)模型;未使用數(shù)據(jù)填補的多任務(wù)pyboost(PBMT)和chemprop模型,以及使用平均值填補()、使用隨機(jī)森林預(yù)測插補()chemprop模型和pQSAR在使用RGES和DGBC拆分的kinase200數(shù)據(jù)集上的評估結(jié)果。


圖3 對接分?jǐn)?shù)與分子量之間的相關(guān)性。紅色點表示訓(xùn)練集中的化合物,而藍(lán)色(對接分?jǐn)?shù))、橙色(氫鍵)和綠色(排斥)表示由REINVENT生成的化合物。數(shù)據(jù)拆分的重要性?大多數(shù)模型在RGES拆分上表現(xiàn)更好,但在DGBC拆分上表現(xiàn)較差。這些結(jié)果強調(diào)了對模型性能進(jìn)行實際拆分評估的重要性。多任務(wù)模型優(yōu)于單任務(wù)模型?對于兩種拆分方式,多任務(wù)模型優(yōu)于單任務(wù)模型,平均R2值增加,RMSE減少(見表3)。這表明在預(yù)測與訓(xùn)練集中不相似的化合物的活性時,利用多目標(biāo)相關(guān)性可能是有用的。此外,對于深度學(xué)習(xí)模型而言,運行單個多任務(wù)模型要比運行198個單任務(wù)模型時間損耗降低約30倍。

基于樹的機(jī)器學(xué)習(xí)優(yōu)于深度學(xué)習(xí)?對于單任務(wù)模型(RFST、XGBST?vs CPST)和多任務(wù)模型(PBST?vs CPMT)而言,傳統(tǒng)的基于樹的機(jī)器學(xué)習(xí)方法優(yōu)于深度學(xué)習(xí)模型。盡管通常情況下,深度學(xué)習(xí)模型已被證明在活性預(yù)測方面優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但是在某些情況下,經(jīng)典機(jī)器學(xué)習(xí)方法的表現(xiàn)與深度學(xué)習(xí)模型相當(dāng)。性能與數(shù)據(jù)密度無關(guān)?如圖4左圖所示, CPMT模型的性能與該激酶的數(shù)據(jù)密度點之間的相關(guān)性差。作者在不同數(shù)據(jù)量的kinase1000和kinase200兩個數(shù)據(jù)集上運行了CPMT模型,如圖4右圖,添加更多具有較少數(shù)據(jù)點的目標(biāo)會導(dǎo)致數(shù)據(jù)矩陣更加稀疏,而這并不會提高模型的性能。

結(jié)論
本研究使用不同的機(jī)器學(xué)習(xí)方法對蛋白激酶活性進(jìn)行了大規(guī)模建模。作者從Papyrus數(shù)據(jù)庫中構(gòu)建了兩個大型蛋白激酶數(shù)據(jù)集,kinase200數(shù)據(jù)集和kinase1000數(shù)據(jù)集。為了評估模型的性能,作者使用了兩種數(shù)據(jù)劃分方法,比較了七個模型在兩個數(shù)據(jù)集上的性能。結(jié)果表明,傳統(tǒng)的機(jī)器學(xué)習(xí)方法優(yōu)于深度學(xué)習(xí)方法。相比于單任務(wù),多任務(wù)模型通過任務(wù)之間的相關(guān)性可以提高模型性能。DGBC劃分更真實地評估了機(jī)器學(xué)習(xí)模型在實際藥物發(fā)現(xiàn)項目中的性能,所有模型的性能都比隨機(jī)劃分差,表明需要進(jìn)一步發(fā)展有效的建模方法??偟膩碚f,本研究的結(jié)果表明在大規(guī)模稀疏數(shù)據(jù)集中建模需要更多的探索和改進(jìn)。
參考文獻(xiàn)Luukkonen, Sohvi et al. “Large-Scale Modeling of Sparse Protein Kinase Activity Data.” Journal of chemical information and modeling, 10.1021/acs.jcim.3c00132. 9 Jun. 2023, doi:10.1021/acs.jcim.3c00132代碼https://github.com/CDDLeiden/kinase-modelling
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯誤解讀,請及時聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn