通過豐富數(shù)據(jù)改進(jìn)多任務(wù)學(xué)習(xí):在藥物發(fā)現(xiàn)中的應(yīng)用
01?多任務(wù)學(xué)習(xí)(MTL)在藥物發(fā)現(xiàn)中的挑戰(zhàn)與機(jī)遇
隨著化學(xué)信息和多輸出數(shù)據(jù)集的可用性的指數(shù)級增長,多任務(wù)學(xué)習(xí)已成為處理各種數(shù)據(jù)源和改進(jìn)預(yù)測模型的常用方法。然而現(xiàn)在的主要挑戰(zhàn)是在考慮到化合物與靶標(biāo)之間的相互作用的情況下,如何估計(jì) MTL 模型的適用域 (AD)。研究人員利用深度神經(jīng)網(wǎng)絡(luò)(DNN)進(jìn)行多任務(wù)回歸和分類建模。他們探索了豐富訓(xùn)練數(shù)據(jù)的方法,以此來擴(kuò)展模型的 AD 并提高預(yù)測性能。之后,他們比較了該模型對已知化合物(用于訓(xùn)練)和新化合物(未用于訓(xùn)練)相互作用的預(yù)測能力。結(jié)果表明,豐富數(shù)據(jù)具有改進(jìn)模型的潛力,但改進(jìn)程度因所使用的數(shù)據(jù)而異。研究提出了一些建議,以幫助研究人員在藥物發(fā)現(xiàn)中有效應(yīng)用 MTL。

02?算法性能評估
研究人員使用?pQSAR(159) 數(shù)據(jù)集評估了基于 DNN 算法的回歸任務(wù)性能。他們將預(yù)測結(jié)果與 pQSAR 算法獲得的參考結(jié)果進(jìn)行了比較。基于 DNN 的算法表現(xiàn)出了相當(dāng)?shù)男阅埽瑢δ繕?biāo)的平均預(yù)測誤差和中位預(yù)測誤差略高。在中位確定系數(shù)方面,該算法也優(yōu)于參考算法。此外,該算法還顯示了計(jì)算篩選的前景,其性能略高于基線算法。

在使用?ViralChEMBL 數(shù)據(jù)集進(jìn)行分類任務(wù)時(shí),發(fā)現(xiàn)基于 DNN 算法的預(yù)測性能與參考 SGIMC 算法相當(dāng)。兩種算法的 ROC AUC 和 BA 得分相似,表明預(yù)測準(zhǔn)確性相似。不過,研究人員發(fā)現(xiàn),使用 PR AUC 評估高度不平衡數(shù)據(jù)集(如 ViralChEMBL)的分類性能可能會(huì)導(dǎo)致誤導(dǎo)性結(jié)果,因此他們傾向于使用?ROC AUC?進(jìn)行更平衡的評估。

2.1 訓(xùn)練數(shù)據(jù)對預(yù)測性能的影響
研究人員探討了訓(xùn)練數(shù)據(jù)的數(shù)量和性質(zhì)對回歸建模的影響。他們比較了四種不同訓(xùn)練數(shù)據(jù)組成的方案。對于 pQSAR(159)數(shù)據(jù)集,豐富訓(xùn)練數(shù)據(jù)可提高 RMSE 和 R2 分?jǐn)?shù)方面的預(yù)測性能。然而,對于數(shù)據(jù)密度較低的pQSAR(4276)數(shù)據(jù)集來說,改善效果并不明顯。

與回歸建模類似,使用?ViralChEMBL 數(shù)據(jù)集提高訓(xùn)練數(shù)據(jù)的信息值也能提高分類建模性能。隨著數(shù)據(jù)的豐富,ROC AUC 和 BA 分?jǐn)?shù)都有所提高。不過,提高的幅度不如回歸建模那么大,這可能是由于數(shù)據(jù)集增加的相互作用相對較少。
2.2 用于模型訓(xùn)練的化合物預(yù)測
研究人員評估了模型對訓(xùn)練數(shù)據(jù)中已有化合物進(jìn)行 "冷啟動(dòng)?"預(yù)測的能力。在回歸和分類任務(wù)中,pQSAR(159) 數(shù)據(jù)集的結(jié)果令人滿意。然而,可能由于數(shù)據(jù)密度較低,pQSAR(4276)數(shù)據(jù)集的預(yù)測性能有限。對未列入訓(xùn)練集的化合物進(jìn)行冷啟動(dòng)預(yù)測,對于回歸和分類任務(wù)來說都具有挑戰(zhàn)性。以子集 "c "為代表的新型化合物的預(yù)測準(zhǔn)確率在所有情況下都很低,這表明該模型難以對高度相似的化合物進(jìn)行準(zhǔn)確預(yù)測。

2.3 總結(jié)
在所有數(shù)據(jù)集和方案中,模型訓(xùn)練集(子集 "i")中所用化合物的預(yù)測性能都很準(zhǔn)確。但是,對于訓(xùn)練集(子集 "c")中未包含的化合物,準(zhǔn)確率則明顯下降。這一發(fā)現(xiàn)強(qiáng)調(diào)了在訓(xùn)練數(shù)據(jù)中使用相似化合物以實(shí)現(xiàn)可靠預(yù)測的重要性。
03?關(guān)于在藥物發(fā)現(xiàn)中應(yīng)用多任務(wù)學(xué)習(xí)的建議
根據(jù)研究結(jié)果,研究人員為多任務(wù)學(xué)習(xí)在藥物發(fā)現(xiàn)中的應(yīng)用提出了寶貴的建議。
利用兩個(gè)不同的測試集:使用兩個(gè)測試集評估模型性能--一個(gè)測試新化合物,另一個(gè)測試模型已知的化合物。這種綜合方法可以評估模型對已知化合物和新型化合物進(jìn)行準(zhǔn)確預(yù)測的能力。
評估每個(gè)靶標(biāo)的性能:分別分析模型對每個(gè)靶標(biāo)的性能。找出預(yù)測性能較好或較差的靶標(biāo)將有助于完善和開發(fā)模型。
限制類似化合物的使用:避免使用多任務(wù)模型來預(yù)測與訓(xùn)練集中的化合物存在巨大差異的化合物的相互作用。將此類模型的使用限制在與訓(xùn)練中使用的化合物相似的化合物上,以保持預(yù)測的準(zhǔn)確性。
增強(qiáng)訓(xùn)練數(shù)據(jù):在訓(xùn)練數(shù)據(jù)中添加新的相互作用,特別是如果模型對特定相互作用的預(yù)測是可靠的。這種增強(qiáng)可進(jìn)一步提高模型的整體性能。
加入新化合物的相互作用:為提高特定化合物的預(yù)測準(zhǔn)確性,可添加與任何化合物的相互作用值,即使是那些尚未出現(xiàn)在訓(xùn)練集中的化合物。加入與新化合物的相互作用可以提高預(yù)測效果。
考慮數(shù)據(jù)富集比:根據(jù)數(shù)據(jù)集中可能存在的相互作用總數(shù)來選擇相互作用的富集數(shù)量。較高的數(shù)據(jù)富集比(如 0.6% 的可能相互作用)可顯著提高預(yù)測性能,而較低的富集比可能影響甚微。不過,考慮到化合物/靶標(biāo)的多樣性和數(shù)據(jù)稀疏性,這一發(fā)現(xiàn)還需要進(jìn)一步研究。
參考資料:Sosnina, E.A., Sosnin, S. & Fedorov, M.V. Improvement of multi-task learning by data enrichment: application for drug discovery.?J Comput Aided Mol Des?37, 183–200 (2023). https://doi.org/10.1007/s10822-023-00500-w
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請及時(shí)聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn