JC | 使用機器學習和深度學習方法對活性懸崖進行大規(guī)模的預測
今天介紹的是近期發(fā)表在Journal of Cheminformatics的一篇論文:《Large-scale prediction of activity cliffs using machine and deep learning methods of increasing complexity》。這篇文章介紹了使用機器學習和深度學習方法來預測分子間的“活性懸崖”現(xiàn)象。活性懸崖是指在化合物結構中微小的改變會導致它們的生物活性顯著變化的現(xiàn)象。這種現(xiàn)象對于新藥物開發(fā)至關重要,它可以幫助研究人員設計更加有效的化合物。

研究背景
活性懸崖(Activity cliffs,ACs) 指在化合物結構中微小的改變會導致它們的生物活性顯著變化的現(xiàn)象,在定量結構活性關系 (QSAR) 預測中會帶來嚴重的問題。ACs 在藥物發(fā)現(xiàn)中非常重要,因為它們能捕捉對于特定生物活性有巨大影響的微小化學改變。ACs 的定義和評估需要考慮多種分子相似性和效力差異的標準。
與預測單個分子不同,預測化合物活性類別(ACs)的挑戰(zhàn)在于需要考慮化合物對而不是單個分子。本研究使用機器學習和深度學習方法,對超過100種化合物活性類別進行了大規(guī)模的AC預測。針對每個活性類別,通過識別ACs和nonACs(不符合ACs活性差異的分子對),建立分類模型來系統(tǒng)地區(qū)分ACs和nonACs。此外,與早期的研究不同,本研究定義和預測ACs基于類別特定的化合物效力分布中得出的統(tǒng)計顯著活性類別依賴的效力差異。本研究的目的是使不同的AC預測方法能夠進行直接比較,并提供跨多種化合物類別的預測準確性的總體評估。
復合數(shù)據(jù)集來源
化合物活性類根據(jù)以下標準從ChEMBL數(shù)據(jù)庫中獲?。悍肿淤|(zhì)量小于1000 Da,靶標置信度評分為9,相互作用關系類型為“D”(抑制劑或者拮抗劑),與靶標具有ki和kd活性值。每個活性類由符合條件的化合物組成,此外,活性類別還必須符合AC標準。
重定義活性懸崖
在MMP的生成中,使用Hussain和Rea提出的計算方法,生成具有共同中心結構但在單個位點上有取代基區(qū)別的化合物對,其中取代基不超過13個非氫原子,中心結構至少是取代基兩倍以上。對于不同活性類別的化合物,采用基于活性類別的效力差異進行AC的定義,通過計算每個類別的化合物效力分布中的平均值加上兩倍標準差,確定了AC的判定標準。為了平衡效力差異對于AC預測的影響,只有效力差異不超過十倍的MMP (?pKi<1) 被分類為nonAC。
數(shù)據(jù)劃分防止數(shù)據(jù)泄漏
研究人員采用了兩種不同的方法生成訓練和測試集來驗證數(shù)據(jù)泄漏對模型的影響。一種是隨機將100個活性類的MMP隨機分為訓練集和測試集,這可能導致數(shù)據(jù)泄漏的問題。另一種方法是采用高級交叉驗證(AXV)方法,在每個活性類中隨機選擇20%的化合物作為保留集,在此基礎上生成MMP并劃分到訓練集和測試集中。這種方法能夠有效解決數(shù)據(jù)泄漏的問題。在此基礎上,選擇42個活性類進行預測和模型評估,以確保模型具有意義和可靠性。
實驗結果
5.1 模型評估
圖1總結了使用九種不同方法對100個不同活性類別進行AC預測的準確性。根據(jù)BA和MCC性能衡量標準,大多數(shù)模型都是預測性的,BA中值約為0.7或更高,MCC值中值為正,最高可達0.5。

5.2 訓練集大小的影響
針對MPNN和FCNN等不同方法,研究發(fā)現(xiàn)訓練集大小與預測精度之間沒有顯著相關性。過小訓練集容易產(chǎn)生較差的預測模型,而大訓練集通常能提高預測準確率。不過,不同方法的最佳預測精度來自于包括許多小集合的可變大小的訓練集。

5.3 數(shù)據(jù)泄露現(xiàn)象
為了探究數(shù)據(jù)泄漏對預測的影響,作者使用了42個足夠大的活性類別,使得訓練集與測試集在化合物上沒有重疊。在數(shù)據(jù)泄漏和沒有數(shù)據(jù)泄漏的情況下進行預測,結果如圖3所示。總體趨勢與圖1中觀察到的趨勢相似。然而,對于所有方法,如果訓練集和測試集在結構上不同,預測精度會顯著降低。盡管大多數(shù)模型在排除數(shù)據(jù)泄露后仍可預測,但BA值通常降至約0.6或更低,MCC值降至0.25以下。因此,無論使用何種方法,用于訓練和測試的MMP之間的化合物重疊都對AC預測精度有很大的影響。

5.4 平衡與非平衡訓練集對模型影響
最后作者討論了機器學習(ML)中常見的一個問題:訓練數(shù)據(jù)集類別樣本數(shù)量是否應該保持平衡。作者選擇了包含最多AC的10個活性類別,并將用于訓練的nonAC數(shù)目減少到與AC數(shù)目相同,平衡正負樣本數(shù)量。然后,在有無數(shù)據(jù)泄漏的情況下,基于原始(非平衡)和平衡訓練集分別建立了SVM和MPNN_sep模型,并進行了預測,結果如圖4和5所示。


綜合這些結果可以看出,對于這兩種方法,基于不平衡和平衡的訓練集,相對的模型表現(xiàn)取決于數(shù)據(jù)泄漏的存在與否。此外,召回率/精確度的特征隨著數(shù)據(jù)平衡和泄漏情況的不同而不同,與預測準確度的趨勢不同。當訓練集和測試集之間存在化合物重疊時,由于減少了多數(shù)類,因此當訓練集平衡時,MCC會降低。只有當訓練集和測試集在結構上完全不同的情況下,才會觀察到由于數(shù)據(jù)平衡而導致的MCC的增加。這反映了在AC預測中這些學習條件之間的錯綜復雜相互作用。
結論
在這項工作中,作者在更大的的范圍內(nèi)研究了AC預測,并重點比較不同ML模型復雜程度的預測精度。在大多數(shù)情況下,預測精度并不隨ML模型的復雜程度而變化。SVM是100個總的類別中的首選方法。作者還證明了訓練集的大小并不是影響AC預測準確性的關鍵因素,這也許是令人驚訝的。此外,AC預測的準確性取決于化合物對,因此化合物在不同AC的訓練和測試集中重疊會有提高模型預測性能。相比之下,對于結構不同的訓練和測試集,預測準確性明顯降低,這樣能夠更現(xiàn)實地評估AC預測。同時,本文還發(fā)現(xiàn)不同的數(shù)據(jù)平衡和泄漏條件對模型性能有復雜的影響,會產(chǎn)生不同的預測特征和趨勢。
參考文獻
Tamura S, Miyao T, Bajorath J. Large-scale prediction of activity cliffs using machine and deep learning methods of increasing complexity. J Cheminform. 2023;15(1):4. doi:10.1186/s13321-022-00676-7
版權信息
本文系AIDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權侵擾或者其他信息錯誤解讀,請及時聯(lián)系AIDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權,禁止轉載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn