機(jī)器學(xué)習(xí)應(yīng)用于藥理學(xué)和ADMET終點(diǎn)的建模(一)
近年來(lái),由于數(shù)據(jù)、描述符和算法的重大進(jìn)展,定量結(jié)構(gòu)-活性關(guān)系(QSAR)的概念得到了極大的關(guān)注。本章回顧了機(jī)器學(xué)習(xí)(ML)方法,作為一種手段,利用許多化合物的體外/體內(nèi)數(shù)據(jù),為更有效的藥物發(fā)現(xiàn)過(guò)程建立有用的模型。本章還將這些方法與其他數(shù)字藥物發(fā)現(xiàn)方法放在一起,并介紹了一些應(yīng)用實(shí)例。
ADMET的重要性
ADMET對(duì)藥物開(kāi)發(fā)十分重要!雖然靶點(diǎn)親和力和選擇性也很重要,但理化和藥代動(dòng)力學(xué)參數(shù)在決定候選藥物的成功方面起著最關(guān)鍵的作用,對(duì)口服藥物而言尤其如此。目前口服藥物是市場(chǎng)上最常見(jiàn)的藥物劑型,不良的化合物特性,如低溶解度,會(huì)在藥物開(kāi)發(fā)的后期階段導(dǎo)致高損耗率。研究人員已經(jīng)確定了與體外效力和ADMET有關(guān)的各種物理化學(xué)參數(shù),從而開(kāi)發(fā)了替代規(guī)則集,如五行規(guī)則、Veber規(guī)則和Gleeson的 "可解釋ADMET經(jīng)驗(yàn)法則"。機(jī)器學(xué)習(xí)方法,如QSAR和QSPR,也被用來(lái)預(yù)測(cè)候選藥物的ADMET特性。ADMET的重要性也反應(yīng)在該詞在互聯(lián)網(wǎng)上的搜索次數(shù)和在出版物的出現(xiàn)次數(shù)上。

學(xué)者對(duì)藥物發(fā)現(xiàn)中與數(shù)據(jù)驅(qū)動(dòng)建模有關(guān)的各種術(shù)語(yǔ)的使用情況進(jìn)行了兩項(xiàng)數(shù)據(jù)分析。第一項(xiàng)分析顯示,"機(jī)器學(xué)習(xí)?"一詞比 "QSAR?"和 "ADMET?"出現(xiàn)頻率更高,且自2015年以來(lái),其出現(xiàn)頻率一直在穩(wěn)步上升。第二項(xiàng)分析顯示,含有 "QSAR QSPR "一詞的出版物數(shù)量隨著時(shí)間的推移增加了三倍。
數(shù)據(jù)、描述符、算法
在藥物發(fā)現(xiàn)中創(chuàng)建穩(wěn)定和預(yù)測(cè)性機(jī)器學(xué)習(xí)模型有三個(gè)關(guān)鍵因素:數(shù)據(jù)、描述符和算法。這些因素之間的相互依賴關(guān)系是非線性的,這導(dǎo)致了更復(fù)雜的算法的發(fā)展,如貝葉斯方法、支持向量機(jī)、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)。我們將在后面一節(jié)將討論最新的模型。
數(shù)據(jù)是關(guān)鍵
機(jī)器學(xué)習(xí)模型的質(zhì)量和穩(wěn)健性取決于基礎(chǔ)數(shù)據(jù)。在機(jī)器學(xué)習(xí)中,有兩種類(lèi)型的數(shù)據(jù):化學(xué)結(jié)構(gòu)和檢測(cè)數(shù)據(jù)。這兩種類(lèi)型的數(shù)據(jù)在用于機(jī)器學(xué)習(xí)之前都需要進(jìn)行數(shù)據(jù)預(yù)處理。
3.1 實(shí)驗(yàn)分析數(shù)據(jù)
制藥行業(yè)的化驗(yàn)數(shù)據(jù)通常存儲(chǔ)在企業(yè)數(shù)據(jù)庫(kù)中,但它可能不適合直接用于機(jī)器學(xué)習(xí)。為了準(zhǔn)備機(jī)器學(xué)習(xí)的數(shù)據(jù),需要與實(shí)驗(yàn)者密切溝通,以排除模棱兩可的結(jié)果,提取感興趣的化驗(yàn)數(shù)據(jù)。檢測(cè)方法由四個(gè)部分組成:生物或理化測(cè)試系統(tǒng)、檢測(cè)方法、技術(shù)基礎(chǔ)設(shè)施以及數(shù)據(jù)分析和處理。生物系統(tǒng)和檢測(cè)方法具有可變性,由于物質(zhì)的最大溶解度、在DMSO中的儲(chǔ)存、親脂性化合物對(duì)玻璃或塑料的粘性、部分溶解度和沉淀等原因,都可能發(fā)生誤差。識(shí)別錯(cuò)誤的測(cè)量值和異常值是很困難的,而且模型的輸入數(shù)據(jù)也有變化,這影響了后續(xù)的預(yù)測(cè)能力。
3.2 化學(xué)結(jié)構(gòu)的標(biāo)準(zhǔn)化
化學(xué)結(jié)構(gòu)的標(biāo)準(zhǔn)化是一個(gè)多步驟的過(guò)程,目的是通過(guò)實(shí)現(xiàn)分子描述符的計(jì)算來(lái)優(yōu)化分子的信息含量。這個(gè)過(guò)程包括以下幾個(gè)步驟:
分割鹽類(lèi)和混合物,只保留最大的片段,或應(yīng)用鹽類(lèi)的匹配模式列表,從而形成一個(gè)化學(xué)實(shí)體。
應(yīng)用過(guò)濾器去除不需要的化學(xué)物質(zhì),如無(wú)機(jī)物或有機(jī)金屬、不完整的結(jié)構(gòu)、大分子,如肽或大環(huán),以及在確定藥理活性物質(zhì)的實(shí)驗(yàn)特性時(shí)劈掉原藥的留基。
對(duì)存在于多個(gè)中間體的官能團(tuán),如芳香族和雜環(huán)族的環(huán)狀系統(tǒng)或硝基,進(jìn)行規(guī)范化處理,并將原子別名解析為明確的原子。
典型的同分異構(gòu)體形式標(biāo)準(zhǔn)化,以表示數(shù)據(jù)集中相同的易同分異構(gòu)體的子結(jié)構(gòu),甚至更有問(wèn)題的是,對(duì)于以后要預(yù)測(cè)的化合物。
扁平化立體中心,因?yàn)榇蠖鄶?shù)描述符包都不能處理立體化學(xué)問(wèn)題。將結(jié)構(gòu)過(guò)濾器應(yīng)用于頻繁命中的化合物,如PAINS或 "Hit Dexter",以避免在建立目標(biāo)親和力模型時(shí)由于非特異性結(jié)合數(shù)據(jù)而產(chǎn)生的噪音。

值得注意的是,不僅在模型訓(xùn)練期間,而且在模型應(yīng)用時(shí)也應(yīng)采用標(biāo)準(zhǔn)化。歐盟資助的聯(lián)盟IMI MELLODDY已經(jīng)開(kāi)發(fā)了一個(gè)端到端的開(kāi)源工具,名為MELLODDY_tuner,用于機(jī)器學(xué)習(xí)和藥物發(fā)現(xiàn)的數(shù)據(jù)標(biāo)準(zhǔn)化。
3.3 機(jī)器學(xué)習(xí)中分析數(shù)據(jù)的預(yù)處理
在機(jī)器學(xué)習(xí)中我們需要預(yù)處理的三類(lèi)數(shù)據(jù):帶有附加注釋的數(shù)據(jù)、刪減的數(shù)據(jù)和具有多個(gè)測(cè)試值的結(jié)構(gòu),包括異常值。刪減數(shù)據(jù)用前綴">"表示右刪減,"<"表示低刪減數(shù)據(jù),中間的刪減值應(yīng)始終被刪除。多重值的處理很復(fù)雜,取決于應(yīng)用的化學(xué)結(jié)構(gòu)聚合。異常值(outliner)的處理也是一個(gè)很重要的問(wèn)題。
有幾種方法來(lái)處理數(shù)據(jù)中的異常值:
移除:這是最直接的方法,即簡(jiǎn)單地將異常值從數(shù)據(jù)集中刪除。然而,如果數(shù)據(jù)集很小或者有很多異常值,這種方法就會(huì)有問(wèn)題。
精簡(jiǎn):在這種方法中,異常值被替換成最接近的非異常值。如果你不想刪除任何數(shù)據(jù)點(diǎn),但想減少異常值對(duì)你的分析的影響,這是一個(gè)有用的方法。
剪切:這種方法類(lèi)似于Winsorization,但不是用非異常值替換異常值,而是用預(yù)先確定的最大值或最小值替換。
變換:對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換有時(shí)可以減少異常值的影響。常見(jiàn)的轉(zhuǎn)換包括對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)或平方根處理。
穩(wěn)健方法(Robust methods):這些方法對(duì)異常值不太敏感,旨在處理具有高度變異性的數(shù)據(jù)。健壯方法的例子包括中位數(shù)、中位數(shù)絕對(duì)偏差(MAD)和Huber損失函數(shù)。
3.4 關(guān)于數(shù)據(jù)管理重要性的示例
Young等人的研究強(qiáng)調(diào)了數(shù)據(jù)整理的重要性,該研究表明,數(shù)據(jù)集中錯(cuò)誤的分子會(huì)大大降低模型的準(zhǔn)確性。我們提供了兩個(gè)例子來(lái)說(shuō)明數(shù)據(jù)整理所需的巨大努力和可能帶來(lái)的好處。在一個(gè)例子中,拜耳公司提供了19,500個(gè)化合物的實(shí)驗(yàn)pKa值,這些實(shí)驗(yàn)pKa值與最先進(jìn)的機(jī)器學(xué)習(xí)相結(jié)合,產(chǎn)生了一個(gè)表現(xiàn)最好的pKa模型,平均絕對(duì)誤差從0.72降至0.5對(duì)數(shù)單位。在另一個(gè)例子中,對(duì)來(lái)自多個(gè)數(shù)據(jù)源的化學(xué)轉(zhuǎn)化進(jìn)行了嚴(yán)格的整理,以模擬藥物化合物的代謝結(jié)果,并為第一階段和第二階段的藥物代謝創(chuàng)建代謝位點(diǎn)(SoM)模型。由此產(chǎn)生的18,000個(gè)高質(zhì)量的代謝反應(yīng)為細(xì)胞色素P450介導(dǎo)的代謝提供了質(zhì)量上的提高,并將其適用性擴(kuò)展到非CYP和第二階段的酶。
參考資料:
G?ller A H, Kuhnke L, Ter Laak A, et al. Machine learning applied to the modeling of pharmacological and ADMET endpoints[J]. Artificial Intelligence in Drug Design, 2022: 61-101.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn