人工智能在藥物設(shè)計(jì)中的應(yīng)用:機(jī)遇與挑戰(zhàn)(一)
摘要
人工智能(AI)近年來(lái)得到了快速的發(fā)展,并已成功地應(yīng)用于藥物設(shè)計(jì)等現(xiàn)實(shí)問(wèn)題。在本章中,我們回顧了人工智能在藥物設(shè)計(jì)中的應(yīng)用,包括虛擬篩選、計(jì)算機(jī)輔助合成規(guī)劃和從頭分子生成,重點(diǎn)介紹了人工智能在其中應(yīng)用的局限性和改進(jìn)的機(jī)會(huì)。此外,我們還討論了人工智能在將理論實(shí)踐轉(zhuǎn)化為現(xiàn)實(shí)世界的藥物設(shè)計(jì)方面所帶來(lái)的更廣泛的挑戰(zhàn);包括量化預(yù)測(cè)的不確定性和解釋模型行為。
藥物設(shè)計(jì)面臨著哪些挑戰(zhàn)
候選藥物進(jìn)入臨床試驗(yàn)的成功率自20世紀(jì)70 代以來(lái)一直在下降,導(dǎo)致FDA獲批概率也逐漸低(2015-2017 年為 10%),每個(gè)獲批藥物的研發(fā)成本顯著增加。為了降低制藥行業(yè)的成本,提高臨床試驗(yàn)的成功率至關(guān)重要。在藥物設(shè)計(jì)過(guò)程中及早選擇具有適當(dāng)特性的化合物至關(guān)重要,阿斯利康最近的研究強(qiáng)調(diào)了開(kāi)發(fā)基于 AI 的計(jì)算方法以幫助藥物設(shè)計(jì)決策的重要性。本章討論旨在協(xié)助藥物設(shè)計(jì)決策以應(yīng)對(duì)這些挑戰(zhàn)的人工智能的發(fā)展。

候選藥物的設(shè)計(jì)需要在藥物設(shè)計(jì)的早期階段選擇化合物,并通過(guò)有效的優(yōu)化方法使其有合適的理化性質(zhì)。藥物設(shè)計(jì)的主要階段如表1所示。苗頭化合物或具有良好活性的化合物可以通過(guò)對(duì)大型化合物庫(kù)進(jìn)行篩選來(lái)獲得;可以使用多種技術(shù),包括在目標(biāo)生物分子上的理化性質(zhì)和在細(xì)胞或基于組織的模型系統(tǒng)中化合物的效能。現(xiàn)代的篩選庫(kù)包含數(shù)百萬(wàn)種多樣化的化合物;然而,無(wú)論使用哪種方法,找到具有適當(dāng)屬性的新型苗頭化合物都非常困難。最近的分析表明,43%的臨床候選藥物是由已知的化合物如以前的臨床候選藥物派生而來(lái)的。具有良好的藥效和吸收、分布、代謝、排泄和毒性(ADMET)特性的苗頭化合物被選為先導(dǎo)化合物,然后這需要它在保持適當(dāng)?shù)腁DMET特性的同時(shí)還進(jìn)行效能和選擇性的優(yōu)化。從臨床試驗(yàn)的成功率來(lái)看,很明顯這個(gè)過(guò)程通常很難找到在患者身上具有很高的藥效和很好的藥代動(dòng)力學(xué)特性的分子?;诎悬c(diǎn)的篩選常常會(huì)因?yàn)樗鼈兊姆前悬c(diǎn)作用會(huì)產(chǎn)生一些具有意外藥效特性的苗頭化合物。此外,不管是哪種來(lái)源的苗頭化合物在后期都可能會(huì)出現(xiàn)藥代動(dòng)力學(xué)不良或意外毒性等問(wèn)題。因此,藥物設(shè)計(jì)中計(jì)算方法的最重要目標(biāo)應(yīng)該是在整個(gè)藥物設(shè)計(jì)過(guò)程中幫助選擇患者中表現(xiàn)中庸的化合物(有效而且毒副作用小,ADMET的表現(xiàn)也很好)。

目前我們已經(jīng)收集了很多關(guān)于化合物的性質(zhì)、反應(yīng)和相互作用的數(shù)據(jù)集,然而,這些數(shù)據(jù)集大多數(shù)集中在少數(shù)一些經(jīng)過(guò)深入研究的問(wèn)題上。雖然有些目標(biāo)蛋白有數(shù)千種化合物的生物活性報(bào)告,但在ChEMBL中,7748個(gè)靶點(diǎn)中有5640個(gè)靶點(diǎn)只有不到100個(gè)相關(guān)化合物。此外,描述化合物體外活性的數(shù)據(jù)集遠(yuǎn)遠(yuǎn)超過(guò)描述其體內(nèi)效果的數(shù)據(jù)集;ChEMBL包含了1600萬(wàn)個(gè)生物活性測(cè)量值,而描述肝毒性的DILIRank數(shù)據(jù)集僅包含1036個(gè)定性數(shù)據(jù)點(diǎn)。分子的生物活性取決于劑量、時(shí)間和測(cè)試系統(tǒng)的可變性,這使得一致地注釋這些數(shù)據(jù)更加困難。盡管如此,這些數(shù)據(jù)集中所包含的信息依然是預(yù)測(cè)化合物體內(nèi)行為的模型建立的重要資源。經(jīng)驗(yàn)?zāi)P停缌炕Y(jié)構(gòu)-活性/性質(zhì)關(guān)系(QSAR/QSPR)方法,利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)分子性質(zhì),已被廣泛用于幫助設(shè)計(jì)新藥,特別是通過(guò)優(yōu)化ADMET性質(zhì)和避免常見(jiàn)的毒性的模式。ML模型如隨機(jī)森林和支持向量機(jī)常常與化學(xué)數(shù)據(jù)一起使用,它們被稱(chēng)為描述符向量(即化學(xué)指紋),在機(jī)器學(xué)習(xí)中作為輸入。最近,深度神經(jīng)網(wǎng)絡(luò)流行了起來(lái);這些模型的輸入是SMILES字符串或分子圖像,而不是化學(xué)指紋,深度神經(jīng)網(wǎng)絡(luò)可以執(zhí)行更復(fù)雜的多任務(wù)學(xué)習(xí)等任務(wù)。然而,與其他模型一樣,它們的性能往往受到可用數(shù)據(jù)的限制 。
這些機(jī)器學(xué)習(xí)模型可用于創(chuàng)建“人工智能”系統(tǒng),以幫助專(zhuān)家在藥物設(shè)計(jì)中的進(jìn)行決策。在本章中,我們描述了處理藥物設(shè)計(jì)中一些最緊迫問(wèn)題的機(jī)器學(xué)習(xí)方法,重點(diǎn)關(guān)注三個(gè)關(guān)鍵領(lǐng)域:虛擬篩選、計(jì)算機(jī)輔助合成規(guī)劃(CASP)以及通過(guò)生成模型進(jìn)行全新分子生成。如果能夠創(chuàng)建在這些領(lǐng)域做出有效決策的人工智能系統(tǒng),它將顯著有助于候選藥物的設(shè)計(jì)。盡管如此,目前廣泛使用的許多機(jī)器學(xué)習(xí)方法在沒(méi)有專(zhuān)家介入的情況下無(wú)法提供在現(xiàn)實(shí)藥物設(shè)計(jì)問(wèn)題中做出決策所需的信息;經(jīng)常遇到的限制是缺乏有效的預(yù)測(cè)置信度和機(jī)理推理與用戶(hù)的溝通。這些問(wèn)題將在本章的最后一節(jié)中探討。
參考資料:Thomas M, Boardman A, Garcia-Ortegon M, et al. Applications of artificial intelligence in drug design: opportunities and challenges[J]. Artificial Intelligence in Drug Design, 2022: 1-59.
注:英文原文中的Hits在本文中被翻譯為了苗頭化合物,Leads被翻譯為了先導(dǎo)化合物。
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn