人工智能在數(shù)據(jù)資源、方法和應(yīng)用等多方面助力藥物研發(fā)
藥物發(fā)現(xiàn)是發(fā)現(xiàn)針對(duì)疾病的新藥的過程,涉及使用各種各樣的技術(shù)和專業(yè)知識(shí)。一般而言,發(fā)現(xiàn)和開發(fā)一種藥物平均需要28億美元和15年。常規(guī)方法的低效、高成本的特點(diǎn)成為藥物發(fā)現(xiàn)的障礙。到目前為止,AI技術(shù)已經(jīng)在藥物發(fā)現(xiàn)過程中實(shí)施,如藥物靶標(biāo)預(yù)測(cè)、生物利用度預(yù)測(cè)和從頭藥物設(shè)計(jì)。一些主要的制藥公司,如拜耳、羅氏和輝瑞也開始與IT公司合作,開發(fā)基于 AI 技術(shù)的藥物設(shè)計(jì)方法。最近,在 AI 的幫助下,Insilico Medicine公司發(fā)現(xiàn)了治療特發(fā)性肺纖維化的藥物,該藥物在 I 期試驗(yàn)中表現(xiàn)出積極的結(jié)果。將 AI 技術(shù)應(yīng)用于藥物發(fā)現(xiàn)和評(píng)價(jià)的基本示意圖總結(jié)見圖1。

基于?AI 的藥物發(fā)現(xiàn)資源和方法
1.1 數(shù)據(jù)資源
高質(zhì)量的數(shù)據(jù)集是將 AI 應(yīng)用于藥物發(fā)現(xiàn)的關(guān)鍵。高通量測(cè)序和 IT 的進(jìn)步推動(dòng)了一系列用于藥物發(fā)現(xiàn)的免費(fèi)和開放獲取數(shù)據(jù)庫的產(chǎn)生。這些數(shù)據(jù)庫使藥物發(fā)現(xiàn)能夠跨入大數(shù)據(jù)時(shí)代,加速藥物發(fā)現(xiàn)過程。

ChEMBL是一個(gè)手動(dòng)管理的數(shù)據(jù)庫,目前包含超過200萬個(gè)表現(xiàn)出藥物樣特性的化合物。ChEMBL收集關(guān)于化合物的作用機(jī)制、分子特性、吸收、分布、代謝、排泄、毒性、治療適應(yīng)癥和靶標(biāo)相互作用的信息。
ChemDB?是一個(gè)可自由訪問的數(shù)據(jù)庫,包含近500萬個(gè)市售小分子及其理化性質(zhì),如分子量、溶解度和可旋轉(zhuǎn)鍵。此外一系列化學(xué)信息學(xué)工具,如Smi2Depict、MOLpro、AquaSol和 Reaction Predictor 也嵌入到了 ChemDB 中。
藥物-基因相互作用數(shù)據(jù)庫 (DGIdb)?提供關(guān)于藥物-基因相互作用以及可與藥物相互作用的基因或基因產(chǎn)物的信息。迄今為止,DGIdb包含超過40,000個(gè)基因和10,000種藥物,參與超過100,000種藥物-基因相互作用。用戶可以瀏覽每個(gè)類別中的基因,也可以輸入基因或藥物列表,在搜索模塊中檢索藥物-基因相互作用。
DrugBank 是一個(gè)免費(fèi)訪問的參考藥物數(shù)據(jù)庫。目前包含14746種藥物,以及關(guān)于藥物-藥物相互作用、藥物-靶標(biāo)相關(guān)性、藥物分類和藥物反應(yīng)的全面信息。用戶可以使用嵌入的工具在 DrugBank 中搜索、瀏覽和提取文本、圖像和結(jié)構(gòu)數(shù)據(jù)。DrugBank 已成為世界上應(yīng)用最廣泛的藥物篩選、設(shè)計(jì)和代謝預(yù)測(cè)資源。
副作用資源 (SIDER) 是一個(gè)數(shù)據(jù)庫,重點(diǎn)關(guān)注藥物及其副作用。目前發(fā)布的 SIDER 包括1430種藥物、5880種副作用和140.064種藥物副作用對(duì)。
1.2 分子表征與結(jié)構(gòu)表示
隨著天然產(chǎn)物的爆炸性增長(zhǎng),基于 AI 的藥物發(fā)現(xiàn)和分析的另一個(gè)關(guān)鍵點(diǎn)是將分子轉(zhuǎn)移到計(jì)算機(jī)可讀的格式中,同時(shí)保持其固有的理化性質(zhì)。為了加速藥物發(fā)現(xiàn)過程,人們提出了一系列用于計(jì)算分子表征和結(jié)構(gòu)表示的開源工具包,如?OpenBabel和ChemmineR。

1.3 常用 AI 技術(shù)
在藥物發(fā)現(xiàn)領(lǐng)域使用了兩種常見的 AI 技術(shù),即監(jiān)督和無監(jiān)督學(xué)習(xí)。種監(jiān)督學(xué)習(xí)技術(shù)使用輸入標(biāo)記的數(shù)據(jù)來訓(xùn)練能夠?qū)π聰?shù)據(jù)的結(jié)果進(jìn)行分類或預(yù)測(cè)的模型。相比之下,無監(jiān)督學(xué)習(xí)技術(shù)處理未標(biāo)記的數(shù)據(jù),旨在開發(fā)能夠在沒有先驗(yàn)知識(shí)的情況下識(shí)別重復(fù)模式和輸入數(shù)據(jù)聚類的模型。監(jiān)督學(xué)習(xí)技術(shù)可進(jìn)一步分為分類和回歸算法,無監(jiān)督學(xué)習(xí)技術(shù)包括聚類和降維算法。為了便于用戶應(yīng)用這些 AI 技術(shù),一系列開源包和框架,如Scikit-learn、PyTorch、和Keras(https://github.com/fchollet/keras) 已被開發(fā)用于實(shí)踐上述算法。藥物發(fā)現(xiàn)中廣泛使用的 AI 技術(shù)列于表2。

藥物分析涉及藥物原料的鑒定、測(cè)定、定量和純化過程;是藥物發(fā)現(xiàn)的必要部分。定性和定量分析是藥物分析中的兩大類實(shí)驗(yàn)方法。盡管這些技術(shù)表現(xiàn)出很高的準(zhǔn)確性,但它們從大量天然產(chǎn)物中篩選新型候選藥物的成本仍然很昂貴。與實(shí)驗(yàn)技術(shù)相比,計(jì)算方法所需的成本可以忽略不計(jì)。因此,AI技術(shù)已被用于藥物分析,以補(bǔ)充實(shí)驗(yàn)技術(shù)。AI 技術(shù)在藥物分析中的代表性應(yīng)用總結(jié)見圖3。

2.1 藥物毒性預(yù)測(cè)
毒性是衡量化學(xué)品的不利或不良影響的指標(biāo)。毒性評(píng)價(jià)是藥物發(fā)現(xiàn)的基本步驟之一,它旨在鑒定對(duì)人類有有害影響的物質(zhì)。計(jì)算方法具有能夠以低成本和高效率預(yù)測(cè)化學(xué)物質(zhì)毒性的優(yōu)點(diǎn)。例如DeepTox 是預(yù)測(cè)化學(xué)物質(zhì)毒性的集成模型,其基本框架基于三層深度神經(jīng)網(wǎng)絡(luò) (DNN)。
2.2 藥物生物活性預(yù)測(cè)
在現(xiàn)實(shí)中,大量來源于天然產(chǎn)物的藥物由于缺乏生物活性而無效。因此,藥物生物活性評(píng)估已成為藥物發(fā)現(xiàn)的一個(gè)活躍領(lǐng)域。AI技術(shù)已被有效地應(yīng)用于預(yù)測(cè)藥物生物活性,如抗癌、抗病毒和抗菌活性。例如,Stokes等人提出了一種能夠預(yù)測(cè)抗菌活性的定向信息傳遞神經(jīng)網(wǎng)絡(luò)。
2.3 藥物理化性質(zhì)預(yù)測(cè)
理化性質(zhì)是藥物的內(nèi)在特性,了解和模擬藥物的作用需要了解理化性質(zhì)。Panapitiya 等人評(píng)估了用于溶解度預(yù)測(cè)的不同深度學(xué)習(xí)方法和分子表示方法?;谙嗤臏y(cè)試數(shù)據(jù)集,作者發(fā)現(xiàn)完全連接的神經(jīng)網(wǎng)絡(luò)通過利用分子表征實(shí)現(xiàn)了溶解度預(yù)測(cè)的最佳性能。
2.4 從頭藥物設(shè)計(jì)
從頭藥物設(shè)計(jì)是指在沒有起始模板的情況下生成新型藥物樣化合物的過程。近年來,人們提出了各種基于深度學(xué)習(xí)的藥物從頭設(shè)計(jì)模型,如基于強(qiáng)化學(xué)習(xí)的模型ReLeaSE、基于編碼器-解碼器的模型ChemVAE、基于 GAN 的模型GraphINVENT、和基于 RNN 的模型MolRNN。
2.5 靶點(diǎn)結(jié)構(gòu)預(yù)測(cè)
大多數(shù)藥物靶點(diǎn)是在酶活性、細(xì)胞信號(hào)傳導(dǎo)和細(xì)胞間轉(zhuǎn)導(dǎo)中發(fā)揮重要作用的蛋白質(zhì)。蛋白質(zhì)的功能由其結(jié)構(gòu)決定。雖然人們提出了常規(guī)的實(shí)驗(yàn)技術(shù),如 X 射線晶體學(xué)、低溫電子顯微鏡和核磁共振波譜等來確定蛋白質(zhì)結(jié)構(gòu),但它們?nèi)匀缓臅r(shí)且成本高昂。DeepMind開發(fā)的基于神經(jīng)網(wǎng)絡(luò)的 AlphaFold 方法是性能最好的方法,并且能夠從其氨基酸序列預(yù)測(cè)蛋白質(zhì)的 3D 結(jié)構(gòu)。
2.6 DTI 預(yù)測(cè)
DTI 預(yù)測(cè)是指生物體內(nèi)化合物與蛋白質(zhì)靶點(diǎn)的相互作用,是藥物發(fā)現(xiàn)的必要過程。最近,不斷增加的生物學(xué)數(shù)據(jù)為 DTI 的計(jì)算機(jī)預(yù)測(cè)鋪平了道路。因此可以分為以下幾類:基于配體的方法、對(duì)接模擬、基于基因本體的方法、基于文本挖掘的方法和基于網(wǎng)絡(luò)的方法。
AI 在藥物設(shè)計(jì)中的先進(jìn)應(yīng)用
3.1 藥物協(xié)同/拮抗作用預(yù)測(cè)中的 AI藥物協(xié)同作用可以克服原發(fā)性和繼發(fā)性耐藥,它對(duì)癌癥、艾滋病和細(xì)菌感染的治療有效,而拮抗作用降低了藥物的有效性。AI 技術(shù)的進(jìn)步使其適用于以更低的成本和更高的效率探索可能的藥物組合。
3.2 納米醫(yī)學(xué)設(shè)計(jì)中的 AI
納米藥物是由納米尺度的材料開發(fā)的,因此,它們可以穿透屏障與體內(nèi)的靶標(biāo)相互作用。然而,對(duì)納米材料性質(zhì)和生物反應(yīng)缺乏定量和定性的了解,限制了納米藥物的廣泛應(yīng)用。納米技術(shù)和 AI 的結(jié)合為應(yīng)對(duì)這一困境提供了新穎的解決方案。例如Mu?iz Castro等人開發(fā)了一種 3D 打印納米材料管線,可以預(yù)測(cè)納米材料的溫度、細(xì)絲力學(xué)特性和溶解時(shí)間。
3.3 寡核苷酸設(shè)計(jì)中的 AI
除了來源于天然產(chǎn)物的藥物外,由 DNA 或 RNA 短鏈組成的寡核苷酸治療藥物已成為一類新型藥物。由于實(shí)驗(yàn)設(shè)計(jì)這些寡核苷酸將花費(fèi)大量資源,AI方法也被用于幫助研究人員鑒定和設(shè)計(jì)基于寡核苷酸的藥物。
結(jié)論
在過去的幾年里,我們見證了 AI 技術(shù)在藥物發(fā)現(xiàn)和開發(fā)的各個(gè)步驟中的廣泛應(yīng)用。AI 技術(shù)的蓬勃發(fā)展為藥物發(fā)現(xiàn)的加速做出了實(shí)質(zhì)性的貢獻(xiàn)。(ChatGPT) 的應(yīng)用也是藥物發(fā)現(xiàn)和開發(fā)中一個(gè)很有前途的課題。由于它可以提供鑒定潛在靶點(diǎn)、設(shè)計(jì)新藥和優(yōu)化候選藥物藥效學(xué)的方法,ChatGPT有可能加快藥物開發(fā)過程。然而AI技術(shù)在藥物發(fā)現(xiàn)中也存在諸多挑戰(zhàn),如用于訓(xùn)練基于 AI 技術(shù)的模型的高質(zhì)量數(shù)據(jù)的可用性、缺乏可解釋性、以及模型的可用性和可及性。盡管存在上述挑戰(zhàn),但 AI 技術(shù)已被納入藥物發(fā)現(xiàn)和開發(fā)領(lǐng)域。相信 AI 技術(shù)將為這一領(lǐng)域帶來革命性的變革。參考文獻(xiàn):
Chen W, Liu X, Zhang S, Chen S. Artificial intelligence for drug discovery: Resources, methods, and applications. Mol Ther Nucleic Acids. 2023 Feb 18;31:691-702. doi: 10.1016/j.omtn.2023.02.019. PMID: 36923950; PMCID: PMC10009646.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn