最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

人工智能時(shí)代的天然藥物發(fā)現(xiàn)【01】

2023-07-14 10:52 作者:AIDDPro  | 我要投稿

引言

在制藥行業(yè),機(jī)器學(xué)習(xí)算法已在藥物發(fā)現(xiàn)管道中得到廣泛應(yīng)用。聚類(lèi)方法已被用于細(xì)分細(xì)胞類(lèi)型成像和預(yù)測(cè)蛋白質(zhì)靶點(diǎn)的可藥性,而監(jiān)督學(xué)習(xí)技術(shù)已確定了疾病的潛在靶點(diǎn)并支持藥物設(shè)計(jì)。機(jī)器學(xué)習(xí)還被用于預(yù)測(cè)生物活性以及與藥物設(shè)計(jì)相關(guān)的特性,如吸收、分布、代謝、排泄和毒性(ADME/Tox)。生成算法有助于藥物化學(xué)中新化學(xué)實(shí)體的分子設(shè)計(jì)。

2019年,Insilico Medicine開(kāi)發(fā)了一種名為GENTRL的人工智能系統(tǒng),該系統(tǒng)利用了生成式張量強(qiáng)化學(xué)習(xí)。在短短46天內(nèi),GENTRL成功發(fā)明了6種與肺纖維化相關(guān)的激酶抑制劑。這展示了人工智能在加速新藥發(fā)現(xiàn)和開(kāi)發(fā)方面的潛力。天然產(chǎn)物(NPs)與治療相關(guān)蛋白靶點(diǎn)相互作用的能力早已得到認(rèn)可,使其成為藥物發(fā)現(xiàn)的寶貴來(lái)源。然而,由于面臨耗時(shí)的去復(fù)制過(guò)程和復(fù)雜的合成等挑戰(zhàn),主要制藥公司對(duì)NPs的研究有所減少。

為了克服這些挑戰(zhàn),人們開(kāi)發(fā)了計(jì)算方法來(lái)幫助生物活性NPs的發(fā)現(xiàn)和結(jié)構(gòu)闡明,并捕捉分子模式用于組合設(shè)計(jì)或靶點(diǎn)選擇性?;瘜W(xué)信息學(xué)、生物信息學(xué)和其他信息學(xué)相關(guān)學(xué)科在基于NP的藥物發(fā)現(xiàn)中發(fā)揮了重要作用。

近年來(lái),人工智能(AI)機(jī)器學(xué)習(xí)(ML)算法開(kāi)始融入天然產(chǎn)物研究。最初,人工智能的應(yīng)用集中在有機(jī)分子的數(shù)字化和使用降維技術(shù)繪制NP化學(xué)空間圖。后來(lái),開(kāi)發(fā)了ML二元分類(lèi)器來(lái)預(yù)測(cè)NP的生物功能。最近,神經(jīng)網(wǎng)絡(luò)架構(gòu)被用于基因組挖掘和分子設(shè)計(jì)。

計(jì)算機(jī)輔助天然產(chǎn)物的發(fā)現(xiàn)

2.1 從微生物基因組預(yù)測(cè)化學(xué)結(jié)構(gòu)

生物活性天然產(chǎn)物(NPs)的發(fā)現(xiàn)傳統(tǒng)上以快速分餾、聯(lián)用色譜技術(shù)和天然來(lái)源(如植物、海洋無(wú)脊椎動(dòng)物或微生物)的生物測(cè)定篩選為指導(dǎo)。基因組測(cè)序的最新進(jìn)展揭示了NPs,尤其是微生物來(lái)源的NPs背后的遺傳基礎(chǔ)和生物合成邏輯。多酮合成酶(PKSs)、非核糖體肽合成酶(NRPSs)以及核糖體合成和翻譯后修飾肽(RiPPs)等酶復(fù)合物負(fù)責(zé)生產(chǎn)這些次級(jí)代謝產(chǎn)物。

生物信息學(xué)工具機(jī)器學(xué)習(xí)算法基因組挖掘中發(fā)揮了重要作用,使得在微生物基因組中發(fā)現(xiàn)隱性生物合成基因簇(BGCs)和新型NPs的實(shí)驗(yàn)表征成為可能。機(jī)器學(xué)習(xí)算法已被用于研究新型BGCs和預(yù)測(cè)化學(xué)結(jié)構(gòu)。例如,它們被用于預(yù)測(cè)RiPPs及其前體肽(PPs),以及識(shí)別RiPP識(shí)別元件(RREs)和發(fā)現(xiàn)新的核糖體肽。ML算法還被用于預(yù)測(cè)細(xì)菌BGCs中NPs的化學(xué)結(jié)構(gòu)和生物活性。

除了發(fā)現(xiàn)新的化學(xué)實(shí)體,ML算法還被用于天然產(chǎn)物去復(fù)制過(guò)程的自動(dòng)化。去復(fù)制包括從天然來(lái)源中提取、分餾和純化NPs,然后進(jìn)行生物測(cè)定篩選以確定生物活性物質(zhì)。ML算法與先進(jìn)的分析化學(xué)技術(shù)相結(jié)合,已被用于快速鑒定已知和未知的生物活性NPs。化學(xué)計(jì)量學(xué)是以多元統(tǒng)計(jì)分析為重點(diǎn)的研究領(lǐng)域,它也利用ML算法來(lái)分析來(lái)自各種分析技術(shù)的數(shù)據(jù),并幫助鑒定NPs。

此外,ML算法還被用于代謝組學(xué)研究,從代謝組學(xué)數(shù)據(jù)中提取信息并產(chǎn)生新的生物學(xué)見(jiàn)解。它們促進(jìn)了數(shù)據(jù)處理、omics數(shù)據(jù)的整合以及色譜保留時(shí)間的預(yù)測(cè)。有監(jiān)督的ML算法,如隨機(jī)森林、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)和遺傳算法在代謝組學(xué)研究中提供定量預(yù)測(cè)方面已顯示出優(yōu)勢(shì)。

隨著代謝組學(xué)中質(zhì)譜(MS)數(shù)據(jù)量的不斷增加,出現(xiàn)了各種代謝組學(xué)平臺(tái),如MetaboAnalyst 5.0和全球天然產(chǎn)物社會(huì)分子網(wǎng)絡(luò)(GNPS)平臺(tái)。GNPS將串聯(lián)質(zhì)譜數(shù)據(jù)集組織成可視化分子網(wǎng)絡(luò)(MN),使用節(jié)點(diǎn)和邊分別表示高分辨率譜和譜間比對(duì)。這種方法在NP去復(fù)制和其他NP相關(guān)研究中越來(lái)越受歡迎。

為了識(shí)別NP子結(jié)構(gòu),研究人員開(kāi)發(fā)了CSI:FingerID、MS2LDA和SIRIUS 4等工具。這些工具利用質(zhì)譜和專(zhuān)門(mén)的分子數(shù)據(jù)庫(kù)將碎片離子與分子亞結(jié)構(gòu)相匹配。CSI:FingerID采用ML算法預(yù)測(cè)未知化合物中是否存在分子指紋,而SIRIUS 4則在CSI:FingerID的基礎(chǔ)上進(jìn)行NP鑒定。MS2LDA應(yīng)用文本挖掘中使用的一種無(wú)監(jiān)督方法--潛在Dirichlet分配(LDA),將串聯(lián)質(zhì)譜數(shù)據(jù)分解為共同出現(xiàn)的片段或中性損失集(Mass2Motifs),并將它們與生化特征匹配,以推斷分子結(jié)構(gòu)。

雖然僅靠串聯(lián)質(zhì)譜數(shù)據(jù)可能不足以完成結(jié)構(gòu)鑒定,但計(jì)算機(jī)輔助結(jié)構(gòu)鑒定(CASE)專(zhuān)家系統(tǒng)已被開(kāi)發(fā)出來(lái),以支持未知化合物的鑒定。這些系統(tǒng)將未知化合物的光譜特性與潛在候選化合物列表相匹配。最近,開(kāi)發(fā)了一種名為SMART 2.0的機(jī)器學(xué)習(xí)驅(qū)動(dòng)工具,用于從NMR光譜快速表征NPs。SMART 2.0利用在大量二維核磁共振波譜上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)來(lái)生成準(zhǔn)確的預(yù)測(cè),從而發(fā)現(xiàn)和表征新型NPs。

結(jié)合CASE專(zhuān)家系統(tǒng),原子力顯微鏡、"結(jié)晶海綿 "X射線分析和微電子衍射等非光譜技術(shù)也被用于提供結(jié)構(gòu)見(jiàn)解。這些工具和方法有助于從復(fù)雜混合物中高效表征和識(shí)別NPs。

2.2 將天然產(chǎn)物的分子表征

為了模擬和預(yù)測(cè)天然產(chǎn)物(NPs)和一般化學(xué)結(jié)構(gòu)的性質(zhì)和生物活性,分子表征被用來(lái)將它們轉(zhuǎn)換成計(jì)算機(jī)可讀的格式。早期的分子表征,如SMILES、SMARTS和InChI,是為了存儲(chǔ)和檢索分子信息以及識(shí)別共有的分子特征或亞結(jié)構(gòu)而創(chuàng)建的。像DeepSMILES和SELFIES這樣的新型表示法已經(jīng)出現(xiàn),可用于機(jī)器學(xué)習(xí)算法。

化學(xué)生物分子數(shù)據(jù)庫(kù)在人工智能應(yīng)用中發(fā)揮著核心作用,并常用于信息學(xué)相關(guān)學(xué)科?;瘜W(xué)數(shù)據(jù)庫(kù)利用預(yù)組裝NP庫(kù)和化學(xué)指紋識(shí)別改進(jìn)了NP的去復(fù)制過(guò)程。商業(yè)數(shù)據(jù)庫(kù)和開(kāi)放式數(shù)據(jù)庫(kù)都在使用,免費(fèi)數(shù)據(jù)庫(kù)越來(lái)越受歡迎。COCONUT和LOTUS是匯編非冗余NPs結(jié)構(gòu)和相關(guān)信息的開(kāi)放存取數(shù)據(jù)庫(kù)。

分子指紋是為了在化學(xué)數(shù)據(jù)庫(kù)中高效搜索子結(jié)構(gòu)和減少存儲(chǔ)空間而開(kāi)發(fā)的。位串指紋,如MACCS密鑰,被用來(lái)表示存在或不存在作為二進(jìn)制向量的亞結(jié)構(gòu)。拓?fù)渲讣y,如ECFP和MACCS鍵,被設(shè)計(jì)用于生物活性預(yù)測(cè)和相似性分析。這些指紋可進(jìn)行分子相似性比較,并已用于結(jié)構(gòu)相似性分析、化學(xué)空間的可視化表示以及NP相似性或代謝物相似性評(píng)分的生成。

基于幾何距離的三維指紋圖譜和ROCS等方法已被用于空間信息和形狀相似性分析。三維指紋圖譜主要用于基于配體的虛擬篩選和骨架躍遷。然而,更簡(jiǎn)單的拓?fù)渲讣y已顯示出檢索結(jié)構(gòu)信息的前景,有可能使骨架躍遷變得過(guò)時(shí)。

近年來(lái),人們開(kāi)始關(guān)注比較不同的分子相似性方法和探索NP化學(xué)空間。在生物活性NP的分析中,采用逆合成方法的環(huán)狀指紋優(yōu)于傳統(tǒng)指紋。雖然二維指紋比三維指紋的優(yōu)勢(shì)仍在評(píng)估中,但其有效性取決于具體應(yīng)用和使用的指紋類(lèi)型。

此外,三維指紋已被應(yīng)用于定量結(jié)構(gòu)-活性/性質(zhì)關(guān)系(QSA/PR)模型,以預(yù)測(cè)和排列化學(xué)結(jié)構(gòu)的生物活性。

2.3 用分子描述符矢量化天然產(chǎn)物

除了指紋,計(jì)算化學(xué)家還使用分子表征來(lái)計(jì)算分子描述符。這些描述符是成千上萬(wàn)個(gè)捕捉特定分子特性的特征,如原子特性、大小、形狀、柔性、極性、親油性等。分子描述符對(duì)于預(yù)測(cè)建模至關(guān)重要,已被用于描述天然產(chǎn)物(NPs)和合成化合物在化學(xué)空間中的分布。

由Lipinski及其同事開(kāi)發(fā)的五則(Ro5)指南以關(guān)鍵分子描述指標(biāo)為基礎(chǔ),用于鑒定口服小分子藥物。分子描述符也被用于比較和描述NPs、合成化合物、組合庫(kù)和上市藥物所占據(jù)的化學(xué)空間。然而,天然產(chǎn)物和大環(huán)化合物可能違反Ro5規(guī)則,但仍然表現(xiàn)出口服生物利用度,這導(dǎo)致了專(zhuān)門(mén)針對(duì)NPs的經(jīng)驗(yàn)規(guī)則的建立,即 "超越Ro5"(bRo5)。

分子描述符對(duì)化學(xué)信息學(xué)應(yīng)用產(chǎn)生了重大影響。它們超越了三維表征,包括構(gòu)象靈活性、質(zhì)子化狀態(tài)和取向等特征。一旦去除無(wú)關(guān)特征并對(duì)描述符進(jìn)行縮放,它們就可用于相似性搜索或定量結(jié)構(gòu)-活性/性質(zhì)關(guān)系(QSA/PR)建模。為相似性搜索選擇最佳描述符和距離度量取決于使用富集因子量化它們的性能。在QSA/PR建模中,確定最佳描述符取決于所選算法的穩(wěn)定性、性能和可解釋性,以及準(zhǔn)確度和均方根誤差等評(píng)價(jià)指標(biāo)。

近年來(lái),深度學(xué)習(xí)(DL)算法在藥物發(fā)現(xiàn)和分子信息學(xué)領(lǐng)域越來(lái)越受歡迎。DL模型可以處理大型數(shù)據(jù)集,捕捉輸入特征和輸出決策之間的復(fù)雜關(guān)系。然而,DL模型通常依賴于一組選定的特征(分子表征),而不是從原始化學(xué)信息中學(xué)習(xí)。通常用于圖像分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)并不適合讀取化學(xué)實(shí)體的二維圖形描述或三維結(jié)構(gòu)。圖卷積網(wǎng)絡(luò)(GCN)已成為從分子圖中讀取不規(guī)則和原始信息的最先進(jìn)技術(shù)。GCNs已被應(yīng)用于藥物發(fā)現(xiàn)流水線的各個(gè)領(lǐng)域,包括QSA/PR建模、藥物-靶點(diǎn)/藥物-藥物相互作用預(yù)測(cè)、合成規(guī)劃和全新分子設(shè)計(jì)。雖然GCNs已被用于一般化學(xué)數(shù)據(jù)集,但其在NP數(shù)據(jù)庫(kù)(如COCONUT或LOTUS)中的明確應(yīng)用還有待探索。

總之,分子描述符和深度學(xué)習(xí)算法,特別是GCN,已經(jīng)成為計(jì)算化學(xué)中預(yù)測(cè)分子性質(zhì)、理解結(jié)構(gòu)-活性關(guān)系和設(shè)計(jì)新化合物的寶貴工具。

2.4 繪制化學(xué)空間中映射天然產(chǎn)物

化學(xué)空間是指包含所有可能的化合物及其結(jié)構(gòu)和功能特性的幾何空間。以人類(lèi)可讀的形式將這一高維空間可視化對(duì)于藥物發(fā)現(xiàn)的決策和進(jìn)步至關(guān)重要。為此,我們采用了降維技術(shù),將高維數(shù)據(jù)轉(zhuǎn)化為更小的維數(shù)集。這些技術(shù)有助于探索化學(xué)空間,揭示結(jié)構(gòu)-活性/性質(zhì)關(guān)系(SA/PRs),并定義預(yù)測(cè)模型的適用范圍。

三種常用的降維技術(shù)可用于繪制化學(xué)空間圖、定義其局限性以及展示SA/PRs:

  1. 主成分分析(PCA):PCA通過(guò)尋找一組新的不相關(guān)變量(主成分)來(lái)分析和表示數(shù)據(jù)集的方差,從而捕捉最重要的信息。

  2. t-分布隨機(jī)鄰域嵌入(t-SNE):t-SNE將高維數(shù)據(jù)映射到低維空間,同時(shí)保留數(shù)據(jù)的局部結(jié)構(gòu)。它對(duì)于可視化數(shù)據(jù)中的聚類(lèi)和模式特別有效。

  3. 自組織圖(SOM):SOM是一種將數(shù)據(jù)點(diǎn)組織到低維網(wǎng)格中的人工神經(jīng)網(wǎng)絡(luò)。它有助于可視化基于化合物性質(zhì)的關(guān)系和組織。

不同的研究小組已經(jīng)將這些技術(shù)應(yīng)用于分析、導(dǎo)航和比較化學(xué)空間。例如,PCA已被用于比較藥物、NP和組合庫(kù)的性質(zhì)分布。ChemGPS-NP和ChemMaps是類(lèi)似于PCA的表示方法,用于探索NP骨架、藥性和生物活性之間的關(guān)系。ScaffoldHunter和SCONP使用樹(shù)狀圖來(lái)組織NP化學(xué)空間中的骨架庫(kù)。

其他技術(shù)包括將化學(xué)空間嵌入二維樹(shù)的TMAPs,它們已被應(yīng)用于分析細(xì)菌或真菌來(lái)源的NP之間的相似性。可靠性密度鄰域魯棒PCA被用于定義可靠的預(yù)測(cè)空間和評(píng)估QSA/PR模型的預(yù)測(cè)可靠性。最后,結(jié)合t-SNE的無(wú)監(jiān)督離群點(diǎn)檢測(cè)方法被用于劃分預(yù)測(cè)模型的局限性和發(fā)現(xiàn)新化合物。

這些降維技術(shù)使研究人員能夠深入了解化學(xué)空間內(nèi)的組織和關(guān)系,理解SA/PR,并評(píng)估預(yù)測(cè)模型的可靠性。

2.5 化合物庫(kù)的工程相似性評(píng)分

計(jì)算研究通過(guò)量化化合物與感興趣的化學(xué)空間的相似性,為設(shè)計(jì)重點(diǎn)化合物庫(kù)做出了貢獻(xiàn)。這些測(cè)量方法被稱(chēng)為相似度得分,有助于識(shí)別與天然產(chǎn)物(NPs)或其他特定類(lèi)別具有相似特征的化合物。相似度得分的例子包括NP相似度得分、代謝物相似度得分、先導(dǎo)物相似度得分和藥物相似度得分。這些分?jǐn)?shù)是根據(jù)各種理化性質(zhì)和分子指紋生成的。相似度得分有助于縮小大型化合物庫(kù)的范圍并優(yōu)化NP啟發(fā)藥物的設(shè)計(jì)。此外,還引入了分子復(fù)雜性指數(shù)(MA)作為內(nèi)在分子復(fù)雜性的衡量標(biāo)準(zhǔn),從而可以在質(zhì)譜分析中跟蹤復(fù)雜分子及其碎片。分子復(fù)雜性指數(shù)不僅對(duì)陸地生態(tài)系統(tǒng)有影響,而且對(duì)尋找地球以外的生命也有意義。

參考資料:https://naples.naturalproducts.net/

Saldívar-González FI, Aldas-Bulos VD, Medina-Franco JL, Plisson F. Natural product drug discovery in the artificial intelligence era. Chem Sci. 2021 Dec 13;13(6):1526-1546. doi: 10.1039/d1sc04471k. PMID: 35282622; PMCID: PMC8827052.

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn


人工智能時(shí)代的天然藥物發(fā)現(xiàn)【01】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
泸水县| 连州市| 五寨县| 通江县| 酒泉市| 夏河县| 顺平县| 阿克陶县| 徐水县| 东光县| 山阳县| 开远市| 宜州市| 长泰县| 安泽县| 洛扎县| 连平县| 安塞县| 望城县| 湖州市| 吉木萨尔县| 叙永县| 团风县| 广灵县| 封开县| 高阳县| 神池县| 苏尼特右旗| 崇文区| 龙口市| 河曲县| 丰镇市| 三门县| 从江县| 阿城市| 沁水县| 浮梁县| 巴塘县| 天津市| 靖宇县| 漯河市|