最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【萬字總結(jié)】機器學(xué)習(xí)在藥理學(xué)和ADMET端點建模中的應(yīng)用

2023-04-29 16:00 作者:張自信的小號  | 我要投稿

Machine Learning Applied to the Modeling of Pharmacological and ADMET Endpoints(機器學(xué)習(xí)在藥理學(xué)和ADMET端點建模中的應(yīng)用)

參考書籍:人工智能在藥物設(shè)計中的應(yīng)用(Artificial Intelligence in Drug Design)

機器學(xué)習(xí)在藥理學(xué)和ADMET端點建模中的應(yīng)用 (第61-101頁)

該書探討了人工智能(AI)、機器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)在藥物設(shè)計中的應(yīng)用。本書中的章節(jié)描述了如何應(yīng)用AI/ML/DL方法來加速和革新傳統(tǒng)的藥物設(shè)計方法,如:基于結(jié)構(gòu)和配體的、增強的和多靶點的新藥設(shè)計、SAR和大數(shù)據(jù)分析、結(jié)合/活性的預(yù)測、ADMET、藥代動力學(xué)和藥物-靶點結(jié)合的持續(xù)時間、精準(zhǔn)醫(yī)學(xué)和選擇有利的化學(xué)合成路線。介紹了這些方法的應(yīng)用范圍有多廣,以及它們對今天和不久的將來的生產(chǎn)力有多大的影響。本書采用非常成功的《分子生物學(xué)方法》系列格式編寫,各章包括對各自主題的介紹、必要的軟件和工具清單、逐步的、易于復(fù)制的建模協(xié)議,以及關(guān)于故障排除和避免已知陷阱的提示。

本文在書籍(第61-101頁)閱讀基礎(chǔ)上進行總結(jié),并對部分概念進行拓展,希望幫助讀者獲得對機器學(xué)習(xí)在藥理學(xué)和ADMET端點建模中的應(yīng)用有更深的了解。

DOI:https://doi.org/10.1007/978-1-0716-1787-8


1. Introduction

在本書章節(jié)中,我們概述了用于模擬化合物性質(zhì)的先決條件和計算方法,這些性質(zhì)與早期藥物發(fā)現(xiàn)階段的決策相關(guān),并補充了拜耳在過去20年中開發(fā)的基于計算機模擬的ADMET方法。我們將重點關(guān)注ADMET性質(zhì)。 在這篇綜述中,我們集中討論了第二種概念性方法,在這種方法中,許多化合物的體外/體內(nèi)測量數(shù)據(jù)被用來使用機器學(xué)習(xí)(ML)來建立模型。我們總結(jié)了相關(guān)的綜述、研究和拜耳在機器學(xué)習(xí)方面的經(jīng)驗,我們將討論定制的分子和原子描述符和算法的最新發(fā)展,如(深度)神經(jīng)網(wǎng)絡(luò)。最后,我們提供選定的應(yīng)用實例,特別強調(diào)整體藥物發(fā)現(xiàn)方法。

2. Machine Learning Applied to ADMET Problems

2.1 The Importance of a Favorable ADMET Profile

  • 物理化學(xué)和藥代動力學(xué)參數(shù)的重要性: 藥物研發(fā)需要考慮到有利的物理化學(xué)和藥代動力學(xué)參數(shù),尤其是占全世界市場上所有劑型的80%的口服給藥。

  • 化合物特性與損耗率的關(guān)系: 后期階段的損耗與不良的化合物特性直接相關(guān),而化合物的大小和親脂性的增加會導(dǎo)致毒理學(xué)和臨床安全性的損耗率明顯增加。

  • Lipinski五規(guī)則及其他規(guī)則: 識別決定候選藥物風(fēng)險因素的理化參數(shù)的最早嘗試之一是Lipinski關(guān)于“五規(guī)則”的開創(chuàng)性工作,其他規(guī)則也相繼提出。

  • ADMET機器學(xué)習(xí)的發(fā)展歷史和應(yīng)用情況 ADMET機器學(xué)習(xí)是從定量結(jié)構(gòu)-活性或結(jié)構(gòu)-性能關(guān)系(QSAR/QSPR)領(lǐng)域發(fā)展而來的,該領(lǐng)域起源于20世紀(jì)70年代,最近的評論表明這種方法的廣泛應(yīng)用。

  • 機器學(xué)習(xí)在藥物研究中的重要性 通過谷歌趨勢報告的分析和谷歌學(xué)術(shù)(Google Scholar)的數(shù)據(jù)分析來說明機器學(xué)習(xí)在藥物研究中的重要性。與其他領(lǐng)域相比,機器學(xué)習(xí)是科學(xué)和公眾關(guān)注的熱門話題之一。無論使用哪個術(shù)語,基于數(shù)據(jù)的模型在藥物研發(fā)和其他領(lǐng)域具有重要意義。

2.2 Data, Descriptors, Algorithms, Metrics

  • 我們將討論穩(wěn)定和預(yù)測模型的三個關(guān)鍵因素,即數(shù)據(jù)、描述符和算法,以及用于識別這些因素的指標(biāo)。在后面的部分中,我們將討論模型更新的最佳實踐、流程和策略。

2.3 Data Are Key

  • 2.3.1 Experimental Assay Data

制藥工業(yè)的實驗數(shù)據(jù)通常存儲在公司數(shù)據(jù)庫中,但這并不意味著數(shù)據(jù)可以立即進行機器學(xué)習(xí)。 ? 歷史上,實驗定義和上傳程序通常是為了允許研究項目直接使用數(shù)據(jù),但并沒有考慮其他進一步的使用。 ? 在2016年3月,科學(xué)家聯(lián)合組成的一個貢獻團體發(fā)表了一篇論文,提出了FAIR原則,以改善歷史和未來數(shù)據(jù)的數(shù)據(jù)質(zhì)量和訪問性,并允許從原本不相關(guān)、不完整和有噪音的數(shù)據(jù)中獲得洞察力。 ? 對于機器學(xué)習(xí),必須提取感興趣的實驗數(shù)據(jù),并排除模糊的結(jié)果。 ? 與實驗人員的密切溝通對于數(shù)據(jù)科學(xué)家至關(guān)重要,因為多個實驗參數(shù)決定了哪些數(shù)據(jù)可以用于建模。 ? 實驗由四個部分組成:生物或物理化學(xué)測試系統(tǒng)、檢測方法、技術(shù)基礎(chǔ)設(shè)施和最后的數(shù)據(jù)分析和處理。


- 化合物測試系統(tǒng)受多種因素影響,導(dǎo)致模型輸入數(shù)據(jù)的可變性增加,從而影響了可預(yù)測性的達成。

  • 2.3.2 Standardization of Chemical Structures

化合物結(jié)構(gòu)的總體處理流程


本文主要討論使用化學(xué)結(jié)構(gòu)進行模型訓(xùn)練和應(yīng)用的潛在問題,并提出了一系列標(biāo)準(zhǔn)化處理流程。 ? 化學(xué)結(jié)構(gòu)數(shù)據(jù)的問題 ? 數(shù)據(jù)庫中和文件中提供的化學(xué)結(jié)構(gòu)數(shù)據(jù)存在潛在問題。 ? 雖然軟件可以檢測和糾正明顯的語法錯誤,但仍存在一些錯誤無法被檢測和糾正。 ? 化學(xué)結(jié)構(gòu)文件格式各不相同,例如SMILES不能編碼“OR”-立體化學(xué)或相互依賴的立體中心集合,而SDF標(biāo)準(zhǔn)和國際化學(xué)標(biāo)識符InCHi則可以。 ? 不同軟件之間可能存在微小的差異,因此整個流程應(yīng)該在模型訓(xùn)練和應(yīng)用過程中保持不變。 ? 結(jié)構(gòu)標(biāo)準(zhǔn)化處理 ? 結(jié)構(gòu)標(biāo)準(zhǔn)化是一個多步驟的過程。 ? 應(yīng)該根據(jù)具體問題確定處理的細節(jié),但總體流程應(yīng)該是相同的。 ? 標(biāo)準(zhǔn)化的目的是為了能夠計算分子描述符,只需要保留可以通過這些描述符明確描述的分子特征。 ? 對于電荷狀態(tài)、立體化學(xué)和互變異構(gòu)體,應(yīng)用嚴(yán)格的規(guī)則以優(yōu)化描述符的信息內(nèi)容。 ? 標(biāo)準(zhǔn)化應(yīng)該在模型訓(xùn)練和應(yīng)用過程中都采用。 ? 結(jié)構(gòu)過濾處理 ? 首先需要將鹽和混合物進行分離,并保留最大的片段或應(yīng)用匹配模式列表以得到一個化學(xué)實體。 ? 然后需要應(yīng)用過濾器,刪除無用的化學(xué)成分,例如無機物或有機金屬,不完整的結(jié)構(gòu)等。 ? 依據(jù)建模任務(wù),也需要根據(jù)分子量或結(jié)構(gòu)模式匹配來過濾大分子,例如肽或大環(huán)化合物。 ? 對于在多重共振表示中存在的功能團,如芳香環(huán)和雜環(huán)系統(tǒng)以及硝基團,則必須進行規(guī)范化和解析原子別名。 ? 分子結(jié)構(gòu)通常不包含氫原子,而是僅包含用于定義立體化學(xué)的明確氫原子。不一致的氫處理可能會導(dǎo)致描述符值的差異。 ? 酸性或堿性的功能團應(yīng)該被中和,使得整個配體盡可能處于中性狀態(tài)。存在永久帶電的功能團,例如季銨鹽。 ? 化合物可以存在多個互變異構(gòu)體,且與溶劑或靶蛋白相關(guān)。標(biāo)準(zhǔn)化為規(guī)范互變異構(gòu)體形式是一個有效的解決方案。 ? 后續(xù)處理 ? 處理立體異構(gòu)體和混合物。 ? 可以針對一些頻繁出現(xiàn)的中間產(chǎn)物進行結(jié)構(gòu)過濾,以避免由于非特異性結(jié)合數(shù)據(jù)而引起的噪聲。 ? MELLODDY_tuner工具 ? MELLODDY_tuner是一個開源的工具,用于標(biāo)準(zhǔn)化化學(xué)結(jié)構(gòu)數(shù)據(jù),旨在實現(xiàn)聯(lián)邦和隱私保護的機器學(xué)習(xí)應(yīng)用,以提高藥物發(fā)現(xiàn)的效率。

  • 討論使用化學(xué)結(jié)構(gòu)進行模型訓(xùn)練和應(yīng)用的潛在問題,并提出了一系列標(biāo)準(zhǔn)化處理流程。 ? 開源工具:MELLODDY-TUNER(數(shù)據(jù)標(biāo)準(zhǔn)化) ? https://www.melloddy.eu/open-source-code-bases

  • 2.3.3 Preprocessing of Assay Data for Machine Learning

本節(jié)主要介紹了標(biāo)準(zhǔn)化實驗數(shù)據(jù)的過程,包括來自同一數(shù)據(jù)源和不同數(shù)據(jù)源的處理。在將數(shù)據(jù)從不同數(shù)據(jù)源組合起來時,需要處理多個測試結(jié)果值,這是最復(fù)雜的問題之一。同時,還需要注意三種數(shù)據(jù)分類的問題,即帶有附加注釋的數(shù)據(jù)、被屏蔽的數(shù)據(jù)(censored data,刪減數(shù)據(jù))和存在異常值的數(shù)據(jù)。

(1)其中,處理多個測試結(jié)果值的方法取決于分子結(jié)構(gòu)的聚合方式和數(shù)據(jù)處理策略。對于多個測試結(jié)果值,如果值出現(xiàn)異常,則需要考慮排除或使用特殊算法去回歸計算。 ? (2)對于被屏蔽的數(shù)據(jù),可以在分類器模型上使用,但在數(shù)值模型中必須進行排除或使用特殊算法進行回歸計算。 ? (3)對于存在異常值的數(shù)據(jù),可以采用移除異常值的方法進行處理,需要考慮采用哪種策略來處理數(shù)據(jù)。在進行數(shù)據(jù)處理時,還需要根據(jù)特定的分子批次進行處理,并考慮聚合級別上的異常值處理。


- 三類數(shù)據(jù)需要整理:附有評論的數(shù)據(jù)、刪減的數(shù)據(jù)和具有多個測試值的結(jié)構(gòu),包括異常值。例如,附加在化合物上的注釋,如 "未完全溶解 "或校準(zhǔn)問題,可以過濾掉那些不值得信任的實驗。(三類數(shù)據(jù)的處理方法詳見書中介紹)

There are three categories of data that require curation: data with attached comments, censored data, and structures with multiple test values including outliers.

  • 2.3.4 Examples for the Effort and Importance of Data Curation ?

2.3.4數(shù)據(jù)監(jiān)管/清洗的工作和重要性示例


- 本節(jié)主要講述了兩個例子,說明數(shù)據(jù)清洗的重要性。

2.4 Machine Learning Algorithms


2.4.1 History of Supervised ML Algorithms in Drug Discovery

2.4.2監(jiān)督ML算法在藥物發(fā)現(xiàn)行業(yè)中的優(yōu)缺點 ? 本文主要討論基于監(jiān)督機器學(xué)習(xí)算法的化學(xué)信息學(xué)模型,并探討了這些模型的基本原理、限制和發(fā)展情況。 ? 監(jiān)督學(xué)習(xí)算法的基本思想 ? 化學(xué)描述符作為輸入,檢測數(shù)據(jù)作為輸出。 ? 監(jiān)督學(xué)習(xí)算法是基于化學(xué)結(jié)構(gòu)對標(biāo)簽或結(jié)果變量進行預(yù)測的。 ? 線性和非線性學(xué)習(xí)算法 ? 初期主要使用線性學(xué)習(xí)算法(如PLS)進行物理化學(xué)參數(shù)的預(yù)測。 ? 生物分子相關(guān)的預(yù)測需要更復(fù)雜的非線性算法。 ? 近年來,RF和Deep NN(神經(jīng)網(wǎng)絡(luò))成為主流的非線性學(xué)習(xí)算法。 ? 隨機森林的發(fā)展 ? 隨著技術(shù)的不斷發(fā)展,RF在過去二十年中一直保持著穩(wěn)步發(fā)展。 ? “樹提升”技術(shù)的發(fā)展助推了RF的發(fā)展。 ? XGBoost的出現(xiàn)使得RF在各領(lǐng)域均得到廣泛應(yīng)用。


- 本文主要討論基于監(jiān)督機器學(xué)習(xí)算法的化學(xué)信息學(xué)模型,并探討了這些模型的基本原理、限制和發(fā)展情況。

  • 2.4.2 Pros and Cons of Supervised ML Algorithms in Drug Discovery Industry

2.4.2監(jiān)督ML算法在藥物發(fā)現(xiàn)行業(yè)中的優(yōu)缺點 ? 本文主要討論監(jiān)督機器學(xué)習(xí)算法在化學(xué)信息學(xué)模型中的表現(xiàn),并對線性和非線性學(xué)習(xí)算法進行比較。 ? 1. 線性和非線性算法的對比 ? ? ?- 線性算法通常適用于“生理化學(xué)性質(zhì)”這類漸進性質(zhì)的預(yù)測。 ? ? ?- 非線性算法包括隨機森林,深度神經(jīng)網(wǎng)絡(luò)等,能夠預(yù)測更復(fù)雜的生物分子相關(guān)預(yù)測。 ? 2. 隨機森林的優(yōu)點 ? ? ?- 隨機森林是工業(yè)應(yīng)用廣泛的一種非線性算法,在Bayer的ADMET平臺上表現(xiàn)出了很好的性能。 ? ? ?- 配合環(huán)形指紋使用,隨機森林可以獲得良好的預(yù)測性能。 ? ? ?- 隨機森林的超參數(shù)配置默認(rèn)情況下往往已經(jīng)是最優(yōu)的,不需要對其進行調(diào)整。 ? ? ?- 隨機森林的投票機制可以作為單個預(yù)測的置信度估計。 ? 3. 深度神經(jīng)網(wǎng)絡(luò)的優(yōu)點 ? ? ?- 在數(shù)據(jù)集很大時,深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)遠優(yōu)于其他算法。 ? ? ?- 深度神經(jīng)網(wǎng)絡(luò)不需要手動設(shè)計特征,因此可以處理不確定來源和格式的數(shù)據(jù)。 ? ? ?- 深度神經(jīng)網(wǎng)絡(luò)可以將不同類型的數(shù)據(jù)(如圖像、光譜和活性數(shù)據(jù))進行結(jié)合。


- 本節(jié)主要討論監(jiān)督機器學(xué)習(xí)算法在化學(xué)信息學(xué)模型中的表現(xiàn),并對線性和非線性學(xué)習(xí)算法進行比較。

2.5 Descriptors

  • 2.5.1 Molecular ?Descriptors

一個詳細的參考:Computing Molecular Descriptors - Part 1 - Phyo Phyo Kyaw Zin

ChatGPT 4.0

在機器學(xué)習(xí)的QSAR建模中,通常使用0D、1D、2D和3D描述符。4D描述符較少用于QSAR建模。這些描述符分別表示: 0D:零維描述符,表示分子的全局屬性,如分子量、原子數(shù)量等。 1D:一維描述符,表示分子的線性屬性,如原子序列、鍵的類型等。 2D:二維描述符,表示分子的拓撲屬性,如分子圖、環(huán)的數(shù)量、連接性等。 3D:三維描述符,表示分子的立體屬性,如立體構(gòu)象、分子表面積、體積等。 這些描述符在QSAR建模中有助于捕捉分子的不同特征,從而提高模型的預(yù)測性能。

本文主要討論化學(xué)結(jié)構(gòu)和分子性質(zhì)之間關(guān)系的機器學(xué)習(xí)中使用的特征抽象方法,圍繞五類主要特征(0D、1D、2D、3D和4D)進行分類和討論。 ? 特征分類 ? 根據(jù)來源分類為實驗性描述符和理論描述符。 ? 按維度分類為0D、1D、2D、3D和4D,涵蓋的內(nèi)容從分子重量、脂溶性等基礎(chǔ)性質(zhì)到圖像拓撲、分子表面的更高級描述。 ? 不同維度的特征抽象具有各自的優(yōu)缺點,但都可以在不同應(yīng)用場景下取得成功應(yīng)用。 ? 抽象方法 ? 基于預(yù)定義描述符的傳統(tǒng)方法雖然廣泛應(yīng)用,但通常需要經(jīng)過多次試錯才能找到最佳實現(xiàn)方式。 ? 另一種相對較新的方法是通過算法學(xué)習(xí)從原始化學(xué)結(jié)構(gòu)中提取最相關(guān)的特征,有效解決了特征選擇和調(diào)參的問題。


- 0D描述符(也稱為constitutional descriptors):描述分子的基本性質(zhì),如分子量、溶解度、脂溶性等。 - 1D描述符:將分子表示為一組文本或結(jié)構(gòu)片段,也稱作list of structural fragments或fingerprints。常見的1D描述符包括Daylight fingerprints、MACCS keys等。 - 2D描述符:將分子視為一個平面圖,表示原子之間的化學(xué)鍵和它們的環(huán)境關(guān)系,也稱為graph invariants。2D描述符通常用于藥物分子的設(shè)計和篩選。 - 3D描述符:將分子在三維空間中表示,以更準(zhǔn)確地描述其物理和化學(xué)性質(zhì)。例如,基于分子的電荷分布、表面積和形狀等制定的描述符,可以為藥物分子的活性建立更準(zhǔn)確的預(yù)測模型。 - 4D描述符:一種更高級別的特征抽象方法,考慮了分子在時間上的變化。這些描述符可以用于描述局部結(jié)構(gòu)的活性、動力學(xué)特性等。

  • 2.5.2 Atom Descriptors

本節(jié)主要討論機器學(xué)習(xí)在處理關(guān)于原子反應(yīng)性的問題時,針對原子及其周圍特性進行編碼所涉及的描述符。 ? 作者提供了一份有關(guān)原子描述符的綜合概述。由于反應(yīng)性是由原子的電子分布和化學(xué)環(huán)境決定的,因此使用量子力學(xué)從原子推導(dǎo)出描述符是一個很明顯的選擇。在許多應(yīng)用中,描述符值是直接從量子化學(xué)計算中檢索的,如反應(yīng)或過渡態(tài)能量,原子電荷等。對于其他應(yīng)用,設(shè)計了由量子力學(xué)描述符組成的復(fù)合描述符。同時,還存在一些基于經(jīng)典鄰域編碼的原子描述符可用于預(yù)測代謝部位和Diels-Alder 反應(yīng)的區(qū)域選擇性。

New Bing: ? 原子描述符是一種用于描述分子或固體中原子的性質(zhì)的工具。它們通常用于材料科學(xué)和計算化學(xué)中,以幫助研究人員理解材料的性質(zhì)和行為。原子描述符可以提供關(guān)于原子的位置、電荷、電子云、鍵長和鍵角等信息,這些信息對于預(yù)測材料的性質(zhì)和行為非常重要。在計算化學(xué)中,原子描述符可以用于預(yù)測分子的反應(yīng)性、穩(wěn)定性和光學(xué)性質(zhì)等方面。在材料科學(xué)中,原子描述符可以用于預(yù)測材料的力學(xué)性質(zhì)、熱力學(xué)性質(zhì)和電學(xué)性質(zhì)等方面。


- 本節(jié)主要討論機器學(xué)習(xí)在處理關(guān)于原子反應(yīng)性的問題時,針對原子及其周圍特性進行編碼所涉及的描述符。

2.6 Performance Metrics

本節(jié)主要介紹模型評估的重要性,包括評估模型準(zhǔn)確性和魯棒性的方法以及分類和回歸問題的不同評估指標(biāo)。 模型評估對于有效使用是至關(guān)重要的,因為它們需要準(zhǔn)確和穩(wěn)健,即在一定時間范圍內(nèi)穩(wěn)定且有預(yù)測性。 在嵌套交叉驗證(CV)和獨立測試集中評估模型質(zhì)量可確保其在訓(xùn)練所用化學(xué)空間之外具有強大的性能。 回歸模型常用的評價指標(biāo)包括:R2(決定系數(shù))、均方根誤差(RMSE)和Spearman's rho。R2是決定系數(shù),它給出數(shù)據(jù)與回歸線擬合程度的信息。理論上,R2可以為1,但通常在0到1之間。對于生物相關(guān)值范圍內(nèi)的預(yù)測屬性,需要計算R2,而不是全局范圍內(nèi)的R2。RMSE是殘差的標(biāo)準(zhǔn)差,它指示預(yù)測值與實際數(shù)據(jù)點之間的接近程度,并且是可靠的通用誤差度量。Spearman's rho是一種非參數(shù)秩相關(guān)系數(shù),它適用于分類問題。

分類模型常用的評價指標(biāo)包括:混淆矩陣(也稱為列聯(lián)表)衍生出的多個指標(biāo)。其中,整體準(zhǔn)確率是所有正確預(yù)測對象占所有對象的比例。在高度不平衡的數(shù)據(jù)集中,整體準(zhǔn)確率可能會誤導(dǎo)模型性能。此時,平衡準(zhǔn)確率將很有用,因為它是特異性和靈敏性的算術(shù)平均值。特異性或真負率是被預(yù)測為負類別的實際負樣本占所有實際負樣本的比例,靈敏性或真正率是被預(yù)測為正類別的實際正樣本占所有實際正樣本的比例。假陽性和假陰性率是虛假預(yù)測陰性/陽性占所有觀察到的陰性/陽性的比例。另一個更關(guān)注預(yù)測而非觀察值的指標(biāo)是陽性預(yù)測值(也稱為精度),它顯示了所有預(yù)測為陽性的正確預(yù)測陽性占所有預(yù)測陽性的比例。對于負預(yù)測,這稱為負預(yù)測值。聚焦于正值的組合指標(biāo)是F-Score,它是精度和靈敏度的調(diào)和平均值。最常用的F-Score是F1,其中精度和靈敏度權(quán)重相等。Matthews相關(guān)系數(shù)(MCC)是回歸系數(shù)的幾何平均值,也適用于具有不平衡類分布的分類問題。最后但并非最不重要的是Cohen's kappa,它也是一個良好的度量標(biāo)準(zhǔn),可以處理不平衡的類分布,并顯示分類器與根據(jù)每個類別頻率隨機猜測的分類器相比有多好。另一個流行的指標(biāo)是接收者操作特征(ROC)曲線,用于可視化分類算法的性能。它描述了所有可能分類閾值的真陽性率和假陽性率之間的相關(guān)性。理想的ROC曲線從(0,0)到(0,1)到(1,1),沒有假陰性或假陽性預(yù)測,代表完美分類。從(0,0)到(1,1)的對角線代表無區(qū)別線,并且是最差情況。ROC曲線下面積(ROC AUC)是用于描述ROC曲線的數(shù)值度量。

  • 回歸模型

  • 分類模型

2.7 Identification of Stable and Performant Models

2.7穩(wěn)定性能模型的辨識 本節(jié)主要介紹機器學(xué)習(xí)過程的最佳實踐,這種方法已經(jīng)發(fā)展了20年,并且現(xiàn)在通常被應(yīng)用。該實踐流程是在建立歐盟化學(xué)品注冊、評估、授權(quán)和限制(REACH)的過程中制定的。不遵循這些最佳實踐通常會導(dǎo)致模型在其預(yù)期應(yīng)用場景中無法正常工作。這篇文章概述了該實踐的具體步驟。其中包括: 1.準(zhǔn)備訓(xùn)練數(shù)據(jù),即化合物標(biāo)準(zhǔn)化和測試數(shù)據(jù)預(yù)處理。 2.將數(shù)據(jù)集分為訓(xùn)練集、驗證集和外部測試集。 3.計算描述符。 4.選擇算法和相關(guān)的超參數(shù)以優(yōu)化。 5.模型訓(xùn)練,包括應(yīng)用內(nèi)部驗證策略。 6.使用適當(dāng)?shù)闹笜?biāo)對模型性能進行評估。 7.根據(jù)內(nèi)部驗證步驟選擇模型進行外部驗證。 常用的驗證策略包括交叉驗證、自助法和Y-重組法。只有通過內(nèi)部驗證的模型才需要進行外部驗證步驟。除此之外,本文還介紹了分類模型和數(shù)字模型的不同度量標(biāo)準(zhǔn),討論了模型的適用域、性能降低和重新訓(xùn)練等問題。

識別穩(wěn)定模型的一般程序,包括基于數(shù)據(jù)集分為訓(xùn)練集、測試集和外部驗證集的內(nèi)部和外部驗證。(改編自經(jīng)合組織指南)

![image-20230429153930771](markdown-img/Machine Learning Applied to the Modeling of Pharmacological and ADMET Endpoints.assets/image-20230429153930771.png)

  • 本節(jié)主要介紹機器學(xué)習(xí)過程的最佳實踐,這種方法已經(jīng)發(fā)展了20年,并且現(xiàn)在通常被應(yīng)用。文中具體給出了流程(共7步)。

  • 1.準(zhǔn)備訓(xùn)練數(shù)據(jù),即化合物標(biāo)準(zhǔn)化和測試數(shù)據(jù)預(yù)處理。

  • 2.將數(shù)據(jù)集分為訓(xùn)練集、驗證集和外部測試集。

  • 3.計算描述符。

  • 4.選擇算法和相關(guān)的超參數(shù)以優(yōu)化。

  • 5.模型訓(xùn)練,包括應(yīng)用內(nèi)部驗證策略。

  • 6.使用適當(dāng)?shù)闹笜?biāo)對模型性能進行評估。

  • 7.根據(jù)內(nèi)部驗證步驟選擇模型進行外部驗證。


2.8 Applicability Domain

本節(jié)主要談?wù)摿嘶谟邢抻?xùn)練集的監(jiān)督學(xué)習(xí)模型存在的問題,以及如何增強模型的準(zhǔn)確性和可信度。 有限訓(xùn)練集的問題 監(jiān)督學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)通常來自特定化學(xué)空間內(nèi)的分子或標(biāo)準(zhǔn)化物理化學(xué)或藥代動力學(xué)測定中的多樣化分子,而這兩種情況下模型的預(yù)測可靠區(qū)域都是受限的。 隨著將大量未知分子推入到模型中,預(yù)測準(zhǔn)確性可能會受到影響。 信息補充提高模型準(zhǔn)確性 對于一些預(yù)測(例如代謝穩(wěn)定性、CaCo-2滲透性和外流),提供預(yù)測本身的“可信度”,以支持關(guān)于個別計劃或尚未測定的分子的判斷。 介紹了不同的應(yīng)用域(AD)測量方法,包括采用距離測量的“新穎性檢測”和量化分類器決策邊界距離的“置信度估計”等方法。其中,置信度估計被認(rèn)為是更好的方法。 隨機森林由設(shè)計就是集成模型,因此具有內(nèi)置的置信度估計器,可給出類概率估計。而支持向量回歸(SVR)等其他算法則缺乏一個可比較的置信衡量標(biāo)準(zhǔn)。神經(jīng)網(wǎng)絡(luò)也提供適當(dāng)?shù)膽?yīng)用域測量,但仍不如隨機森林表現(xiàn)良好。

  • 本節(jié)主要談?wù)摿嘶谟邢抻?xùn)練集的監(jiān)督學(xué)習(xí)模型存在的問題,以及如何增強模型的準(zhǔn)確性和可信度。

  • 靈感:拜耳每周自動重新訓(xùn)練的隨機森林模型對抑制劑的體外穩(wěn)定性進行預(yù)測。

2.9 Models for Complex and Multiple Endpoints

  • 2.9.1 Modeling Physicochemical ADMET Endpoints with Multitask Graph Convolutional Networks

2.9.1使用多任務(wù)圖卷積網(wǎng)絡(luò)建模物理化學(xué)ADMET端點 ? 本節(jié)主要討論了多任務(wù)模型在藥物發(fā)現(xiàn)中的應(yīng)用,包括使用深度神經(jīng)網(wǎng)絡(luò)進行多個性質(zhì)端點預(yù)測和標(biāo)準(zhǔn)分子結(jié)構(gòu)處理流程。 ? (1)其中,多任務(wù)學(xué)習(xí)的主要優(yōu)點有正則化、遷移學(xué)習(xí)和數(shù)據(jù)集增強等。2016年,Kearnes等人進行了第一次基于深度神經(jīng)網(wǎng)絡(luò)的單一任務(wù)與多任務(wù)算法的比較,證明多任務(wù)學(xué)習(xí)相比單一任務(wù)模型可以提供適度的優(yōu)勢,并且小型數(shù)據(jù)集更容易受益于多任務(wù)學(xué)習(xí)。 ? (2)最近,多任務(wù)圖卷積網(wǎng)絡(luò)被成功應(yīng)用于預(yù)測藥物吸收、分布、代謝和排泄等方面。雖然多任務(wù)設(shè)置并非總能顯著提高性能,并存在計算成本高、過擬合風(fēng)險和優(yōu)化超參數(shù)穩(wěn)定性問題等缺點,但在某些情況下,它們能夠提供突破性的優(yōu)化效果。


- 本節(jié)主要討論了多任務(wù)模型在藥物發(fā)現(xiàn)中的應(yīng)用,包括使用深度神經(jīng)網(wǎng)絡(luò)進行多個性質(zhì)端點預(yù)測和標(biāo)準(zhǔn)分子結(jié)構(gòu)處理流程。

  • 2.9.2 Modeling of In Vivo Endpoints

本節(jié)主要討論藥物動力學(xué)和藥效學(xué)的相關(guān)參數(shù),包括口服生物利用度、吸收、代謝、非特異性血漿蛋白和組織結(jié)合以及排泄等。同時介紹了化學(xué)結(jié)構(gòu)標(biāo)準(zhǔn)化處理和機器學(xué)習(xí)應(yīng)用于模擬這些參數(shù)的研究。具體分點如下: ? 數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化處理 ? 物理化學(xué)或生物化學(xué)體外實驗的數(shù)據(jù)質(zhì)量受制于先前討論過的參數(shù),如檢測分辨率或化合物純度等。 ? 體內(nèi)實驗則涉及動物個體差異和更為復(fù)雜的實驗設(shè)計,需要更加嚴(yán)謹(jǐn)?shù)膶嶒灴刂啤?? 化學(xué)結(jié)構(gòu)數(shù)據(jù)的質(zhì)量存在潛在問題,需要進行標(biāo)準(zhǔn)化處理。 ? 口服生物利用度和藥物動力學(xué)的相關(guān)參數(shù) ? 口服生物利用度是一種重要的藥代動力學(xué)參數(shù),可通過體內(nèi)實驗提取,但需注意動物種類差異。 ? 通過測定影響口服生物利用度的多種指標(biāo)進行計算,如溶解度、脂溶性、pKa值、膜通透性、游離率和肝清除率等。 ? 機器學(xué)習(xí)在藥物動力學(xué)和藥效學(xué)參數(shù)模擬中的應(yīng)用 ? 以先前研究為基礎(chǔ),介紹了使用結(jié)構(gòu)描述符、體外ADME性質(zhì)、實驗測定值或混合輸入進行機器學(xué)習(xí)的相關(guān)工作,并提出了多種預(yù)測模型。 ? 在本文的研究中,通過建立生理學(xué)模型,并利用實驗測定值或計算模擬測定值作為輸入,成功建立了口服和靜脈注射時給藥后藥物暴露度的模型,同時也可根據(jù)化學(xué)結(jié)構(gòu)實現(xiàn)低口服生物利用度的二元分類預(yù)測模型。


- 本節(jié)主要討論藥物動力學(xué)和藥效學(xué)的相關(guān)參數(shù),包括口服生物利用度、吸收、代謝、非特異性血漿蛋白和組織結(jié)合以及排泄等。同時介紹了化學(xué)結(jié)構(gòu)標(biāo)準(zhǔn)化處理和機器學(xué)習(xí)應(yīng)用于模擬這些參數(shù)的研究。

  • 2.9.3 Modeling of Drug Metabolism

本節(jié)主要討論藥物代謝中的藥物轉(zhuǎn)化過程以及相關(guān)模擬方法。 ? 藥物代謝對藥物效果的影響 ? 藥物代謝是生物體防御有害物質(zhì)的機制之一,通過肝臟等器官的作用將藥物轉(zhuǎn)化成更易排泄的形式。 ? 藥物代謝可能導(dǎo)致有效劑量降低、藥物代謝產(chǎn)物毒性、藥物代謝酶的抑制或誘導(dǎo)、藥物相互作用以及耐藥等問題。 ? 藥物代謝受到多種因素的影響,包括性別、遺傳多態(tài)性、年齡、飲食和生活方式等。 ? 藥物代謝的兩個階段和機制 ? 藥物代謝可分為兩個階段,其中第一階段主要由細胞色素P450酶介導(dǎo),在氧化還原反應(yīng)中增加藥物的極性。 ? 第二階段主要由UDP-葡萄糖醛酰轉(zhuǎn)移酶、硫轉(zhuǎn)移酶和谷胱甘肽S-轉(zhuǎn)移酶等多種酶介導(dǎo),通過結(jié)合特定分子片段將藥物代謝產(chǎn)物排泄出體外。 ? 預(yù)測藥物代謝的計算方法 ? 傳統(tǒng)的實驗方法受到效率和能力限制,因此出現(xiàn)了多種計算方法用于預(yù)測藥物代謝過程。 ? 這些方法包括基于對接、分子動力學(xué)和量子化學(xué)計算等的計算模擬和機器學(xué)習(xí)等方法。 ? 基于機器學(xué)習(xí)的方法較為廣泛應(yīng)用,可以針對不同藥代動力學(xué)參數(shù)進行預(yù)測。例如,使用基于原子反應(yīng)活性的描述符建立的模型成功地預(yù)測了18種藥物代謝轉(zhuǎn)化過程。


- 本節(jié)主要討論藥物代謝中的藥物轉(zhuǎn)化過程以及相關(guān)模擬方法。

2.10 Application Examples

  • 2.10.1 Bayer’s Integrated ADMETPlatform

拜耳的ADMET模型組合及其隨時間的演變。通過顏色編碼給出了模型性能的定性度量。

![image-20230429154057723](markdown-img/Machine Learning Applied to the Modeling of Pharmacological and ADMET Endpoints.assets/image-20230429154057723.png)

本節(jié)主要闡述了機器學(xué)習(xí)模型的前提條件、流程和驗證,并提出了兩個重要的步驟:將模型放在易于使用的平臺上,并不斷向用戶進行交互和訓(xùn)練。 ? 將模型放在易于使用的平臺上 ? 通過Pix 數(shù)據(jù)檢索和分析平臺,使計算化學(xué)中的模型對拜耳制藥研究員以及后來的CropScience 研究員可用。 ? 隨著模型和模型質(zhì)量的不斷提高,手動模型再訓(xùn)練的工作量變得越來越大。 ? 對模型進行定期再訓(xùn)練 ? 定期重新訓(xùn)練模型有助于模型在項目中表現(xiàn)更好。 ? 每周提取所有測試數(shù)據(jù)進行數(shù)據(jù)清洗和聚合,并存儲到數(shù)據(jù)湖中,接著從中提取機器學(xué)習(xí)所需的數(shù)據(jù)進行模型再訓(xùn)練。 ? 自動化流程確保數(shù)據(jù)完整性和模型穩(wěn)定性。 ? 在處理流程中透明地記錄了特定端點及其數(shù)據(jù)問題的知識,避免了信息丟失。 ? 工業(yè)工程方法的機器學(xué)習(xí)釋放了科學(xué)家的資源,能夠定期檢查模型設(shè)置并探索新的方法和新的端點,以此來優(yōu)化藥物研發(fā)過程。

  • 本節(jié)主要闡述了機器學(xué)習(xí)模型的前提條件、流程和驗證,并提出了兩個重要的步驟:將模型放在易于使用的平臺上,并不斷向用戶進行交互和訓(xùn)練。

  • 靈感:感覺對實驗室的ADMET預(yù)測平臺很有意義,能實現(xiàn)的話就不需要重復(fù)訓(xùn)練而能一直更新了

  • 2.10.2 Guiding the Design of Combinatorial Libraries

本節(jié)主要討論藥物研發(fā)項目中使用計算化學(xué)方法和高通量篩選(HTS)方法的優(yōu)缺點,并介紹了拜耳制藥公司通過Next Generation Library Initiative(NGLI)增強HTS化合物庫的經(jīng)驗。 ? 計算化學(xué)方法和HTS方法的優(yōu)缺點 ? 虛擬篩選和de novo設(shè)計等計算化學(xué)方法可以幫助產(chǎn)生新的化學(xué)物質(zhì),是一個重要的起始點,但實驗測試仍然是識別高效分子的可靠工具。 ? 實驗測試使得化合物庫的減少(1)通過消耗物質(zhì)和(2)由于任何Hits(苗頭化合物)將間接地暴露一定部分的化合物空間。 ? NGLI的經(jīng)驗 ? 通過NGLI倡議,設(shè)計了500,000個新化合物用于填補失去的化合物庫。 ? 化學(xué)框架和合成計劃由藥物化學(xué)家或者基于結(jié)構(gòu)的設(shè)計由計算化學(xué)家在目標(biāo)類團隊通過“眾包”提供,最后的修飾則通過多個化合物屬性和多樣性的Pareto優(yōu)化進行選擇,實現(xiàn)每個化合物庫400-600個化合物的生產(chǎn)。


- 本節(jié)主要討論藥物研發(fā)項目中使用計算化學(xué)方法和高通量篩選(HTS)方法的優(yōu)缺點,并介紹了拜耳制藥公司通過Next Generation Library Initiative(NGLI)增強HTS化合物庫的經(jīng)驗。

  • 2.10.3 Combining Cheminformatics and Physics-Based Methods in Lead Optimization

2.10.3在先導(dǎo)化合物優(yōu)化中結(jié)合化學(xué)信息學(xué)和基于物理學(xué)的方法

本節(jié)主要討論藥物優(yōu)化中多個分子屬性的優(yōu)化問題以及如何通過化學(xué)信息學(xué)和基于物理學(xué)的方法結(jié)合解決大型虛擬化學(xué)空間中化合物的優(yōu)先級問題。具體分為以下幾點: ? 多參數(shù)優(yōu)化問題 ? 藥物優(yōu)化中存在多個分子屬性需要優(yōu)化。 ? 這些分子屬性彼此不獨立,優(yōu)化其中一個可能會影響其他屬性。 ? 如何有效平衡這些參數(shù)是藥物發(fā)現(xiàn)項目的關(guān)鍵挑戰(zhàn)。 ? 化合物優(yōu)先級的確定 ? 前期優(yōu)化已經(jīng)得到一個具有高效性和良好選擇性但在人體內(nèi)代謝半衰期不足的化合物。 ? 從藥物化學(xué)和計算機分子設(shè)計領(lǐng)域的同事手中獲取一些可能對核心進行修飾的殘基信息。 ? 列出所有想要的殘基的組合的可能性,形成超過60,000種合成可行的虛擬化學(xué)空間,因此需要有效的優(yōu)先級設(shè)置。 ? 綜合方法的應(yīng)用 ? 我們使用了基于機器學(xué)習(xí)的ADMET模型、局部模型和基于FEP法的物理學(xué)結(jié)合化學(xué)信息學(xué)的Free-Wilson QSAR方法來確定化合物的優(yōu)先級。 ? 這種混合方法極大地拓寬了傳統(tǒng)Free-Wilson方法的適用范圍。 ? 本節(jié)主要討論了一項概念驗證研究,通過計算最小的71個結(jié)合親和力數(shù)據(jù)集,評估了基于Free-Wilson分析的方法在預(yù)測大型虛擬化學(xué)空間中化合物的活性方面的準(zhǔn)確性。文章還討論了影響結(jié)果質(zhì)量的關(guān)鍵因素,以及在藥物發(fā)現(xiàn)過程中模型的局限性。 ? 1. 方法準(zhǔn)確性研究 ? ? ?- 使用Schrodinger的FEP/REST(FEP+)方法計算最小的71個結(jié)合親和力數(shù)據(jù)。 ? ? ?- 結(jié)合親和力計算的準(zhǔn)確性可能因不同的靶標(biāo)和化合物類別而異。 ? 2. 影響結(jié)果質(zhì)量的關(guān)鍵因素 ? ? ?- 應(yīng)用方法、采樣、系統(tǒng)設(shè)置、力場以及實驗測定和計算數(shù)據(jù)之間的可比性。 ? 3. 結(jié)果分析 ? ? ?- 觀察到的平均無符號誤差(MUE)較低,為0.8 kcal/mol。 ? ? ?- 使用基于計算的Free-Wilson方法,觀察到的MUE為1.6 kcal/mol,雖然不足以滿足導(dǎo)向優(yōu)化的需求,但仍可作為初步篩選步驟。 ? 4. 藥物發(fā)現(xiàn)過程中的模型局限性 ? ? ?- 藥物發(fā)現(xiàn)仍然是一個充滿挑戰(zhàn)的過程,主要依賴試驗和錯誤。 ? ? ?- 模型在提供有用信息方面存在局限性,不能完全替代實驗數(shù)據(jù)。 ? 5. 未來發(fā)展趨勢 ? ? ?- 預(yù)計未來將有越來越多的成功應(yīng)用案例采用整體方法進行藥物發(fā)現(xiàn)。 ? ? ?- 模型僅是輔助藥物發(fā)現(xiàn)過程的眾多工具之一。


- 本節(jié)主要討論藥物優(yōu)化中多個分子屬性的優(yōu)化問題以及如何通過化學(xué)信息學(xué)和基于物理學(xué)的方法結(jié)合解決大型虛擬化學(xué)空間中化合物的優(yōu)先級問題。 - 本節(jié)主要討論了一項概念驗證研究,通過計算最小的71個結(jié)合親和力數(shù)據(jù)集,評估了基于Free-Wilson分析的方法在預(yù)測大型虛擬化學(xué)空間中化合物的活性方面的準(zhǔn)確性。文章還討論了影響結(jié)果質(zhì)量的關(guān)鍵因素,以及在藥物發(fā)現(xiàn)過程中模型的局限性。 - 靈感:基于FEP計算建立機器學(xué)習(xí)模型 ?基于FEP計算建立的機器學(xué)習(xí)模型在評價化合物活性時使用的指標(biāo)是平均無符號誤差(MUE)。在一項概念驗證研究中,通過計算最小的71個結(jié)合親和力數(shù)據(jù)集,評估了基于Free-Wilson分析的方法在預(yù)測大型虛擬化學(xué)空間中化合物的活性方面的準(zhǔn)確性。研究發(fā)現(xiàn),使用基于計算的Free-Wilson方法,觀察到的MUE為1.6 kcal/mol,雖然不足以滿足導(dǎo)向優(yōu)化的需求,但仍可作為初步篩選步驟。雖然這是一個原型示例,但它展示了在大型虛擬化學(xué)空間中優(yōu)先考慮化合物的高潛力的高潛力的方法。為了提高準(zhǔn)確性,可以在過濾過程的最后一步對少量的化合物進行顯式的FEP計算。

3 Summary and Outlook

本文主要討論藥物發(fā)現(xiàn)領(lǐng)域中基于定量結(jié)構(gòu)-活性關(guān)系(QSAR)的機器學(xué)習(xí)模型,以及在數(shù)據(jù)、算法和描述符等方面的不斷發(fā)展。其中,通過自動化測試技術(shù)和區(qū)塊鏈等新技術(shù),化合物結(jié)構(gòu)活性數(shù)據(jù)得到了極大的增加,為建立更加準(zhǔn)確的機器學(xué)習(xí)模型提供了更為廣泛和多樣化的數(shù)據(jù)源。

此外,對于ADMET方面的數(shù)據(jù),由于相關(guān)實驗具有標(biāo)準(zhǔn)化和可重復(fù)性等優(yōu)勢,并且ADMET問題在藥物發(fā)現(xiàn)中也經(jīng)常出現(xiàn),因此機器學(xué)習(xí)模型在該領(lǐng)域得到了廣泛應(yīng)用。

然而,在藥效方面,數(shù)據(jù)稀缺性仍是制約機器學(xué)習(xí)模型應(yīng)用的一大瓶頸,因此目前藥物發(fā)現(xiàn)領(lǐng)域開始采用綜合考慮藥效、PhysChem和ADMET等多指標(biāo)的綜合藥物發(fā)現(xiàn)方法,其中融合了機器學(xué)習(xí)模型和基于物理的計算模型等眾多方法,這些新方法將對未來藥物發(fā)現(xiàn)領(lǐng)域帶來深刻影響。

【萬字總結(jié)】機器學(xué)習(xí)在藥理學(xué)和ADMET端點建模中的應(yīng)用的評論 (共 條)

分享到微博請遵守國家法律
汾西县| 瑞丽市| 南平市| 三河市| 荆州市| 裕民县| 和龙市| 汶川县| 江城| 麻阳| 出国| 广宗县| 农安县| 潜江市| 龙州县| 黄冈市| 辰溪县| 江门市| 平舆县| 南阳市| 临朐县| 瑞昌市| 吴江市| 饶阳县| 精河县| 阿克陶县| 来宾市| 高密市| 依兰县| 深泽县| 旬阳县| 蓬溪县| 新泰市| 固阳县| 通渭县| 大方县| 奉新县| 涞源县| 平南县| 乌拉特中旗| 汕尾市|