最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

多任務(wù)深度表征化對(duì)ADMET預(yù)測的改進(jìn)

2023-06-08 14:15 作者:AIDDPro  | 我要投稿

引言

在藥物發(fā)現(xiàn)中,吸收、分布、代謝、消除和毒性(ADMET)的特性在確定潛在候選藥物的療效和安全性方面起著關(guān)鍵作用。從歷史上看,ADMET的預(yù)測問題一直是造成臨床試驗(yàn)失敗的重要原因。為了解決這個(gè)問題,像默克公司這樣的制藥公司一直在利用他們的數(shù)據(jù)庫,用假設(shè)驅(qū)動(dòng)和模型引導(dǎo)的方法指導(dǎo)早期實(shí)驗(yàn)。

涉及基于計(jì)算機(jī)的模擬和預(yù)測模型的虛擬模型已被開發(fā)出來,以協(xié)助潛在候選藥物的早期篩選。監(jiān)督機(jī)器學(xué)習(xí)(ML)通常被用來創(chuàng)建這些模型。ML算法使用訓(xùn)練數(shù)據(jù)將輸入表征(代表分子)映射到輸出標(biāo)簽(代表ADMET特性)。傳統(tǒng)上,分子被表示為一維的表征向量,而表征化過程往往需要特定領(lǐng)域的知識(shí)。表示分子表征的傳統(tǒng)方法,如圓形指紋和原子對(duì)表征,在捕捉描述符之間有意義的相似性方面有局限性。這些方法將復(fù)雜的多維物體投射到一個(gè)單一的維度上,這導(dǎo)致了表征向量中比特的任意排列。這種安排需要由機(jī)器學(xué)習(xí)(ML)算法來重新學(xué)習(xí)。

圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN)通過分離分子的 "元素"、"雜化 "和 "鍵距 "成分提供了一種替代方法。GCNNs可以利用原子和鍵相鄰的概念,使它們能夠代表質(zhì)量相似的描述符之間的概念接近性。每個(gè)分子由一個(gè)鄰接矩陣和一個(gè)表征矩陣表示,多個(gè)圖卷積層產(chǎn)生一個(gè)端到端的可區(qū)分指紋向量。這使得GCNN能夠?qū)W習(xí)一個(gè)捕捉分子結(jié)構(gòu)表征的表征向量。

在這項(xiàng)研究中,PotentialNet GCNNs的一個(gè)衍生物,稱為MT-PotentialNet,被訓(xùn)練并與基于原子對(duì)描述符的隨機(jī)森林進(jìn)行比較。該研究還對(duì)RF和PotentialNet GCNNs在模型參數(shù)被凍結(jié)后記錄的新化學(xué)實(shí)體的檢測數(shù)據(jù)上的預(yù)測準(zhǔn)確性進(jìn)行了預(yù)測比較。

方法

該研究采用了用PyTorch訓(xùn)練的PotentialNet神經(jīng)網(wǎng)絡(luò),并利用多任務(wù)學(xué)習(xí)來訓(xùn)練這些模型?;赗DCit、OEChem、NumPy和SciPy的定制Python代碼被用于數(shù)據(jù)處理和分析。隨機(jī)森林(RF)是使用scikit-learn和MIX庫實(shí)現(xiàn)的,而xgboost模型是使用MIX訓(xùn)練的。

為了比較固定向量描述符和圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN),使用了多層感知器(MLP)和GCNN。MLP用一個(gè)平面向量表示每個(gè)分子,而GCNN用一個(gè)鄰接矩陣和一個(gè)每原子表征矩陣表示分子。GCNN采用了圖卷積層和圖收集操作來生成一個(gè)端到端的可區(qū)分的指紋向量。對(duì)MLP和GCNN架構(gòu)進(jìn)行了并列比較。PotentialNet系列圖形神經(jīng)網(wǎng)絡(luò)在基本圖形卷積層的基礎(chǔ)上進(jìn)行了改進(jìn),被用于訓(xùn)練。這些模型在標(biāo)準(zhǔn)化的數(shù)據(jù)集上被訓(xùn)練和評(píng)估,重復(fù)的化合物被刪除。本研究中使用的QSAR描述符是基于特定的原子對(duì)(AP)和通用的Donor acceptor pair 供體受體對(duì)(DP)描述符。

隨機(jī)森林、xgboost和MLP深度神經(jīng)網(wǎng)絡(luò)被用作回歸模式的QSAR方法。隨機(jī)森林模型用默認(rèn)設(shè)置或使用MIX庫進(jìn)行訓(xùn)練。xgboost方法是基于極端梯度提升算法的。檢測的實(shí)驗(yàn)方法詳見默克公司以前的文章。

結(jié)論

研究人員使用31個(gè)檢測數(shù)據(jù)集進(jìn)行了綜合分析,采用了兩個(gè)交叉驗(yàn)證分割,并對(duì)一個(gè)保留的測試集進(jìn)行了預(yù)測。他們比較了多任務(wù)GCNN、單任務(wù)GCNN和RF模型的性能。結(jié)果顯示在所有四個(gè)驗(yàn)證設(shè)置中都有統(tǒng)計(jì)學(xué)上的改進(jìn)。在時(shí)間分割設(shè)置中,多任務(wù)GCNN的平均r2達(dá)到0.44,超過了單任務(wù)GCNN(平均r2為0.39)和RF(平均r2為0.30)。在時(shí)間加分子量分割的設(shè)置中,多任務(wù)GCNN實(shí)現(xiàn)了平均r2為0.28,而RF只實(shí)現(xiàn)了平均r2為0.12。在偽前瞻性驗(yàn)證設(shè)置中,與RF相比,多任務(wù)GCNN在預(yù)測被動(dòng)膜滲透性和logD時(shí)顯示出更高的r2值。

還對(duì)23個(gè)帶有新化學(xué)實(shí)體的檢測項(xiàng)目進(jìn)行了前瞻性驗(yàn)證。與RF模型相比,多任務(wù)GCNN顯示了平均0.10的r2改進(jìn),表明其在未來的時(shí)間窗口中具有準(zhǔn)確預(yù)測的潛力。研究人員進(jìn)一步比較了部分公開披露的化合物的預(yù)測結(jié)果,發(fā)現(xiàn)多任務(wù)GCNN在估計(jì)對(duì)數(shù)D等屬性方面優(yōu)于RF。

該研究強(qiáng)調(diào)了帶有圖形卷積的深度表征學(xué)習(xí)和多任務(wù)學(xué)習(xí)在預(yù)測ADMET端點(diǎn)方面的優(yōu)勢。與基于固定指紋的傳統(tǒng)RF模型相比,基于神經(jīng)網(wǎng)絡(luò)的模型表現(xiàn)出更高的準(zhǔn)確性。這一發(fā)現(xiàn)表明,利用大型數(shù)據(jù)集和采用深度學(xué)習(xí)技術(shù)可以提高ADMET特性的預(yù)測,幫助藥物化學(xué)家探索未開發(fā)的化學(xué)空間,指導(dǎo)他們尋找最佳藥物分子。參考資料:

Feinberg, Evan et al. "Improvement in ADMET Prediction with Multitask Deep Featurization.", <i>Journal of medicinal chemistry</i> 63.16 (2020): 8835-8848.

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn


多任務(wù)深度表征化對(duì)ADMET預(yù)測的改進(jìn)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
通城县| 株洲市| 松溪县| 正镶白旗| 宁都县| 桂平市| 德江县| 阿拉尔市| 汾西县| 舒兰市| 凤城市| 宁城县| 鄂托克旗| 中山市| 浠水县| 镇江市| 平阳县| 本溪市| 肇源县| 繁峙县| 娱乐| 长宁县| 黑水县| 扶沟县| 余姚市| 维西| 揭西县| 肇东市| 隆林| 惠东县| 建昌县| 花莲县| 临颍县| 固安县| 云浮市| 江西省| 称多县| 德兴市| 澄城县| 黄浦区| 南岸区|