最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Water Research |基于分子結(jié)構(gòu)開發(fā)機(jī)器學(xué)習(xí)方法來識別候選的持久性、可移動性和毒性

2023-08-23 10:46 作者:偷吃的莫崽  | 我要投稿

Developing machine learning approaches to identify candidate persistent, mobile and toxic (PMT) and very persistent and very mobile (vPvM) substances based on molecular structure

出版:Water Research

作者:Min Han, Biao Jin, Jun Liang , Chen Huang , Hans Peter H. Arp

原文鏈接:https://pubs.acs.org/doi/10.1021/acs.est.1c01339

摘要:

這項(xiàng)研究的目標(biāo)是確定全球市場上哪些物質(zhì)可以被歸類為持久性、易遷移和有毒(PMT)物質(zhì)或非常持久性、非常易遷移(vPvM)物質(zhì),以防止或減少這些物質(zhì)對飲用水的污染。該研究基于不同的分子描述符(MDs)開發(fā)了機(jī)器學(xué)習(xí)模型,并定義了適用范圍,以篩選PMT/vPvM物質(zhì)。該模型使用3111個物質(zhì)進(jìn)行訓(xùn)練,這些物質(zhì)具有基于專家權(quán)威證據(jù)的PMT/vPvM危害分類,其中考慮到了最高質(zhì)量的可用數(shù)據(jù)。該模型基于一個假設(shè),即PMT/vPvM物質(zhì)含有相似的MDs,代表著耐降解的化學(xué)結(jié)構(gòu),與低吸附性(或高溶解度)相關(guān)聯(lián),并且在某些情況下與已知的毒性機(jī)制相關(guān)聯(lián)。通過整合不同的分子描述方法、數(shù)據(jù)平衡策略和機(jī)器學(xué)習(xí)算法,測試了所有可能的模型組合。模型可以一步預(yù)測候選的PMT/vPvM物質(zhì),同時將我們的方法與分別預(yù)測P、M和T的方法進(jìn)行了對比(即三步預(yù)測)。結(jié)果表明,單步模型在內(nèi)部測試集中對于PMT/vPvM鑒定(即正樣本)實(shí)現(xiàn)了92%的準(zhǔn)確率,并且在中國太湖檢測到的化學(xué)污染物的外部測試集上也實(shí)現(xiàn)了90%的準(zhǔn)確率。此外,模型的預(yù)測機(jī)制通過Shapley加性解釋(SHAP)進(jìn)行了解釋。這項(xiàng)工作展示了大數(shù)據(jù)無機(jī)篩選模型在識別潛在符合PMT/vPvM標(biāo)準(zhǔn)的物質(zhì)方面的進(jìn)展。

具體任務(wù)包括:

(1) 利用和測試不同的分子描述方法、數(shù)據(jù)平衡方法和機(jī)器學(xué)習(xí)算法的模型組合;

(2) 通過采用上述模型組件來比較所有可能的模型組合,以找出基于性能指標(biāo)的最佳組合;

(3) 通過將模型預(yù)測結(jié)果與在中國太湖檢測到的有機(jī)化學(xué)物質(zhì)的專家驗(yàn)證結(jié)果進(jìn)行交叉驗(yàn)證,確定最佳模型;

(4) 基于SHAP方法解釋PMT/vPvM鑒定的模型機(jī)制。

數(shù)據(jù)來源:該研究的數(shù)據(jù)來源主要包括之前的研究中用于PMT/vPvM評估的實(shí)驗(yàn)數(shù)據(jù)或證據(jù)權(quán)重?cái)?shù)據(jù)。評估基于REACH注冊物質(zhì)和藥物及個人護(hù)理產(chǎn)品(PPCPs)進(jìn)行,基于德國環(huán)境局于2019年制定的PMT/vPvM標(biāo)準(zhǔn)。選擇了共3111種化學(xué)物質(zhì)作為數(shù)據(jù)集,這些化學(xué)物質(zhì)具有高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù)或證據(jù)權(quán)重?cái)?shù)據(jù),可用于判斷其持久性、遷移性和毒性。

模型結(jié)構(gòu):

該研究使用了以下的模型組合方法:

  • 11種機(jī)器學(xué)習(xí)算法:邏輯回歸(LR)、決策樹(DT)、隨機(jī)森林(RF)、線性支持向量機(jī)(LSVM)、徑向基函數(shù)核支持向量機(jī)(RSVM)、多項(xiàng)式核支持向量機(jī)(PSVM)、k最近鄰(KNN)、高斯樸素貝葉斯(GaussianNB)、伯努利樸素貝葉斯(BernoulliNB)、極限梯度提升(XGBoost)和梯度樹提升(GBDT)。

  • 集成模型:通過結(jié)合上述11種機(jī)器學(xué)習(xí)算法構(gòu)建的模型。

為了尋找最優(yōu)的模型組合,研究人員嘗試了不同的分子描述方法、數(shù)據(jù)平衡方法和機(jī)器學(xué)習(xí)算法的960種可能組合。首先,采用默認(rèn)參數(shù)對這些組合進(jìn)行訓(xùn)練,并比較它們的性能。由于可用數(shù)據(jù)有限,采用了五折交叉驗(yàn)證方法,將數(shù)據(jù)集隨機(jī)劃分為五個大小相似、互斥的子集,并通過分層抽樣確保每個子集都包含相同比例的正樣本和負(fù)樣本。然后,使用不同的數(shù)據(jù)平衡方法對訓(xùn)練數(shù)據(jù)進(jìn)行平衡,并使用平衡后的數(shù)據(jù)進(jìn)行模型訓(xùn)練和構(gòu)建。測試數(shù)據(jù)用于評估不同模型的性能。

通過五次迭代的訓(xùn)練和測試過程,得到了五個順序測試中評估指標(biāo)的均值,以評估模型的性能?;谠u估指標(biāo),選擇了表現(xiàn)最佳的四個模型。此外,還應(yīng)用了內(nèi)部的五折交叉驗(yàn)證和網(wǎng)格搜索方法,根據(jù)訓(xùn)練數(shù)據(jù)返回的召回率來優(yōu)化所選模型的超參數(shù)。通過這些優(yōu)化后的超參數(shù),對四個最佳模型在內(nèi)部測試集上進(jìn)行了性能評估。

1.模型性能與優(yōu)化

研究發(fā)現(xiàn),在PMT/vPvM預(yù)測中,通過采用重新采樣方法平衡數(shù)據(jù)集,并結(jié)合適當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法和分子描述方法,可以提高模型性能。其中,“EasyEnsemble”方法在平衡準(zhǔn)確率和召回率等指標(biāo)方面表現(xiàn)最佳。值得注意的是,不同的重新采樣方法對模型性能的影響存在差異,同時機(jī)器學(xué)習(xí)算法和分子描述方法的選擇也會對模型性能產(chǎn)生重要影響。因此,在開發(fā)PMT/vPvM預(yù)測模型時,需要綜合考慮這些因素以獲取最佳性能。

圖 2

大多數(shù)模型未能通過滿足所有評估指標(biāo)來獲得良好的性能。相對而言,基于EasyEnsemble方法的模型(除EasyEnsemble-PSVM和EasyEnsemble-BernoulliNB外)在所有組合建模策略中表現(xiàn)最佳。

圖 3

圖3展示了0-2D MDs-EasyEnsemble-XGBoost和0-3D MDs-EasyEnsemble-XGBoost模型的特征選擇結(jié)果。通過這些比較,選擇了最有潛力的模型,這些模型結(jié)合了不同的超參數(shù)優(yōu)化策略,包括0-2D MDs(10%特征)-EasyEnsemble-XGBoost模型(模型1)、0-2D MDs(80%特征)-EasyEnsemble-XGBoost模型(模型2)、0-3D MDs(40%特征)-EasyEnsemble-XGBoost模型(模型3)和MACCSFP-EasyEnsemble-XGBoost模型(模型4)。

2.適用范圍和模型評估

通過計(jì)算驗(yàn)證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)在5折數(shù)據(jù)集上的平均相似度和最大相似度,得出了模型性能評估指標(biāo),包括超出異常度(AD)的化合物數(shù)量、平衡準(zhǔn)確率和召回率。所有模型的超出AD的化合物數(shù)量都在1.5%以內(nèi),確保了測試數(shù)據(jù)集的足夠大小。經(jīng)過比較,選擇了最佳模型,并確定了最大相似度作為相似度度量標(biāo)準(zhǔn),并選擇了閾值為0.52。進(jìn)一步對264個未考慮的化合物進(jìn)行測試,結(jié)果顯示模型1具有最高的召回率、平衡準(zhǔn)確率、準(zhǔn)確率、F1值和AUCROC值,表明它給出了最可靠的預(yù)測。在25個PMT/vPvM物質(zhì)中,只有2個被錯誤分類,其中包括一個PMT物質(zhì)和一個vPvM物質(zhì)。然而,還有41個非PMT/vPvM物質(zhì)被錯誤地預(yù)測為PMT/vPvM物質(zhì)。此外,將一步法模型與三步法模型進(jìn)行比較,發(fā)現(xiàn)一步法模型在召回率、平衡準(zhǔn)確率、G_mean和F1方面表現(xiàn)更好。綜上所述,一步法模型在優(yōu)先考慮的評估指標(biāo)下取得了更好的性能。

3.模型應(yīng)用與解釋

使用集成學(xué)習(xí)算法改進(jìn)模型預(yù)測的過程,并提供了關(guān)于特征與PMT/vPvM物質(zhì)識別之間關(guān)聯(lián)的解釋。根據(jù)模型解釋的結(jié)果,不同的特征對化合物的流動性、親水性和分子結(jié)構(gòu)起著重要作用。其中一些特征與非PMT/vPvM預(yù)測相關(guān),而另一些特征與PMT/vPvM預(yù)測相關(guān)。這些發(fā)現(xiàn)對于理解分子結(jié)構(gòu)對PMT/vPvM特征的影響具有重要意義。然而,也存在一些模型解釋之間的差異,需要進(jìn)一步研究和驗(yàn)證。

圖 4

總結(jié):

這項(xiàng)研究是首次利用機(jī)器學(xué)習(xí)工具來識別PMT/vPvM物質(zhì)的研究之一,也是第一次僅基于專家評估的符合PMT/vPvM標(biāo)準(zhǔn)的物質(zhì),并考慮到PMT/vPvM與分子描述符的關(guān)系。該研究旨在開發(fā)一種能夠進(jìn)行一步PMT/vPvM預(yù)測的模型,其概念與基于三步(即P、M和T分別評估)的傳統(tǒng)方法不同。

采用了不同的分子描述方法、數(shù)據(jù)平衡策略和機(jī)器學(xué)習(xí)算法來開發(fā)不同的模型。最終,通過結(jié)合0-2D MDs、特征選擇(選取10%的特征)、EasyEnsemble-XGBoost等,得到了最佳的一步模型,在應(yīng)用于內(nèi)部測試數(shù)據(jù)集和中國太湖檢測到的有機(jī)污染物時,成功率達(dá)到了PMT/vPvM識別的最佳性能(≥92%)。

為了更好地理解所開發(fā)模型的預(yù)測機(jī)制,采用了SHAP方法,并且結(jié)果表明,模型通過從分子結(jié)構(gòu)中提取和學(xué)習(xí)關(guān)鍵信息,為不同化學(xué)物質(zhì)的PMT/vPvM屬性提供了令人滿意的預(yù)測。這些結(jié)果共同表明,特定的分子結(jié)構(gòu)可以與PMT/vPvM物質(zhì)相關(guān)聯(lián),并且機(jī)器學(xué)習(xí)是一種有效的工具,用于識別候選的PMT/vPvM物質(zhì),從而實(shí)現(xiàn)安全和可持續(xù)的化學(xué)品管理策略。

這是本賬號第一次發(fā)布機(jī)器學(xué)習(xí) x 環(huán)境科學(xué)交叉領(lǐng)域的論文帶讀內(nèi)容,未來會繼續(xù)閱讀環(huán)境領(lǐng)域頂刊,感興趣的小伙伴可以點(diǎn)個贊,祝大家科研順利!

Water Research |基于分子結(jié)構(gòu)開發(fā)機(jī)器學(xué)習(xí)方法來識別候選的持久性、可移動性和毒性的評論 (共 條)

分享到微博請遵守國家法律
宾川县| 伊吾县| 喀喇沁旗| 雅江县| 务川| 沿河| 新干县| 苍南县| 南江县| 林周县| 方山县| 台前县| 景宁| 阳高县| 安国市| 大同市| 台北市| 博白县| 建昌县| 玉环县| 柳州市| 惠安县| 内黄县| 安溪县| 阿克苏市| 建宁县| 大田县| 香河县| 图木舒克市| 巴林左旗| 子长县| 定兴县| 鄂托克前旗| 新宁县| 观塘区| 宁夏| 正阳县| 西林县| 北宁市| 金乡县| 阳城县|