最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

論化學(xué)結(jié)構(gòu)整理在化學(xué)信息學(xué)和QSAR建模研究中的重要性

2023-07-07 14:40 作者:AIDDPro  | 我要投稿

引言

最近高通量技術(shù)的發(fā)展使得大量的數(shù)據(jù)集和數(shù)據(jù)庫可用于計算藥物發(fā)現(xiàn)。然而,這些數(shù)據(jù)庫中的輸入數(shù)據(jù)的準確性對于可靠的化學(xué)信息學(xué)和分子建模研究至關(guān)重要。研究表明,實驗科學(xué)家產(chǎn)生的數(shù)據(jù)和各種數(shù)據(jù)庫中的數(shù)據(jù)都存在誤差,誤差率從0.1%到8%不等。

盡管這些錯誤率看起來相對較低,但最近的調(diào)查強調(diào)了準確的結(jié)構(gòu)表示對化學(xué)信息學(xué)模型性能的重大影響。研究發(fā)現(xiàn),模型中使用的化學(xué)描述符的類型對預(yù)測性能的影響比采用的優(yōu)化技術(shù)更大。因此,用錯誤的描述符表示錯誤的結(jié)構(gòu)會對模型的性能產(chǎn)生不利的影響。這篇文章將強調(diào)化學(xué)數(shù)據(jù)整理在QSAR(定量結(jié)構(gòu)-活性關(guān)系)建模方面的重要性。作者評估了已知數(shù)據(jù)庫中的隨機和系統(tǒng)錯誤對QSAR模型預(yù)測能力的影響。他們證明,即使是一個數(shù)據(jù)集中的小的結(jié)構(gòu)性錯誤也會導(dǎo)致預(yù)測能力的重大損失。此外,他們還表明,結(jié)構(gòu)數(shù)據(jù)的人工整理大大改善了模型的預(yù)測能力

1.1 化學(xué)數(shù)據(jù)的錯誤

公開的生物活性分子數(shù)據(jù)庫中存在的錯誤是一個影響化學(xué)信息學(xué)研究的可靠性和性能的重要問題。對流行的公共數(shù)據(jù)庫,如NCI AIDS Antiviral Screen和NCI Human Tumor Cell Line的分析,發(fā)現(xiàn)了結(jié)構(gòu)表示中的錯誤。這些錯誤包括混合物和鹽類被錯誤地歸類為單獨的化合物,以及存在重復(fù)的和具有不同報告活性的立體異構(gòu)體。在發(fā)表的文獻中研究的較小的數(shù)據(jù)集也有類似的觀察結(jié)果。例如,一個用于對四膜蟲水生毒性進行QSAR建模的數(shù)據(jù)集,由于鹽中存在不同的金屬陽離子而包含重復(fù)的化合物。此外,在一個用于評估競爭模型的外部數(shù)據(jù)集中,發(fā)現(xiàn)化合物具有相同的結(jié)構(gòu),但毒性值不同。結(jié)構(gòu)表示和生物注釋中存在的這種錯誤可能導(dǎo)致QSAR模型的失敗。然而,數(shù)據(jù)質(zhì)量問題及其對化學(xué)信息學(xué)模型的影響在已發(fā)表的文獻中很少得到關(guān)注。在化學(xué)信息學(xué)家和分子建模者中,有一種傾向是依賴已發(fā)表的數(shù)據(jù)而不徹底檢查其準確性。化學(xué)記錄的整理,類似于蛋白質(zhì)X射線晶體學(xué)的結(jié)構(gòu)數(shù)據(jù)整理,應(yīng)該被看作是化學(xué)信息學(xué)研究的一個重要組成部分。雖然像ChemSpider這樣的項目已經(jīng)為解決數(shù)據(jù)整理做出了努力,但責(zé)任最終還是落在了使用數(shù)據(jù)庫或出版物中的數(shù)據(jù)的科學(xué)家身上,他們要自己整理這些數(shù)據(jù)。

1.2 化學(xué)數(shù)據(jù)整理

本文強調(diào)了化學(xué)數(shù)據(jù)整理的意,并建議在OECD原則中加入第六條規(guī)則,以強調(diào)在模型開發(fā)之前需要仔細整理數(shù)據(jù)。作者旨在通過追求幾個目標(biāo)來解決這個問題:

  1. 提高化學(xué)信息學(xué)和分子模型界對數(shù)據(jù)庫中存在錯誤的化學(xué)和生物活性數(shù)據(jù)的認識,這可能會影響到衍生模型的質(zhì)量。

  2. 制定一套數(shù)據(jù)整理程序,并將其納入系統(tǒng)的工作流程,以處理輸入數(shù)據(jù)并盡可能糾正結(jié)構(gòu)錯誤。

  3. 與科學(xué)界分享有組織的數(shù)據(jù)整理協(xié)議,提供案例研究和現(xiàn)有數(shù)據(jù)整理軟件的參考。

  4. 展示嚴格開發(fā)的QSAR模型,使用精心收集的主要數(shù)據(jù),不僅可以用于預(yù)測新的結(jié)構(gòu),還可以用于識別和糾正數(shù)據(jù)庫中報告的生物數(shù)據(jù)錯誤。

現(xiàn)代化學(xué)生物學(xué)的復(fù)雜性要求信任數(shù)據(jù)分析的原始數(shù)據(jù)源。然而,在開發(fā)模型之前驗證原始數(shù)據(jù)的準確性是至關(guān)重要的。作者引用了著名的諺語 "信任,但要驗證",強調(diào)了驗證和管理數(shù)據(jù)的必要性,以確保建模工作的可靠性和質(zhì)量。

化學(xué)數(shù)據(jù)保存的主要步驟

在本節(jié)中,本文討論了整理化學(xué)數(shù)據(jù)集所需的重要步驟,特別是化學(xué)結(jié)構(gòu)的整理程序。其目的是提供一個化學(xué)結(jié)構(gòu)整理的良好實踐庫,而不是一個軟件教程。本文對每個整理程序強調(diào)了兩個主要方面:應(yīng)該進行該操作的主要原因和如何有效地進行該操作的實用技術(shù)建議。

重點是二維分子結(jié)構(gòu)表示,因為假定拓撲模型或分子圖包含了大部分的基本結(jié)構(gòu)信息。因此,文中所述的整理程序旨在清理和加強化合物的二維表示。將二維分子圖轉(zhuǎn)換為三維結(jié)構(gòu)的方法將在其他資料中單獨討論。需要注意的是,本文并不認可任何特定的軟件包,而是向?qū)W術(shù)研究者推薦免費的軟件。技術(shù)細節(jié)和軟件的使用可以在開發(fā)者的網(wǎng)站和用戶手冊上找到。

2.1 無機和混合物的去除

由于分子描述符的限制,傳統(tǒng)的化學(xué)信息學(xué)和QSAR軟件通常不能處理無機分子,這些描述符大多適用于有機化合物。然而,有必要為無機分子開發(fā)適當(dāng)?shù)拿枋龇⑵浼{入描述符計算軟件。在某些情況下,使用自動文本挖掘方法生成的數(shù)據(jù)集可能包含大量具有生物效應(yīng)(如毒性)的無機化合物。有必要在描述符計算前識別并去除這些無機化合物。一種方法是計算化合物的經(jīng)驗公式并識別那些沒有碳原子的化合物??梢允褂肞erl或Python腳本或高級文本編輯器來實現(xiàn)這一過程的自動化。建議對SMILES列表進行人工檢查以確保準確性。同樣,傳統(tǒng)的軟件可能會拒絕包含在現(xiàn)有描述符中沒有的元素的化合物,如鈉(Na)、鎂(Mg)或釕(Ru)。對于化學(xué)信息學(xué)家來說,重要的是評估他們的建模工具是否能夠處理這樣的化合物,并決定是否將它們刪除或保留在數(shù)據(jù)集中。識別無機物和含有稀有元素的化合物可以用檢測無機物的相同腳本來實現(xiàn)。整理的另一個重要方面是識別和刪除化合物的混合物。一個SMILES字符串可以代表多個分子,使其無法直接計算描述符。通常的做法是保留混合物中分子量最大或原子數(shù)最多的成分。然而,最好的選擇是在計算描述符之前刪除混合物的記錄,除非有具體的理由相信活動完全是由最大的分子引起的?;旌衔飼霈F(xiàn)各種情況,適用不同的規(guī)則,包括刪除整個記錄,保留分子量最大的化合物,或?qū)?fù)雜情況進行人工干預(yù)。初學(xué)者和非編程人員可以使用ChemAxon Standardizer這樣的軟件,用圖形工具處理簡單的混合物情況。有經(jīng)驗的用戶可以采用更高級的工具來精確地確定他們的數(shù)據(jù)集中存在的混合物類型。總的來說,在化學(xué)數(shù)據(jù)整理中,解決無機分子處理和化合物混合物識別和清除的挑戰(zhàn),以確保準確可靠的建模和分析是非常重要的。

2.2 結(jié)構(gòu)轉(zhuǎn)換和清理

數(shù)據(jù)集整理的第二步是將SMILES字符串轉(zhuǎn)換為二維分子圖。一些程序,如ChemAxon、MOE、Sybyl和OpenBabel,可以進行這種轉(zhuǎn)換。然而,考慮轉(zhuǎn)換過程的可靠性是很重要的。Young等人的一項研究強調(diào)了將SMILES字符串轉(zhuǎn)換為二維結(jié)構(gòu)的潛在錯誤。他們發(fā)現(xiàn),很少有化合物被ChemAxon Marvin轉(zhuǎn)換錯誤,大多數(shù)錯誤是由于數(shù)據(jù)庫中的初始SMILES字符串不正確。這突出了直接從SMILES字符串中計算描述符的風(fēng)險,因為SMILES不允許用戶在二維水平上對化學(xué)結(jié)構(gòu)進行可視化、清理和驗證。數(shù)據(jù)集中的一些記錄可能對應(yīng)于鹽類,這是許多藥物的常見形式。雖然在QSAR分析之前排除鹽類是最好的,但去除金屬反離子和中和剩余的carbocations或carbanions是可以接受的。鹽類通常不被描述符生成軟件處理,它們的存在會導(dǎo)致描述符計算的錯誤。帶電的有機分子的中和更值得商榷,因為實驗條件和理化環(huán)境可能會影響化合物的電荷。如果溶液的pH值和組成是已知的,可以用pKa值和現(xiàn)有的預(yù)測器來預(yù)測化合物的電荷。當(dāng)無法進行可靠的估計或觀察到描述符的電荷不敏感時,建議對化合物進行中和,特別是在有少量鹽類的大數(shù)據(jù)集中。像MOE、ChemAxon Standardizer和OpenBabel這樣的軟件可以幫助識別鹽類,去除反離子,并中和有機化合物。然而,金屬和分子之間的共價鍵帶來了挑戰(zhàn),需要高級腳本和人工整理。結(jié)構(gòu)中存在顯性或隱性氫原子是另一個考慮因素。使用顯性的氫原子來計算二維描述符通常會導(dǎo)致QSAR模型中更高的預(yù)測性能。然而,在某些情況下,使用顯性氫可能會引入噪音,導(dǎo)致不太可靠的模型,特別是在使用基于片段的描述符時。不同的軟件包聲稱有可靠的程序來添加或刪除氫,但需要謹慎。例如,去除附著在環(huán)或二級胺上的氫可能不一定能很好地實現(xiàn),導(dǎo)致描述符計算的錯誤和描述符值的不正確。總之,將SMILES字符串轉(zhuǎn)換為二維分子圖,處理鹽類和帶電的有機化合物,以及處理顯性或隱性的氫需要仔細考慮,可能需要使用高級腳本、手工整理和評估軟件的能力。

2.3 特定化學(xué)類型的規(guī)范化

數(shù)據(jù)集整理的下一步涉及到以一致的方式處理官能團的表示。不同的結(jié)構(gòu)模式可能被用來表示同一個功能團,導(dǎo)致分子描述符的不一致問題。手動轉(zhuǎn)換所有的官能團可能很費時,而且容易出錯。ChemAxon的Standardizer工具通過創(chuàng)建一個轉(zhuǎn)換規(guī)則庫,提供了一個方便的方法來規(guī)范化學(xué)類型。用戶可以畫出各種官能團的轉(zhuǎn)換模式,并把它們儲存在可重復(fù)使用的XML規(guī)則文件中。這使得初學(xué)者可以使用經(jīng)驗豐富的建模人員開發(fā)的庫來正確處理他們的數(shù)據(jù)集。官能團的規(guī)范化,如環(huán)芳烴、羧基、硝基和磺基,相對來說是比較簡單的。然而,更復(fù)雜的情況,如陰離子雜環(huán)、多聚物、同位素等,需要更深入的分析和多個標(biāo)準化步驟。像ChemAxon Standardizer這樣的工具可以有效地進行這些規(guī)范化處理。然而,應(yīng)該注意的是,某些描述符計算軟件可能會拒絕特定的符號,即使這些符號正確地代表了正式的化學(xué)類型。同分異構(gòu)體形式是數(shù)據(jù)整理的另一個考慮因素。化合物可能以多種同分異構(gòu)體形式存在,選擇一種形式而不是另一種形式可以大大影響QSAR模型的預(yù)測。在選擇同分異構(gòu)體形式時,應(yīng)考慮化合物的作用機制和實驗條件(特別是pH值)等因素?;趯衔锱c目標(biāo)受體的相互作用或其他因素的了解,放棄一種同分異構(gòu)體形式可能是合理的。Yvonne Martin博士在最近的一篇評論中談到了關(guān)于同系物的考慮。

2.4 刪除重復(fù)項

從化學(xué)數(shù)據(jù)集中去除重復(fù)的數(shù)據(jù)對于嚴格的統(tǒng)計分析和建模研究至關(guān)重要。結(jié)構(gòu)上的重復(fù)會導(dǎo)致預(yù)測性的人為傾斜,并影響數(shù)據(jù)分析的各個方面,如化學(xué)類型的觀察頻率和基于結(jié)構(gòu)相似性的化合物分布。識別重復(fù)物需要檢測相同的分子結(jié)構(gòu)并比較它們的相關(guān)屬性值。使用 SMILES 字符串來識別重復(fù)的化合物是常見的做法,但需要注意的是應(yīng)該使用規(guī)范的 SMILES 來準確識別。一個化合物可以由多個SMILES字符串表示,如果沒有標(biāo)準化的標(biāo)準形式,僅從SMILES字符串就無法識別重復(fù)的化合物。從SMILES中計算經(jīng)驗公式可以作為一個額外的過濾器來檢索出重復(fù)的化合物。一旦重復(fù)的東西被識別出來,就需要對它們的特性進行分析。如果重復(fù)結(jié)構(gòu)的實驗性質(zhì)是相同的,可以刪除一個化合物。然而,如果特性在數(shù)字上不同,則需要進一步調(diào)查。差異可能來自于數(shù)據(jù)庫建設(shè)過程中的人為錯誤或不同實驗室的實驗條件的變化。在這種情況下,可以創(chuàng)建特殊的外部測試集,以比較實驗記錄與驗證的QSAR模型的共識預(yù)測。重復(fù)的數(shù)據(jù)也可以在以前的整理工作中產(chǎn)生,如去除鹽中的反離子。如果重復(fù)記錄的實驗屬性高度相似,可以通過將結(jié)構(gòu)與屬性的算術(shù)平均數(shù)聯(lián)系起來,保留記錄。如果屬性有明顯的不同,那么這兩條記錄就應(yīng)該被消除。為了有效地消除重復(fù)記錄,推薦使用ISIDA/Duplicates和HiT QSAR程序。ISIDA/Duplicates使用輸入的描述符矩陣計算化合物之間的歐幾里得距離,并將距離低于用戶定義的閾值的對確定為重復(fù)。它考慮了描述符,這些描述符表征了分子分支和原子連接的特性。HiT QSAR實現(xiàn)了CANON算法,將分子表現(xiàn)為反映經(jīng)驗公式和連接順序的字符串,并將具有類似字符串的化合物報告為重復(fù)。結(jié)合使用這兩個程序可以提高真正結(jié)構(gòu)重復(fù)的檢索率。

2.5 人工檢查

整理過程的最后一步是對每個分子結(jié)構(gòu)進行人工檢查,盡管對于大型數(shù)據(jù)集來說,這可能是耗時費力的。為了減少工作量,具有復(fù)雜結(jié)構(gòu)或大量原子的化合物可以被優(yōu)先檢查。另一種方法是生成一個有代表性的數(shù)據(jù)集樣本并檢查其潛在的錯誤,如果發(fā)現(xiàn)重大錯誤,可能需要重新檢查整個數(shù)據(jù)集。手工整理過程中遇到的常見錯誤包括

  1. 結(jié)構(gòu)不正確:檢查IUPAC化合物名稱(如果有的話)和相應(yīng)的結(jié)構(gòu),看是否有骨架和取代物位置的可能錯誤是至關(guān)重要的。這一步可能具有挑戰(zhàn)性,特別是對于大型數(shù)據(jù)集。一個推薦的方案是使用化合物名稱或CAS號來挖掘免費的化學(xué)數(shù)據(jù)庫。分析每個化合物的多個條目,并將它們與建模中使用的實際結(jié)構(gòu)進行比較,有助于識別差異。然而,目前還沒有專門為這項任務(wù)設(shè)計的專用工具。

  2. 不完整的鍵的規(guī)范化:盡管有規(guī)范化程序,但有些情況可能仍然需要手工糾正,特別是對特定官能團的表示。

  3. 重復(fù)部分的持續(xù)存在:盡管使用了自動軟件來刪除重復(fù)的東西,但一些重復(fù)的東西可能仍然存在,如同義詞。由私人公司或?qū)W術(shù)實驗室開發(fā)的高級工具可能存在,用于精細過濾,但它們并不公開。

  4. 其他可能性:錯誤也可能來自于不正確的電荷、缺氫結(jié)構(gòu)中存在明確的氫、不正確的鍵以及其他因素。

總之,人工檢查是必要的,以識別和糾正自動化軟件可能錯過的錯誤。檢查化合物名稱,比較從化學(xué)數(shù)據(jù)庫中檢索到的結(jié)構(gòu),以及解決具體的規(guī)范化問題,對于確保策劃的數(shù)據(jù)集的準確性和可靠性至關(guān)重要。

參考文獻:Fourches D, Muratov E, Tropsha A. Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research. J Chem Inf Model. 2010 Jul 26;50(7):1189-204. doi: 10.1021/ci100176x. PMID: 20572635; PMCID: PMC2989419.

版權(quán)信息

本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵擾或者其他信息錯誤解讀,請及時聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進行刪改處理。

原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺。有問題可發(fā)郵件至sixiali@stonewise.cn


論化學(xué)結(jié)構(gòu)整理在化學(xué)信息學(xué)和QSAR建模研究中的重要性的評論 (共 條)

分享到微博請遵守國家法律
涡阳县| 花莲县| 新干县| 兴国县| 黑水县| 凯里市| 伊宁县| 衡南县| 开封市| 莲花县| 剑阁县| 卫辉市| 怀宁县| 泰安市| 昌图县| 常德市| 鄱阳县| 定陶县| 和龙市| 沾化县| 兰西县| 青岛市| 济宁市| 宜君县| 四会市| 杭州市| 颍上县| 余干县| 常熟市| 营口市| 长泰县| 绩溪县| 舒兰市| 宣威市| 嘉荫县| 宁晋县| 汉川市| 吉木萨尔县| 安福县| 乡宁县| 偃师市|