最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GNPS使用方法總結

2022-01-07 14:51 作者:菜鳥博士_雜貨鋪  | 我要投稿

GNPS使用方法總結

菜鳥博士Caesar分享快樂

請問全球自然產(chǎn)品社交分子網(wǎng)絡(GNPS)這個網(wǎng)站要怎么操作??!?

分子網(wǎng)絡支持mzXML,mzML和mgf文件格式,要將文件轉(zhuǎn)換為適當?shù)母袷健?br>要將文件上傳到GNPS進行分析,首選方法是使用FTP客戶端。這提供了一種強大的批處理方式來上傳許多文件。例如Winscp
在GNPS主頁上,單擊“創(chuàng)建分子網(wǎng)絡”按鈕。
首先單擊“選擇輸入文件”,選擇要分析的文件。
這會帶來一個彈出窗口。我們可以選擇自己的文件進行分析。
或者,如果我們知道數(shù)據(jù)集的登錄名(Browse Datasets),則可以導入現(xiàn)有的公共數(shù)據(jù)集。在“選擇輸入文件”彈出窗口中,您將成為共享文件選項卡。在那里,您會找到一個名為“導入數(shù)據(jù)共享”的框。在此框中,您可以輸入MassIVE數(shù)據(jù)集的一部分。單擊導入后,數(shù)據(jù)集將出現(xiàn)在您的工作區(qū)中,以選擇要分析的輸入文件。
默認情況下,可以將文件分類為單獨的組(G1,G2等)。例如,病例和對照或兩個不同的微生物可以是單獨的組。使用基本選項,只能創(chuàng)建六個組??梢赃x擇單個文件或整個文件夾。
單擊完成選擇,這將關閉彈出窗口。
參數(shù)預設?
根據(jù)數(shù)據(jù)集的大小,我們有幾個參數(shù)預設看起來效果很好。

  1. 小型數(shù)據(jù)集-最多5個LC / MS文件

  2. 中型數(shù)據(jù)集-5至400個LC / MS文件

  3. 大數(shù)據(jù)集-400多個LC / MS文件

提交工作流程后,將被帶到狀態(tài)頁面。分子網(wǎng)絡通常需要

  • 小型數(shù)據(jù)集10分鐘

  • 中等數(shù)據(jù)集1小時

  • 大型數(shù)據(jù)集需要幾個小時

使用GNPS完成分子網(wǎng)絡工作流程后,可以在Web界面內(nèi)進行分析。GNPS Web界面提供了一種快速簡便的方法來對數(shù)據(jù)進行初始分析,尤其是當您要查看由分子網(wǎng)絡工作流程生成的節(jié)點/簇/網(wǎng)絡的MS2光譜時。


天然產(chǎn)物圖集:微生物天然產(chǎn)物的開源寶庫


費米子父

Gachon University 藥學系研究教授
關注他


24 人贊同了該文章


The Natural Products Atlas: An Open Access Knowledge Base for Microbial Natural Products Discoverypubs.acs.org/doi/10.1021/acscentsci.9b00806pubs.acs.org/doi/10.1021/acscentsci.9b00806


盡管微生物天然產(chǎn)物化學領域發(fā)展迅速,但目前尚無包含所有微生物產(chǎn)生的天然產(chǎn)物結構的開放獲取數(shù)據(jù)庫。這些數(shù)據(jù)的缺乏阻礙了自然產(chǎn)品科學中新技術的實施。具體而言,由于缺乏用于比較實驗數(shù)據(jù)的已知化合物的全面數(shù)據(jù)庫,阻礙了用于化合物表征和鑒定的新計算策略的發(fā)展。建立由社區(qū)維護的微生物天然產(chǎn)物結構的開放訪問數(shù)據(jù)庫,將能夠開發(fā)天然產(chǎn)物發(fā)現(xiàn)中的新技術,并改善現(xiàn)有天然產(chǎn)物數(shù)據(jù)資源的互操作性。然而,這些數(shù)據(jù)在包括期刊文章和國際專利在內(nèi)的整個歷史科學文獻中分布不均。這些文檔沒有標準格式,通常不會被數(shù)字化為機器可讀文本,也不會公開提供。此外,這些文檔都沒有關聯(lián)的結構文件(例如,MOL,InChI或SMILES),而是包含結構的圖像。這使得相關天然產(chǎn)品數(shù)據(jù)的提取和格式化成為一個巨大的挑戰(zhàn)。結合使用人工策展和自動數(shù)據(jù)挖掘方法,我們創(chuàng)建了微生物天然產(chǎn)物數(shù)據(jù)庫(The Natural Products Atlas,此外,這些文檔都沒有關聯(lián)的結構文件(例如,MOL,InChI或SMILES),而是包含結構的圖像。這使得相關天然產(chǎn)品數(shù)據(jù)的提取和格式化成為一個巨大的挑戰(zhàn)。結合使用人工策展和自動數(shù)據(jù)挖掘方法,我們創(chuàng)建了微生物天然產(chǎn)物數(shù)據(jù)庫(The Natural Products Atlas,此外,這些文檔都沒有關聯(lián)的結構文件(例如,MOL,InChI或SMILES),而是包含結構的圖像。這使得相關天然產(chǎn)品數(shù)據(jù)的提取和格式化成為一個巨大的挑戰(zhàn)。結合使用人工策展和自動數(shù)據(jù)挖掘方法,我們創(chuàng)建了微生物天然產(chǎn)物數(shù)據(jù)庫(The Natural Products Atlas,www.npatlas.org),包括24 594種化合物,并包含有關結構,化合物名稱,來源生物,分離參考,總合成和結構重新分配實例的參考數(shù)據(jù)。該數(shù)據(jù)庫附帶一個交互式Web門戶,該門戶允許按結構,子結構和物理屬性進行搜索。該網(wǎng)站還提供了可視化天然產(chǎn)品化學空間的機制以及用于顯示作者和發(fā)現(xiàn)時間軸數(shù)據(jù)的儀表板。這些交互式工具通過用于結構和基于屬性的搜索的中央界面,為天然產(chǎn)物的發(fā)現(xiàn)提供了強大的知識庫,并提出了有關天然產(chǎn)物的結構多樣性的新觀點。天然產(chǎn)品地圖集是根據(jù)公平原則(可查找,可訪問,可互操作,和可重復使用),并與其他新興的天然產(chǎn)物數(shù)據(jù)庫集成在一起,包括有關生物合成基因簇(MIBiG)信息庫的最低限度信息和全球天然產(chǎn)物社會分子網(wǎng)絡(GNPS)平臺。它被設計為社區(qū)支持的資源,以為微生物已知的天然產(chǎn)物結構提供一個中央存儲庫,并且是這種類型的第一個全面的開放獲取資源。預計“天然產(chǎn)品地圖集”將支持開發(fā)新的天然產(chǎn)品發(fā)現(xiàn)方式,并加快復雜天然產(chǎn)品庫的結構表征過程。以及全球自然產(chǎn)品社交分子網(wǎng)絡(GNPS)平臺。它被設計為社區(qū)支持的資源,以為微生物已知的天然產(chǎn)物結構提供一個中央存儲庫,并且是這種類型的第一個全面的開放獲取資源。預計“天然產(chǎn)品地圖集”將支持開發(fā)新的天然產(chǎn)品發(fā)現(xiàn)方式,并加快復雜天然產(chǎn)品庫的結構表征過程。以及全球自然產(chǎn)品社交分子網(wǎng)絡(GNPS)平臺。它被設計為社區(qū)支持的資源,以為微生物已知的天然產(chǎn)物結構提供一個中央存儲庫,并且是這種類型的第一個全面的開放獲取資源。預計“天然產(chǎn)品地圖集”將支持開發(fā)新的天然產(chǎn)品發(fā)現(xiàn)方式,并加快復雜天然產(chǎn)品庫的結構表征過程。
概要
天然產(chǎn)物圖集是一個新的微生物衍生天然產(chǎn)物結構在線數(shù)據(jù)庫,旨在作為科學界的全面開放獲取資料庫。
介紹
天然產(chǎn)物領域正處于快速創(chuàng)新和技術進步的時期,因為開發(fā)了用于公正地表征天然產(chǎn)物混合物的新工具。(1)這些方法包括化學方法,(2)生物學方法,(3)和生物信息學方法(4,5),這些方法擴大了我們對天然產(chǎn)物的多樣性,分布和功能的看法。然而,盡管該領域發(fā)展迅速,但目前尚無包含所有微生物生產(chǎn)的天然產(chǎn)物結構的開放獲取數(shù)據(jù)庫。這些數(shù)據(jù)的缺乏阻礙了這一領域新思想和新方法的實施。其中許多策略,例如質(zhì)譜碎片化模式的預測,(6,7)依靠已知化合物數(shù)據(jù)庫的可用性來與之比較實驗數(shù)據(jù)。此外,由于缺乏共識結構數(shù)據(jù)集,因此無法整合來自不同天然產(chǎn)品表征平臺(例如MIBiG?(8)和GNPS?(9))的信息,從而限制了這些單獨資源的互操作性。
微生物天然產(chǎn)物數(shù)據(jù)庫的當前格局很大,但支離破碎?,F(xiàn)有的數(shù)據(jù)庫要么是商業(yè)數(shù)據(jù)庫,不能使所有結構都可訪問(例如Antibase,MarinLit,《天然產(chǎn)物詞典》),要么是免費的,但是關于化合物來源的信息有限(例如,Supernatural II?(10)),不容易下載(例如NPEdia)或狹義定義(例如StreptomeDB,(11)?AfroDB,(12)和NuBBE DB?(13))。此外,大多數(shù)現(xiàn)有數(shù)據(jù)庫沒有得到正確的引用,許多數(shù)據(jù)點都沒有提供有關其主要來源的詳細信息。缺少準確的參考限制了這些數(shù)據(jù)的價值,從而阻止研究人員輕松評估原始資料的準確性和有效性。社區(qū)可以使用許多天然產(chǎn)品數(shù)據(jù)庫(表1),每個數(shù)據(jù)庫都提供不同的內(nèi)容和分析工具。然而,這些都沒有按照公平原則對微生物天然產(chǎn)物的結構進行全面介紹。(14)因此,我們選擇創(chuàng)建一個新的微生物天然產(chǎn)物數(shù)據(jù)庫,稱為天然產(chǎn)物圖集(www.npatlas.org)。

a 天然產(chǎn)物大辭典數(shù)據(jù)庫

Dictionary of Natural Products 28.1dnp.chemnetbase.com/dnp.chemnetbase.com/


b 海洋天然物文獻數(shù)據(jù)庫

A database of the marine natural products literaturepubs.rsc.org/marinlit/pubs.rsc.org/marinlit/


c 微生物數(shù)據(jù)庫

https://www.wiley.com/en-us/AntiBase%3A+The+Natural+Compound+Identifier-p-9783527343591www.wiley.com/en-us/AntiBase%3A+The+Natural+Compound+Identifier-p-9783527343591www.wiley.com/en-us/AntiBase%3A+The+Natural+Compound+Identifier-p-9783527343591


d?鏈霉菌屬細菌的天然產(chǎn)物數(shù)據(jù)庫

StreptomeDB132.230.56.4/streptomedb2/132.230.56.4/streptomedb2/


(原網(wǎng)址:?http://www.pharmaceutical-bioinformatics.de/streptomedb2/).
e 主要和次要代謝物以及天然大分子的化學結構

SuperNatural Database V2bioinf-applied.charite.de/supernatural_new/index.phpbioinf-applied.charite.de/supernatural_new/index.php


f 來自植物和微生物的天然產(chǎn)物,側重于結構特征

RIKEN Chemical Biology Department Natural Products Encyclopedia (RIKEN NPEdia)www.cbrg.riken.jp/npedia/?LANG=enwww.cbrg.riken.jp/npedia/?LANG=en


g 非洲藥用植物的天然產(chǎn)物下載鏈接如下

AfroDb: A Select Highly Potent and Diverse Natural Product Library from African Medicinal Plantsjournals.plos.org/plosone/article?id=10.1371/journal.pone.0078085journals.plos.org/plosone/article?id=10.1371/journal.pone.0078085


也可搜索ZINC下載

ZINC AfroDb Natural Productszinc.docking.org/catalogs/afronp/zinc.docking.org/catalogs/afronp/



h 從巴西分離出的天然產(chǎn)物

https://nubbe.iq.unesp.br/portal/nubbe-search.htmlnubbe.iq.unesp.br/portal/nubbe-search.htmlnubbe.iq.unesp.br/portal/nubbe-search.html


至少任何天然產(chǎn)物數(shù)據(jù)庫都應包含有關化合物結構,名稱,生產(chǎn)生物和分離參考的信息。即使從原始文獻中提取所有微生物天然產(chǎn)物的這些基本數(shù)據(jù)也是一個具有挑戰(zhàn)性的目標。早在1800年代末就已經(jīng)報道了其結構(例如,多孔酸,1877年(15))。在此期間,文章的版式(例如,結構表示)和樣式(例如,用語和術語)都發(fā)生了顯著變化,這使得很難為整個科學文獻中的文本挖掘定義規(guī)則。此外,天然產(chǎn)物科學是一門國際學科,發(fā)現(xiàn)發(fā)現(xiàn)以英語以外的多種語言進行報道,這限制了基于文本的文章優(yōu)先級的選擇。最后,許多早期期刊文章要么不可用,要么僅以圖像形式提供,因此不適合用于自動數(shù)據(jù)提取。
天然產(chǎn)物的結構已被廣泛的期刊報道,大大擴大了搜索范圍。此外,盡管PubChem,ChEMBL,ChemSpider和其他資源提供了出色的覆蓋范圍,但是當前并非所有結構都可以在開放訪問結構存儲庫中使用。當與結構分配不當,結構重新分配,同義詞創(chuàng)建和分類修訂等問題結合在一起時,也許很清楚為什么目前沒有這樣的數(shù)據(jù)庫可供公眾使用。
為了解決這個問題,我們創(chuàng)建了一個新的自動化策展平臺,旨在識別與天然產(chǎn)物發(fā)現(xiàn)有關的物品,并提取相關信息以進行最終的手動驗證(圖1和支持信息

)。通過這項策劃工作,我們從10 481篇期刊文章中提取了24 594種化合物,涵蓋306種期刊標題。將這些結果插入到MySQL關系數(shù)據(jù)庫中,并創(chuàng)建了一個交互式在線Web門戶以允許搜索,過濾和可視化數(shù)據(jù)集。該在線知識庫包含越來越多的已發(fā)布微生物天然產(chǎn)物,旨在鼓勵天然產(chǎn)物社區(qū)進行更多的數(shù)據(jù)沉積和管理。為此,我們引入了在線工具來存儲新數(shù)據(jù)和更正現(xiàn)有數(shù)據(jù)。希望這種以社區(qū)為驅(qū)動力的模型將有助于確保數(shù)據(jù)的高質(zhì)量,將改善數(shù)據(jù)庫的總體覆蓋范圍,并有助于該資源的長期可持續(xù)性。

圖1.天然產(chǎn)品圖集的創(chuàng)建和管理工作流程。

結果與討論
天然產(chǎn)物圖集的結構
天然產(chǎn)物圖集項目旨在創(chuàng)建一個所有微生物衍生的天然產(chǎn)物的綜合數(shù)據(jù)庫,并使研究社區(qū)可以免費訪問該數(shù)據(jù)庫。數(shù)據(jù)庫的長期愿景是:

  • 主要文獻和專利

  • 所有微生物天然產(chǎn)物的結構,化合物名稱和同義詞

  • 物理化學數(shù)據(jù)(旋光,紅外和紫外線吸收以及與核磁共振和質(zhì)譜數(shù)據(jù)庫的直接鏈接)

  • 生物活性數(shù)據(jù)

  • 全合成的所有實例

  • 所有結構調(diào)整

  • 原始生產(chǎn)生物的分類

  • 所有生產(chǎn)生物的完整列表


此外,數(shù)據(jù)庫應符合以下要求:

  • 所有數(shù)據(jù)均已完全引用

  • 條目包括每種化合物的原始隔離紙(首次報告完整結構的實例)

  • 策展和優(yōu)化應由社區(qū)推動

  • 數(shù)據(jù)是開放訪問的并且可以完全下載


在此初始發(fā)行版中,我們已經(jīng)實現(xiàn)了許多目標,同時保留了其他目標以供將來擴展。具體來說,我們集中研究了1941年至2018年期間主要科學文獻中的數(shù)據(jù)。當前,這些條目既包括原始隔離名稱,又包括原始名稱(針對生產(chǎn)生物)。在一大批志愿策展人的貢獻下,我們已整合了此期間的?25 000種微生物天然產(chǎn)物結構。要獲得最高價值,天然產(chǎn)品圖集應與其他天然產(chǎn)品數(shù)據(jù)資源相關。我們已投入大量精力進行管理,以在“天然產(chǎn)物圖集”與MIBiG(生物合成基因簇數(shù)據(jù)庫)和GNPS(天然產(chǎn)物質(zhì)譜數(shù)據(jù)數(shù)據(jù)庫)之間建立準確的聯(lián)系。此外,

化合物選擇
對于“天然產(chǎn)物”,可能沒有一個單一的定義能滿足該領域的所有研究人員的需求。但是,我們需要一套關于化合物包合的指導原則,以構建天然產(chǎn)物圖集。對于該應用,“天然產(chǎn)物”定義為由微生物產(chǎn)生的分子量小于3000 Da的任何天然代謝產(chǎn)物。KEGG數(shù)據(jù)庫定義的主要代謝物(16)被排除在外。如果在野生型生物中檢測到,則包括來自生物合成基因簇的分流產(chǎn)物,但如果僅通過基因操作發(fā)現(xiàn),則排除在外。如果在自然界中可能已經(jīng)發(fā)現(xiàn)這些原料(例如,蛋白質(zhì)氨基酸),則包括使用生物合成原料來增強發(fā)酵培養(yǎng)基的化合物,但如果是合成來源的化合物(例如,對氟苯丙氨酸),則將其排除在外。最后,排除了通過生物轉(zhuǎn)化產(chǎn)生的化合物(通過用不同生物進行微生物發(fā)酵來修飾純化的天然產(chǎn)物)。

分類邊界
許多邊緣情況也使微生物的定義復雜化。我們選擇將地衣和宏觀真菌(Basidiomycetes)的天然產(chǎn)物都包括在內(nèi),因為它們在大多數(shù)現(xiàn)代生物分類學本體中都被歸類為真菌。我們包括藍細菌,但不包括真核浮游植物和其他光合微藻。此外,一些分類學分配已隨著時間而改變,這意味著原始文獻中報道的屬和種現(xiàn)已被重新分配。當前,天然產(chǎn)品圖集包含最初定義的生物分類分配。未來的目標是使這些分類任務與綜合分類識別系統(tǒng)(ITIS;?www.itis.gov)保持一致)。這將提供對物種分配的自動更新,并改善與其他基于分類法的資源的互操作性。

天然產(chǎn)物圖集結構
Natural Products Atlas知識庫分為三個主要部分:搜索,探索和發(fā)現(xiàn)(圖2)。搜索頁面(圖2?A)提供了幾種不同的搜索方式,旨在優(yōu)先考慮易用性和靈活性?;镜乃阉黜撁嬖试S使用一系列術語進行快速搜索,包括結構,名稱,分類法等。都可以進行子結構和相似結構搜索,從而使研究人員可以根據(jù)部分結構重復復制分離的化合物,或者將新化合物與已知天然產(chǎn)物的結構多樣性進行比較。高級搜索頁面允許進行更復雜的布爾搜索(例如,分子量范圍x和日期范圍y),并允許結構和文字標準的組合。這些搜索的結果在線顯示在分頁表中,也可以導出以供離線使用。例如,如果研究人員正在研究給定的屬,并希望在專有軟件包(例如LCMS軟件)中創(chuàng)建復合參考庫,則他們可以在基本搜索頁面中搜索屬名稱,然后將完整結果集導出為一個文件。

圖2.(A)搜索界面(基本搜索)。(B)探索視圖(化合物),(C)探索視圖(作者)

探索部分(圖2?B)提供了有關天然產(chǎn)物化學空間中化學相似性的不同觀點。提供了四個級別的分辨率:復合,群集,節(jié)點和全局。這種可視化效果類似于Google Maps等地圖應用中的房屋,城鎮(zhèn),省和地球的視圖?;衔镯撁妫▓D3?A)提供有關每種化合物的詳細信息,并包括各種數(shù)據(jù)類型的導出(化合物MDL MOLfile,化合物圖像,所有化合物數(shù)據(jù)的完整TSV文件)。該頁面還提供了原始隔離參考文獻,總合成實例和結構重新分配實例的引用,每一個實例均附帶一個指向期刊文章頁面的DOI超鏈接。

圖3. Explore部分中的四個視圖。(A)化合物視圖,提供單個化合物的數(shù)據(jù)。(B)簇視圖,說明具有緊密結構相似性的化合物。(C)節(jié)點視圖,顯示了關系更遠的化合物簇。(D)全局視圖,顯示了“天然產(chǎn)品地圖集”中所有化學空間的分布。

群集頁面(圖3?B)顯示了天然產(chǎn)物圖集中具有相似結構相似性的化合物組。結構相似性由Morgan指紋圖譜(半徑= 2)和Dice相似度評分(0.75截止)定義。該工具使用戶可以輕松地可視化數(shù)據(jù)集中相似結構的范圍和多樣性。下一個可視化層(節(jié)點)說明了在復合類級別上群集如何相互關聯(lián)。這些關系是通過獲取每個群集中相互聯(lián)系最緊密的成員,然后使用不太嚴格的相似性評分方法(原子對指紋和Dice相似性評分(0.7截止))對這些群集代表之間的結構相似性進行評分來確定的。在節(jié)點網(wǎng)絡中(圖3?C),節(jié)點直徑與每個節(jié)點中化合物的數(shù)量成正比。最后,全局視圖(圖3?D)顯示了“天然產(chǎn)品地圖集”中的所有節(jié)點,并以球狀圖的形式排列。該球面圖中的節(jié)點分布是van Krevelen圖的擴展(17),該圖使用分子式中的C:H和C:O比率表示分子。在全局圖中,C:H比定義極角(xy平面中的徑向值),C:O比定義方位角值(與z軸),然后C:N比設置半徑(距原點的距離)。因為這三個屬性對于相同化合物類別的分子通常是相似的,所以節(jié)點基于化合物類型在全局視圖中聚集。重要的是,此坐標系取決于復合物的物理特性,因此,隨著時間的推移將新數(shù)據(jù)添加到Natural Products Atlas中時,現(xiàn)有節(jié)點的位置將不會改變。
Explore部分的所有層都是互連的,因此用戶可以在從復合視圖到全局視圖之間進行導航(圖3)。已經(jīng)實施了節(jié)點突出顯示來說明目標化合物在圖中的位置。例如,如果用戶從化合物頁面開始(圖3?A)并從那里導航到相應的集群(圖3?B),則集群網(wǎng)絡中與原始化合物相對應的位置將以紅色突出顯示。此高亮顯示了遍歷節(jié)點(圖3?C)和全局(圖3?D)視圖的軌跡,這有助于用戶瀏覽天然產(chǎn)物化學空間的這些表示形式。
此外,搜索結果可以投影到全局視圖上,從而說明化合物子集在全局化學空間中的分布。例如,可以通過在基本搜索結構部分中搜索該組并單擊結果頁面上的“將所有結果投影到全局視圖”,來可視化功能組的流行和分布。這將生成全局可視化,其中包含該功能組的每個節(jié)點都以紅色突出顯示。在包含吡啶基序的化合物的子結構搜索中,返回了791個化合物,這些化合物在化學空間中的分布可以通過投影到全局視圖來顯示(圖4)??梢詾樗阉髟~的任何組合生成類似的可視化效果,這使它成為檢查微生物天然產(chǎn)物化學空間中結構或分類現(xiàn)象分布的通用工具。

圖4.整體圖,顯示了所有含有吡啶官能團作為亞結構基序的天然產(chǎn)物的位置

“發(fā)現(xiàn)”部分(圖2?C)是一組儀表板,旨在提供有關天然產(chǎn)品多樣性的替代觀點。當前,天然產(chǎn)品圖集包含三個儀表板:概述,作者和已知化合物。概述儀表板提供有關數(shù)據(jù)庫中化合物和分類法的內(nèi)容和分布的常規(guī)統(tǒng)計信息。作者儀表板從ORCID數(shù)據(jù)庫(https://orcid.org)中檢索給定作者的所有鏈接出版物。),并顯示有關在這些出版物中發(fā)現(xiàn)的化合物的信息,包括發(fā)現(xiàn)時間表,期刊分布以及化合物和引文鏈接。已知化合物儀表板概述了數(shù)據(jù)庫中當前化合物的相關數(shù)據(jù),包括發(fā)現(xiàn)簇成員的時間和相關化合物的結構。
可以預見的是,隨著用戶要求儀表板顯示有關數(shù)據(jù)的其他觀點,網(wǎng)站的這一部分將隨著時間的推移而增長。例如,集成了來自質(zhì)譜或核磁共振數(shù)據(jù)的去重復工具的儀表板是可能的,并且可以想象對于天然產(chǎn)物社區(qū)具有很高的價值,可用于從光譜數(shù)據(jù)中快速識別候選結構。

開放數(shù)據(jù)模型
開放數(shù)據(jù)原則對于天然產(chǎn)品圖集的設計至關重要。致力于開放數(shù)據(jù)模型對于招募志愿策展人和從天然產(chǎn)品界獲得支持至關重要。按照這些原則,該數(shù)據(jù)庫受Creative Commons Attribution 4.0 International許可保護,并且所有數(shù)據(jù)都可以作為單個平面文件下載。或者,可以將搜索結果下載為選定的數(shù)據(jù)文件,以進行簡單的數(shù)據(jù)過濾,并且可以直接從化合物頁面以標準格式下載單個化合物的數(shù)據(jù)。Web界面設計為易于其他資源鏈接。為了便于創(chuàng)建指向各個頁面的鏈接,每個復合頁面URL均以Natural Products Atlas ID號(NPAID)結尾,使自動生成超鏈接變得簡單明了。此外,網(wǎng)站上的所有頁面都是打開的,不需要登錄憑據(jù),但用于數(shù)據(jù)沉積的頁面除外。

數(shù)據(jù)庫版本控制
Natural Products Atlas基礎結構包括對數(shù)據(jù)庫版本的支持。這很重要,因為添加新化合物會影響化合物簇和節(jié)點的內(nèi)容和編號。例如,添加新的混合結構可能會在先前分開的兩個群集之間創(chuàng)建鏈接。對于使用這些數(shù)據(jù)進行復雜研究的研究人員來說,這可能令人非常沮喪。為了解決這個問題,該網(wǎng)站默認提供最新數(shù)據(jù),但允許用戶通過下拉菜單指定任何以前的數(shù)據(jù)庫版本。也可以從下載部分下載數(shù)據(jù)庫的任何先前版本。

數(shù)據(jù)庫建設
天然產(chǎn)品地圖集數(shù)據(jù)庫由de novo創(chuàng)建使用兩階段過程搜索主要文獻。最初,我們選擇了30種已知包含報道新穎天然產(chǎn)物發(fā)現(xiàn)文章的期刊。使用一個簡單的評分系統(tǒng)將標題和摘要文本與肯定和否定關鍵字列表進行比較。例如,“結構闡明”和“天然產(chǎn)物”是積極的關鍵詞,而“有機金屬”和“精油”是負面的得分驅(qū)動因素。此外,我們基于大多數(shù)化學文章都與天然產(chǎn)物的發(fā)現(xiàn)有關,對包含一個或多個微生物屬名稱(不包括常見病原體)的任何文章進行優(yōu)先排序。得分高的文章使用內(nèi)部策展軟件工具進行格式化,以供人工審核,并進行更正以確?;衔锩Q,結構,每篇文章的來源有機體和引用信息均準確。使用這種方法,研究小組手工審查了約3萬篇文章,以創(chuàng)建最初的12 924種化合物。手動審查選定的期刊年份表明,該方法約占所有相關文章的80%。
最初的手動策劃工作產(chǎn)生了大量的文章標題和摘要培訓集,分為兩組。與天然產(chǎn)物發(fā)現(xiàn)有關的文章,以及與天然產(chǎn)物分離無關的文章。該訓練集非常適合用于機器學習應用程序。使用支持向量機(SVM)模型,我們掃描了90種優(yōu)先期刊(1941-2018)的標題和摘要,以識別描述微生物天然產(chǎn)物發(fā)現(xiàn)的文章。使用內(nèi)部文本挖掘工具從標題和摘要中提取化合物名稱,并在可用的情況下從公共數(shù)據(jù)庫(PubChem,ChEMBL,ChemSpider)中提取相關的化學結構。最后,使用CrossRef確認引文和DOI信息,并使用內(nèi)部在線策劃平臺手動審核每篇文章的完整數(shù)據(jù)。按照這種方法,我們又審查了14700篇文章,共產(chǎn)生13236種化合物。為了擴充此數(shù)據(jù)集,我們根據(jù)常見化合物名稱,優(yōu)先級屬和目標作者進行了手動搜索。這些搜索填補了數(shù)據(jù)集(例如,不完整的化合物家族)中的空白,并捕獲了我們最初的90種期刊中未包括的期刊中的化合物。有關數(shù)據(jù)管理的更多詳細信息,請參見 不完整的化合物家族)和未包含在我們最初的90種期刊中的期刊中捕獲的化合物。有關數(shù)據(jù)管理的更多詳細信息,請參見 不完整的化合物家族)和未包含在我們最初的90種期刊中的期刊中捕獲的化合物。有關數(shù)據(jù)管理的更多詳細信息,請參見支持信息

。

資料驗證
在插入Natural Products Atlas之前,所有數(shù)據(jù)都經(jīng)過驗證,以確保數(shù)據(jù)標準化并消除數(shù)據(jù)重復。該驗證工具包含30多項檢查,包括引文驗證(例如,允許的期刊名稱列表中包含期刊名稱嗎?),分類學驗證(該屬是否屬于原核生物列表中經(jīng)過驗證的細菌或真菌屬列表)?具有命名法(LPSN)(18)或MycoBank?(19)的名字)和結構驗證(該結構是否已存在于數(shù)據(jù)庫中?)。結構驗證特別重要,因為相同的結構在文獻中可能存在不同的同義詞和不同級別的配置分配。如果不仔細檢查,這些結構將作為獨立的條目輸入,從而錯誤地增加了數(shù)據(jù)庫中條目的數(shù)量。有關數(shù)據(jù)驗證的更多詳細信息,請參閱支持信息

。

天然產(chǎn)物圖譜識別號
通過驗證步驟的商品將插入數(shù)據(jù)庫中,并且為每個新化合物分配一個唯一的天然產(chǎn)品圖集識別號(NPAID)。這些NPAID為每種天然產(chǎn)物提供了固定的參考,與結構,分類法或引文數(shù)據(jù)無關。這是Natural Products Atlas基礎設施的重要組成部分,因為這意味著即使更新或糾正了核心信息(例如結構或分類法),也可以維護與化合物的鏈接。這樣可以提高與其他資源的互操作性,并為在數(shù)據(jù)庫擴展時將保留的每種化合物提供一個穩(wěn)定的參考點。

與其他天然產(chǎn)品數(shù)據(jù)庫的連接
現(xiàn)在,存在許多在線存儲庫,其中包含與微生物天然產(chǎn)物有關的數(shù)據(jù)。例如,在生物合成領域,有關生物合成基因簇數(shù)據(jù)庫(MIBiG)的最低限度信息包含約1800種生物合成基因簇及其相關天然產(chǎn)物的數(shù)據(jù)。該資料庫包括指向描述這些基因簇的相關手稿的鏈接,并包括突出顯示數(shù)據(jù)庫中其他相關基因簇的工具。在分析化學領域,全球天然產(chǎn)物社會分子網(wǎng)絡數(shù)據(jù)庫(GNPS)包含大量基于天然產(chǎn)物的數(shù)據(jù)集的質(zhì)譜分析和碎片數(shù)據(jù),并整合了一套不斷增長的工具,用于比較樣品與樣品之間的光譜碎片光譜的新預測。
不幸的是,在許多情況下,獨立天然產(chǎn)物資源之間的整合很差。這是由于數(shù)據(jù)庫之間化合物含量的變化以及化合物結構和瑣碎名稱標準化的挑戰(zhàn)。天然產(chǎn)品圖集已與MIBiG和GNPS的開發(fā)人員合作,以標準化三個平臺之間的結構表示,并創(chuàng)建指向每個數(shù)據(jù)庫的雙向鏈接。在任一平臺上都有條目的化合物將顯示指向化合物頁面上相應數(shù)據(jù)庫的鏈接。此外,可以使用“高級搜索”部分中的術語來搜索和過濾“天然產(chǎn)品地圖集”數(shù)據(jù),以僅包括在一個或兩個數(shù)據(jù)庫中都有條目的化合物。
天然產(chǎn)品圖集的價值
天然產(chǎn)品圖集不是提供靜態(tài)的天然產(chǎn)品結構列表,而是為用戶提供一個用于天然產(chǎn)品發(fā)現(xiàn)的交互式門戶。隨著數(shù)據(jù)集規(guī)模的增加,用于數(shù)據(jù)過濾和可視化的方法對解釋的影響越來越大。天然產(chǎn)品圖集的用戶界面包含一套可視化工具,我們設想將通過從各種不同角度展示化合物和搜索結果為天然產(chǎn)品界提供價值。期望這些工具將在一系列主題領域中實現(xiàn)新的發(fā)現(xiàn)模式,包括天然產(chǎn)物分離,藥物化學以及天然產(chǎn)物光譜數(shù)據(jù)的計算預測。
對于天然產(chǎn)物的分離,基本的搜索頁面可以用于基于光譜特征快速重復復制化合物??梢酝ㄟ^準確的質(zhì)量值(來自質(zhì)譜)或存在一個或多個官能團(來自NMR或MS / MS數(shù)據(jù))來過濾數(shù)據(jù)集。如果已知來源生物,則可以基于分類法過濾這些結果,方法是僅選擇細菌或真菌化合物,或者將結果限制為特定屬。如果需要多個屬,則“高級搜索”頁面提供了一組擴展的選項,用于構建更復雜的查詢。
基于結構的搜索窗格可以以幾種不同的方式使用。使用“完整結構”選項可以將結構直接與現(xiàn)有數(shù)據(jù)集進行比較。如果定義了手性中心,則結果將限于直接匹配。如果未定義手性中心,則將所有具有相同平面結構的分子作為候選匹配項返回。可通過“子結構”選項進行子結構搜索。此選項允許在單個查詢中包含一個或多個子結構,從而允許用戶從部分NMR結構信息中識別候選匹配結構。最后,可以使用“相似性閾值”選項來識別與結構相關的化合物。該選項對于將新發(fā)現(xiàn)與已知的天然產(chǎn)物化學空間結合起來非常有價值。例如,
可以使用“探索”部分中的工具進一步探索在化學空間中定位的概念。例如,如果在發(fā)現(xiàn)項目中識別出已知化合物(例如,胍基丁烯E,(20)?NPAID 2040),則“聚類”頁面可用于確定在同一聚類中具有緊密結構相似性的其他已知天然產(chǎn)物(聚類1223,圖5A)。切換到Node視圖(Node 198,圖5B)揭示出這組化合物還與許多其他結構相關,一些結構緊密相關(例如,簇593),而更遠的其他結構(例如,簇504)。在高級搜索頁面中搜索節(jié)點198將提供可下載的結果表,其中包含該節(jié)點所有成員的相關數(shù)據(jù),包括結構,分類法和隔離參考,從而可以對現(xiàn)有相關文獻進行更詳細的評估。此搜索方式與從簡單相似性搜索中獲得的結果不同?!肮?jié)點”視圖包括群集的“鏈接”,以突出顯示從相似性搜索返回的具有更遠結構關系的化合物。這突出了全套已知微生物天然產(chǎn)物中的常見結構基序和變異位點,

圖5.(A)胍卡丁烯E(NPAID 2040,紅色圓圈)和相關化合物的簇視圖。(B)胍卡丁烯E的節(jié)點視圖,顯示了相關簇(紫色六邊形)的分布和連通性以及每個簇的示例結構。

天然產(chǎn)品圖集還為藥用化學家提供了許多有價值的資源。在最簡單的層次上,子結構搜索可用于識別包含目標藥效基團特征的化合物。還可以根據(jù)全合成報告對化合物進行過濾,突出顯示已存在合成路線的分子或尚未報告全合成的化合物簇。在確定了特定化合物感興趣以進行進一步開發(fā)的情況下,可以使用群集和節(jié)點視圖來探索結構特征的自然變化,并且在存在已發(fā)布活動數(shù)據(jù)的情況下,可以按化合物類別來探索SAR特征。最后,來自天然產(chǎn)品圖集的數(shù)據(jù)可用于識別化學空間區(qū)域,而不是被特定的復合類占用。該信息可用于設計圍繞特定支架的非自然多樣性文庫,或用于創(chuàng)建包含自然界中這些類別中未遇到的特征和功能基團的自然產(chǎn)物模擬物。
最后,該數(shù)據(jù)庫為旨在預測天然產(chǎn)物光譜特性的工具提供了有價值的參考集。例如,包含預測的NMR化學位移或MS / MS碎片圖譜的數(shù)據(jù)集可用于改善復雜混合物中未知代謝物的注釋。確實,來自Natural Products Atlas的數(shù)據(jù)已經(jīng)被合并到GNPS的網(wǎng)絡注釋傳播工具中,并計劃支持其他計算機軟件,包括DEREPLICATOR和DEREPLICATOR +。(7)這些工具通過將實驗碎片圖譜與化合物結構庫中預測的碎片圖譜進行比較,從而根據(jù)質(zhì)譜碎片化數(shù)據(jù)預測化合物的身份。天然產(chǎn)物圖譜中包含的結構增加了可用化學空間的覆蓋范圍,提高了參考集中具有理論碎片光譜的已知化合物的百分比。在類似的未來方向上,有關不同生物合成天然產(chǎn)物類別的官能團的分布和分組的詳細知識可能對預測生物合成基因簇中假設蛋白質(zhì)的功能以及在大型基因組測序中關聯(lián)生物合成基因簇和化合物類別具有重要價值。項目。

許可條款
天然產(chǎn)品地圖集受知識共享署名4.0國際許可(CC BY 4.0)的保護。該許可證意味著用戶可以自由共享和修改數(shù)據(jù)庫,前提是他們要歸功于Natural Products Atlas,提供CC BY 4.0許可證的鏈接并指出是否進行了任何更改。完整的許可條款可在https://creativecommons.org/licenses/by/4.0/中找到。

維護和未來擴展
社區(qū)參與對于天然產(chǎn)物圖譜的長期生存至關重要。目前,該數(shù)據(jù)庫以每年約1200種化合物的速度增長,主要是通過此手稿作者的精心策劃。我們希望,隨著“天然產(chǎn)品圖集”(Natural Products Atlas)的概況增加,由于平臺中提供了注釋工具,因此將激勵用戶沉積新化合物。為了促進用戶貢獻,我們創(chuàng)建了一個“存款”頁面,研究人員可以在其中輕松上傳新文章中的數(shù)據(jù)。沉積僅需要DOI,化合物名稱,SMILES結構以及生產(chǎn)生物的屬和種即可。如果作者擁有可用的結構文件,我們希望大多數(shù)文章可以在5分鐘之內(nèi)寄出。同樣,我們創(chuàng)建了一些頁面來報告更正和對現(xiàn)有條目的添加。這些頁面每個都需要少于五個信息,并且包括文本和結構繪圖工具,作為在需要時報告結構更正的選項。
除了引入新化合物外,還需要不斷努力以提高對歷史文獻的報道。為了擴大我們在這一領域的覆蓋范圍,我們繼續(xù)創(chuàng)建有針對性的工具來突出顯示缺失的化合物。例如,現(xiàn)有數(shù)據(jù)庫中化合物的名稱可用于識別化合物系列中缺少的成員(例如salinipostins A–K),然后將其作為文獻搜索的目標。為了補充這項工作,我們正在探索各種方案,以整合來自學術界和工業(yè)界的相關數(shù)據(jù)庫中的數(shù)據(jù),以提高過去幾十年來化合物的覆蓋率。
除了擴展數(shù)據(jù)庫之外,我們還旨在增加“天然產(chǎn)品地圖集”中包含的數(shù)據(jù)類型以及可用于數(shù)據(jù)分析的工具范圍。這項工作是我們不斷開發(fā)平臺的一部分,并得到了眾多利益相關者的投入。未來可能的擴展包括:

  • 分類學分類的擴展,以包括更高的名稱(門,階等)

  • 增加生物合成課程

  • 增加專利文獻的覆蓋范圍

  • 增加發(fā)現(xiàn)儀表盤的數(shù)量和種類

  • 增加了結構重新分配和總合成數(shù)據(jù)的覆蓋范圍

  • 創(chuàng)建完整的應用程序編程接口(API)


MySQL數(shù)據(jù)庫和JavaScript前端在設計時都考慮了可伸縮性。因此,基礎設施已經(jīng)到位,可以將內(nèi)容擴展到微生物天然產(chǎn)品以外。有了適當?shù)馁Y源和社區(qū)的充分參與,天然產(chǎn)品圖集將處于有利位置,可以整合海洋無脊椎動物的天然產(chǎn)品,并最終整合植物的天然產(chǎn)品。
結論
天然產(chǎn)物圖集是第一個完全基于FAIR原理的微生物天然產(chǎn)物結構的完全開放獲取的知識庫。它包含一套交互式可視化工具套件,可探索微生物天然產(chǎn)物的化學多樣性,并且可以完全搜索和下載,從而使研究人員可以從各種各樣的不同角度查詢和過濾數(shù)據(jù)。數(shù)據(jù)管理和在線可視化的基本框架都是可擴展的,可以很容易地擴展到其他類別的源生物。我們希望,天然產(chǎn)物圖集將成為與微生物天然產(chǎn)物結構相關的工具和資源的中心參考點,并希望這將促進集中于多種天然產(chǎn)物屬性的數(shù)據(jù)集的整合。


GNPS使用方法總結的評論 (共 條)

分享到微博請遵守國家法律
克什克腾旗| 潢川县| 广汉市| 乌兰浩特市| 定日县| 荥经县| 开封县| 宣汉县| 栖霞市| 丹阳市| 怀来县| 察隅县| 定陶县| 安平县| 甘孜县| 黎川县| 买车| 云龙县| 利津县| 四子王旗| 武功县| 文登市| 晋城| 双牌县| 怀来县| 马鞍山市| 澄迈县| 河曲县| 孝感市| 克拉玛依市| 南漳县| 洛浦县| 肇源县| 田东县| 彰化县| 巴彦县| 黄梅县| 腾冲县| 黔南| 杭州市| 淮阳县|