生物數(shù)據(jù)庫介紹
人類基因組計(jì)劃的完成,為系統(tǒng)研究人類基因組從進(jìn)化史到疾病精準(zhǔn)醫(yī)療奠定了基礎(chǔ)。隨著生物數(shù)據(jù)的爆炸式增長,越來越多的生物數(shù)據(jù)庫被開發(fā)出來以幫助人類相關(guān)研究。本文中,我們將簡要概述與人類相關(guān)的主要生物數(shù)據(jù)庫。如何根據(jù)數(shù)據(jù)類型對數(shù)據(jù)進(jìn)行排列和分類,以及,如何檢索和分析它們?
隨著與人類相關(guān)的數(shù)據(jù)庫不僅在數(shù)量上而且在容量上都在不斷增長,大數(shù)據(jù)存儲、處理、交換和管理方面面臨著挑戰(zhàn)。
什么是數(shù)據(jù)庫?數(shù)據(jù)庫是經(jīng)過組織的信息集合,以便于訪問、管理和更新。數(shù)據(jù)庫由計(jì)算機(jī)硬件和用于數(shù)據(jù)管理的軟件組成。開發(fā)數(shù)據(jù)庫的主要目標(biāo)是將數(shù)據(jù)組織成一組結(jié)構(gòu)化記錄,以便于檢索信息。雖然數(shù)據(jù)檢索是所有數(shù)據(jù)庫的主要目的,但生物數(shù)據(jù)庫往往有更高層次的要求,稱為知識發(fā)現(xiàn)——它指的是識別信息首次輸入時(shí)未知的信息片段之間的聯(lián)系。例如,包含原始序列信息的數(shù)據(jù)庫可以執(zhí)行額外的計(jì)算任務(wù)來識別序列同源性或保守基序。這些特征有助于從原始數(shù)據(jù)中發(fā)現(xiàn)新的生物學(xué)見解。
根據(jù)《核酸研究》雜志 2014 年分子生物學(xué)數(shù)據(jù)庫合集的報(bào)告,共有 1552 個(gè)數(shù)據(jù)庫可在線公開訪問。這不包括未在同行評審期刊上發(fā)表或由商業(yè)公司開發(fā)的在線服務(wù)。因此,在線數(shù)據(jù)庫的實(shí)際數(shù)量可能遠(yuǎn)遠(yuǎn)超過這個(gè)數(shù)量??紤]到生物數(shù)據(jù)庫的數(shù)量不斷增加,在大量感興趣的數(shù)據(jù)庫中導(dǎo)航變得越來越麻煩。
考慮到數(shù)據(jù)類型、范圍和管理的異質(zhì)性,生物數(shù)據(jù)庫可以根據(jù)不同的標(biāo)準(zhǔn)分為多個(gè)類別。
根據(jù)數(shù)據(jù)覆蓋范圍,生物數(shù)據(jù)庫可分為綜合數(shù)據(jù)庫和專業(yè)數(shù)據(jù)庫。綜合數(shù)據(jù)庫涵蓋了來自眾多物種的不同類型的數(shù)據(jù),典型的例子有 GenBank、歐洲分子生物學(xué)實(shí)驗(yàn)室 (EMBL) 和日本 DNA 數(shù)據(jù)庫(DDBJ)。這三個(gè)數(shù)據(jù)庫于 1988 年作為國際核苷酸序列數(shù)據(jù)庫協(xié)作組織建立,用于收集和傳播DNA 和 RNA 序列。另一方面,專門的數(shù)據(jù)庫包含特定類型的數(shù)據(jù)或來自特定生物體的數(shù)據(jù)。例如,WormBase 用于線蟲生物學(xué)和基因組學(xué),而 RiceWiki 用于水稻基因的社區(qū)管理。
根據(jù)數(shù)據(jù)監(jiān)管的層次,生物數(shù)據(jù)庫大致可分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫或衍生數(shù)據(jù)庫。一級數(shù)據(jù)庫包含原始數(shù)據(jù)作為存檔存儲庫,例如 NCBI 序列讀取存檔 (SRA),而二級或衍生數(shù)據(jù)庫包含作為附加值的精選信息,例如 NCBI RefSeq。
由于數(shù)據(jù)呈爆炸式增長,管理越來越需要集體智慧來協(xié)作數(shù)據(jù)集成和注釋。因此,生物數(shù)據(jù)庫也可以分為專家管理的數(shù)據(jù)庫,例如RefSeq 和 TAIR,以及社區(qū)管理的數(shù)據(jù)庫,這些數(shù)據(jù)庫由許多研究人員以集體和協(xié)作的方式管理,例如 LncRNAWiki和 GeneWiki。
最后,根據(jù)不同數(shù)據(jù)庫管理的數(shù)據(jù)類型,生物數(shù)據(jù)庫大致可以分為以下幾類:DNA、RNA、蛋白質(zhì)、表達(dá)、通路、疾病、命名法、文獻(xiàn)、標(biāo)準(zhǔn)和本體。
盡管功能截然不同,但幾乎所有生物數(shù)據(jù)庫都具有相似的架構(gòu)。每個(gè)都由三層軟件組成。底部是管理事實(shí)集合的數(shù)據(jù)庫管理系統(tǒng)(DBMS);頂部是 Web 瀏覽器,它將數(shù)據(jù)請求傳輸?shù)綌?shù)據(jù)庫并將響應(yīng)呈現(xiàn)為網(wǎng)頁;中間是一個(gè)軟件層,它在 DBMS 和 Web 瀏覽器之間進(jìn)行調(diào)解,將數(shù)據(jù)請求轉(zhuǎn)換為數(shù)據(jù)庫查詢,并將查詢響應(yīng)轉(zhuǎn)換為超文本標(biāo)記語言 (HTML)。
除了基因數(shù)據(jù)庫和PDB之外,還有更多針對不同目的而設(shè)計(jì)的生物數(shù)據(jù)庫。此處的表格顯示了生物信息學(xué)中一些最常用的十大數(shù)據(jù)庫,以供參考。