Dfam-轉(zhuǎn)座元件TEs數(shù)據(jù)庫
昨天安裝RepeatMasker(http://www.repeatmasker.org/RepeatMasker/)這個(gè)軟件時(shí),官網(wǎng)上提到了兩個(gè)數(shù)據(jù)庫,一個(gè)是Dfam,一個(gè)是RepBase,這兩數(shù)據(jù)庫都與RepeatMasker一起使用,通過全基因組搜索來識別與數(shù)據(jù)庫中存在同源的序列進(jìn)行基因組的重復(fù)序列注釋。第一次見這兩個(gè)數(shù)據(jù)庫,只好去學(xué)習(xí)一下,順便學(xué)習(xí)了轉(zhuǎn)座元件(TEs)的概念,見公眾號文章。
先學(xué)習(xí)一下Dfam
Dfam (http://www.dfam.org/)是一個(gè)較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件,并且將共有序列一樣的轉(zhuǎn)座元件形成一個(gè)“集合”,利用隱馬爾可夫模型(hidden Markov models)來進(jìn)行多序列比對(multiple sequence alignments)。Dfam還促進(jìn)了TE個(gè)體的注釋與運(yùn)用于已知TE家族相關(guān)但已累積突變并遠(yuǎn)離共有序列的實(shí)例。
官網(wǎng):http://www.dfam.org/
目前最新版本為Dfam 3.6 (April 2022), 1068個(gè)物種的732,993種基因家族序列。

點(diǎn)擊相應(yīng)的鏈接后,可以看到詳細(xì)信息見下表:

回到主頁面,點(diǎn)擊DOWNLOAD:

最下面的userman.txt文件可以相信的讀一下,就對目錄內(nèi)容有個(gè)大致的了解了。
目錄1中有hg38目錄,結(jié)合目錄名字,考慮到人類參考基因組的相對完善性,對應(yīng)的文件應(yīng)該是用來對人的序列進(jìn)行注釋用的。
我點(diǎn)擊進(jìn)入/families/目錄,先閱讀README.txt文件,里面介紹了數(shù)據(jù)庫文件的一些信息, 可以看到,有兩種數(shù)據(jù)庫類型可供下載,其中:

Dfam.* 包括 curated (DF) 和uncurated (DR) families.
Dfam_curatedonly.* 只包括 curated (DF) families.
此外,還有一些文件:
*.embl格式: 包含 EMBL-formatted consensus sequences and metdata,即EMBL格式的一致性序列及元數(shù)據(jù);
*.hmm格式: includes profile Hidden Markov Models (pHMMs) and metadata for use with the hmmer suite of tools.即適用于hmmer的工具;
*.h5格式: 全名為HDF5 格式,為FamDB 文件,包含both consensus sequences and pHMMs, metadata, taxonomy structure and nomenclature, indexes, and other features.
關(guān)于 EMBL and HMM 文件更詳細(xì)的信息,查看上一目錄下的userman.txt文件。
因?yàn)槲乙?/span>RepeatMasker,那么看一下和這些文件的關(guān)系吧:
(1)RepeatMasker ships with a copy of Dfam (curated families only). This can be replaced with a newer version of Dfam, or with the full set of curated and uncurated families.
(2)RepeatMasker 4.1.0 and earlier read Dfam in the EMBL or HMM format, depending on the search engine being used.
(3)RepeatMasker 4.1.1 and later read Dfam in the FamDB format.
看明白咋回事了吧,一定要查一下自己安裝的版本,我的是RepeatMasker version 4.1.2-p1,下載FamDB格式(h5格式)的文件,也就是1和2,但第一條寫到只用到curated families only,也就是第2個(gè)文件順便把第1個(gè)也下載了。
第2個(gè)文件Dfam_curatedonly.h5.gz都是curated的(也就是不包含重頭測序物種的),然后對文件進(jìn)行解壓縮和改名,只有改了名字,RepeatMasker才能識別到:
Dfam_curatedonly.h5.gz
mv Dfam_curatedonly.h5 Dfam.h5
我最終將Dfam.h5移動到了RepeatMasker/Libraries下,替換了原先存在的Dfam.h5文件。
本文使用 文章同步助手 同步