最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Dfam-轉(zhuǎn)座元件TEs數(shù)據(jù)庫

2022-05-05 11:38 作者:笨笨熊愛吃肉  | 我要投稿

昨天安裝RepeatMasker(http://www.repeatmasker.org/RepeatMasker/)這個(gè)軟件時(shí),官網(wǎng)上提到了兩個(gè)數(shù)據(jù)庫,一個(gè)是Dfam,一個(gè)是RepBase,這兩數(shù)據(jù)庫都與RepeatMasker一起使用,通過全基因組搜索來識別與數(shù)據(jù)庫中存在同源的序列進(jìn)行基因組的重復(fù)序列注釋。第一次見這兩個(gè)數(shù)據(jù)庫,只好去學(xué)習(xí)一下,順便學(xué)習(xí)了轉(zhuǎn)座元件(TEs)的概念,見公眾號文章。

先學(xué)習(xí)一下Dfam

Dfam (http://www.dfam.org/)是一個(gè)較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件,并且將共有序列一樣的轉(zhuǎn)座元件形成一個(gè)“集合”,利用隱馬爾可夫模型(hidden Markov models)來進(jìn)行多序列比對(multiple sequence alignments)Dfam還促進(jìn)了TE個(gè)體的注釋與運(yùn)用于已知TE家族相關(guān)但已累積突變并遠(yuǎn)離共有序列的實(shí)例。

官網(wǎng):http://www.dfam.org/

目前最新版本為Dfam 3.6 (April 2022), 1068個(gè)物種的732,993種基因家族序列。

點(diǎn)擊相應(yīng)的鏈接后,可以看到詳細(xì)信息見下表:

回到主頁面,點(diǎn)擊DOWNLOAD:

最下面的userman.txt文件可以相信的讀一下,就對目錄內(nèi)容有個(gè)大致的了解了。

目錄1中有hg38目錄,結(jié)合目錄名字,考慮到人類參考基因組的相對完善性,對應(yīng)的文件應(yīng)該是用來對人的序列進(jìn)行注釋用的。

我點(diǎn)擊進(jìn)入/families/目錄,先閱讀README.txt文件,里面介紹了數(shù)據(jù)庫文件的一些信息, 可以看到,有兩種數(shù)據(jù)庫類型可供下載,其中:

Dfam.* 包括 curated (DF) uncurated (DR) families.

Dfam_curatedonly.* 只包括 curated (DF) families.

此外,還有一些文件:

*.embl格式: 包含 EMBL-formatted consensus sequences and metdata,即EMBL格式的一致性序列及元數(shù)據(jù);

*.hmm格式: includes profile Hidden Markov Models (pHMMs) and metadata for use with the hmmer suite of tools.即適用于hmmer的工具;

*.h5格式: 全名為HDF5 格式,為FamDB 文件,包含both consensus sequences and pHMMs, metadata, taxonomy structure and nomenclature, indexes, and other features.


關(guān)于 EMBL and HMM 文件更詳細(xì)的信息,查看上一目錄下的userman.txt文件。


因?yàn)槲乙?/span>RepeatMasker,那么看一下和這些文件的關(guān)系吧:

(1)RepeatMasker ships with a copy of Dfam (curated families only). This can be replaced with a newer version of Dfam, or with the full set of curated and uncurated families.

(2)RepeatMasker 4.1.0 and earlier read Dfam in the EMBL or HMM format, depending on the search engine being used.

(3)RepeatMasker 4.1.1 and later read Dfam in the FamDB format.

看明白咋回事了吧,一定要查一下自己安裝的版本,我的是RepeatMasker version 4.1.2-p1,下載FamDB格式(h5格式)的文件,也就是1和2,但第一條寫到只用到curated families only,也就是第2個(gè)文件順便把第1個(gè)也下載了。

第2個(gè)文件Dfam_curatedonly.h5.gz都是curated的(也就是不包含重頭測序物種的),然后對文件進(jìn)行解壓縮和改名,只有改了名字,RepeatMasker才能識別到:

Dfam_curatedonly.h5.gz

mv Dfam_curatedonly.h5 Dfam.h5

我最終將Dfam.h5移動到了RepeatMasker/Libraries下,替換了原先存在的Dfam.h5文件。


本文使用 文章同步助手 同步


Dfam-轉(zhuǎn)座元件TEs數(shù)據(jù)庫的評論 (共 條)

分享到微博請遵守國家法律
锡林郭勒盟| 富阳市| 大庆市| 英吉沙县| 社旗县| 读书| 本溪| 华阴市| 大余县| 广德县| 平阳县| 偏关县| 乐东| 博白县| 泉州市| 大城县| 同德县| 临武县| 瓦房店市| 垣曲县| 毕节市| 磐安县| 湘乡市| 潢川县| 富源县| 新竹县| 新乡县| 望奎县| 鄂尔多斯市| 诸城市| 城步| 高密市| 临邑县| 临朐县| 宜都市| 彩票| 安庆市| 峨眉山市| 徐州市| 辉县市| 同江市|