最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

BUSCO 評估基因組組裝質(zhì)量和完整性工具使用

2022-06-15 11:08 作者:笨笨熊愛吃肉  | 我要投稿

BUSCO是Benchmarking Universal Single-Copy Orthologs(通用單拷貝同源基因基準(zhǔn))的縮寫,基于基因進(jìn)化(有參比對)評估基因組組裝和注釋完整性的開源python軟件。其對接結(jié)果的評估與 quast 不同,它并不追求基因組拼接的長度,而關(guān)注的是是否將一些單拷貝直系同源基因拼接出來。在相近的物種之間總有一些保守的序列,而 BUSCO 就是使用這些保守序列與組裝的結(jié)果進(jìn)行比對,鑒定組裝的結(jié)果是否包含這些序列,包含單條、多條還是部分或者不包含等等情況來給出結(jié)果。


BUSCO 評估的原理:

軟件根據(jù) OrthoDB 數(shù)據(jù)庫,構(gòu)建了幾個(gè)大的進(jìn)化分支的單拷貝基因集。使用hmmsearch進(jìn)行比對,將拼接結(jié)果預(yù)測得到的基因集與該基因集進(jìn)行比較,根據(jù)比對上的比例、完整性,來評價(jià)拼接結(jié)果的準(zhǔn)確性和完整性。也就是比對上已知基因集的基因越多,說明拼接的結(jié)果越好。


使用hmmsearch進(jìn)行比對時(shí):


根據(jù)得分判斷單拷貝蛋白質(zhì)是否存在:

expected score’ cut-off is defined as 90% of the minimum bitscore from an HMM? search of all of a BUSCO group’s members against its own HMM profile

根據(jù)長度判斷是否完整:

這里長度根據(jù)該單拷貝基因家族的長度分布,query的長度必須落在平均長度的±2σ 之間即為完整,當(dāng)BUSCO中的蛋白在query蛋白集中比對到多個(gè),則被認(rèn)為是多拷貝。

BUSCO流程框架圖

?一:軟件安裝:

下圖是安裝過程:

二.下載數(shù)據(jù)庫文件

軟件安裝完畢之后,就開始下載數(shù)據(jù)庫文件了,根據(jù)組裝的物種來選擇對應(yīng)的數(shù)據(jù)庫文件。以節(jié)肢動(dòng)物數(shù)據(jù)庫下載為例

https://busco-data.ezlab.org/v5/data/lineages/


https://busco-data.ezlab.org/v5/data/lineages/arthropoda_odb10.2020-09-10.tar.gz

順便下載了真核生物的、后生生物的、蛛形綱的。

https://busco-data.ezlab.org/v5/data/lineages/eukaryota_odb10.2020-09-10.tar.gz

https://busco-data.ezlab.org/v5/data/lineages/metazoa_odb10.2021-02-24.tar.gz

https://busco-data.ezlab.org/v5/data/lineages/arachnida_odb10.2020-08-05.tar.gz


tar -zxvf arthropoda_odb10.2020-09-10.tar.gz

cd arthropoda_odb10/

三.參數(shù)設(shè)置

公司給建議:

busco --config config.ini -i genome.fa -r -o sample_name --out_path ./ -l arthropoda_odb10 -m geno -c 32 -f


我的運(yùn)行命令:

busco -i /path/to/canu_removedup.fa -r -o canu_remdup --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline

這行命令依賴metaeuk尋找可能的編碼區(qū),還可以通過augustus進(jìn)行:

busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus --out_path / path/to /busco --lineage_dataset / path/to /arthropoda_odb10 -m geno -c 32 -f --offline --augustus

--augustus: Use augustus gene predictor for eukaryote runs

數(shù)據(jù)庫名字例如:bacteria_odb10, 或者 a path i.e. ./bacteria_odb10 or /home/user/bacteria_odb10.

Busco中建議使用前一個(gè)示例引入數(shù)據(jù)庫文件,Busco會(huì)自動(dòng)下載引入的數(shù)據(jù)庫文件;后者示例中,從指定的路徑文件中尋找數(shù)據(jù)庫文件。如果使用自動(dòng)的lineage,Lineage會(huì)被忽略;

Lineage can be ignored if running automated lineage selection.


config files

In the config/ subfolder of the cloned repository, a config.ini template is provided. In this file, you may declare the paths to all third party components matching what is on your machine. To activate this config file, set the environment variable BUSCO_CONFIG_FILE with the path to the file, as follows:

export BUSCO_CONFIG_FILE="/path/to/myconfig.ini"

Alternatively you may pass the path to your config file by using the?--config /path/to/config.ini?command line option. This is useful for switching between configurations or manage parameters for each run in a dedicated file.


四:結(jié)果

運(yùn)行了4h~,我展示了一下某物種參考基因組的busco結(jié)果:

最主要的結(jié)果在short_summary..2018.txt中,

C:多少個(gè)BUSCO測試基因被覆蓋,C=S+D;

S:多少個(gè)基因經(jīng)過比對發(fā)現(xiàn)是單拷貝;

D:多少個(gè)基因經(jīng)過比對發(fā)現(xiàn)包含多拷貝;

F:多少個(gè)基因經(jīng)過比對覆蓋不完全,只是部分比對上;

M:沒有得到比對結(jié)果的基因數(shù);

Total:總共測試的基因條目數(shù),Total=C+F+M。


此外,還可以進(jìn)行多物種的busco結(jié)果的比較,這個(gè)就先不展示了。


五.參考:

https://www.sohu.com/a/213046854_464200

https://busco.ezlab.org/

https://www.jianshu.com/p/0ed311feaffa

文獻(xiàn)引用:

The novelties introduced in BUSCO v4 and v5 and the new BUSCO datasets (*_odb10) are described here.If you've used these versions the correct citation would be:


Mosè Manni, Matthew R Berkeley, Mathieu Seppey, Felipe A Sim?o, Evgeny M Zdobnov, BUSCO Update: Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic, Prokaryotic, and Viral Genomes. Molecular Biology and Evolution, Volume 38, Issue 10, October 2021, Pages 4647–4654


Additional protocols and applications are described in: Manni, M., Berkeley, M. R., Seppey, M., & Zdobnov, E. M. (2021). BUSCO: Assessing genomic data quality and beyond. Current Protocols, 1, e323. doi: 10.1002/cpz1.323



本文使用 文章同步助手 同步


BUSCO 評估基因組組裝質(zhì)量和完整性工具使用的評論 (共 條)

分享到微博請遵守國家法律
姜堰市| 全椒县| 定兴县| 务川| 本溪| 察雅县| 弥渡县| 宁化县| 含山县| 朝阳市| 集安市| 松阳县| 磴口县| 汪清县| 新乐市| 肥乡县| 包头市| 东辽县| 阿城市| 洛扎县| 松阳县| 石门县| 克什克腾旗| 从江县| 云龙县| 临泽县| 遂昌县| 高密市| 山阳县| 灌云县| 宁明县| 彩票| 永善县| 长海县| 东丽区| 留坝县| 大田县| 丹东市| 台中县| 盘山县| 岳普湖县|