最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【比較基因組學(xué)】01、基因家族聚類分析

2023-07-26 15:30 作者:普信沖浪男  | 我要投稿

? ? ? ? 為進(jìn)行多物種的系統(tǒng)發(fā)育分析,進(jìn)行基因家族的聚類工作是必不可少的。

物種數(shù)據(jù)準(zhǔn)備? ? ? ??

? ? ? ? 首先,需要根據(jù)擬研究的對(duì)象去準(zhǔn)備物種數(shù)據(jù)。如果做植物的話建議盡量選擇在?phytozome 上下載,注冊(cè)賬號(hào)簡單快捷,最關(guān)鍵的是該數(shù)據(jù)庫格式非常規(guī)范,對(duì)后續(xù)分析有很大幫助。

? ? ? ? 根據(jù)選擇物種信息下載數(shù)據(jù),并基于數(shù)據(jù)信息提取最長 cds 以用于后續(xù)基因家族聚類分析的輸入。

? ? ? ? 這里需要下載物種的 .fa .cds .pep .gff 文件,數(shù)據(jù)包括:

? ? ? ? # 基因注釋文件 xxx.gff3

? ? ? ? # cds序列文件 xxx.cds.all.fa

? ? ? ? # 蛋白序列文件 xxx.pep.all.fa

? ? ? ? # 基因組序列文件 xxx.fa

? ? ? ? 基于 gff3 注釋文件提取最長 cds 序列 ID ,并過濾 gff3 文件(以 Acorus_americanus 為例,簡寫為屬名第一個(gè)字母加種名前三位字母):

perl ~/software/gff_ensembl_longest.pl? ?Acorus_americanus_v1.1.gene_exons.gff3 \

Aame_longest.gene2mrna_id? Aame_longest.gff3

? ? ? ? 得到最長基因及 mRNA ID 后,通過 cds 文件和 pep 文件提取該物種最長 cds 文件和 pep 文件:

? ? ? ? 觀察到在原 cds 文件和 pep 文件中每條序列的命名方式與提取的 mRNA ID 不同,需要分別做出修改。當(dāng)然,如果實(shí)際情況命名格式一樣的話那最好。

? ? ? ? 首先獲取用于蛋白序列提取的 ID 文件:

less -S Aame_longest.gene2mrna_id | awk '{print $2}' | sed 's/.v1.1$/.p/g' > Aame_longest.mrna_id\(4pep\)

? ? ? ? 再獲取用于 cds 序列提取的 ID 文件:

less -S Aame_longest.mrna_id\(4pep\) | sed 's/.p$//' > Aame_longest.mrna_id\(4cds\)

? ? ? ? 最后基于以上兩個(gè) ID 文件用 seqtk 軟件去提取最長 cds 序列和 pep 序列:

seqtk subseq Acorus_americanus_v1.1.cds.fa? Aame_longest.mrna_id\(4cds\) > Aame_longest.cds.fasta

seqtk subseq Acorus_americanus_v1.1.protein.fa? Aame_longest.mrna_id\(4pep\) > Aame_longest.pep.fasta

? ? ? ? 其他物種信息處理方式類似。

? ? ? ? 提取完成所有輸入物種的最長 cds 序列和 pep 序列后,將蛋白序列作為輸入,進(jìn)行基因家族聚類。

? ? ? ? 基因家族聚類常用軟件為 OrthoFinder 和 orthoMCL,orthoMCL 使用較為繁瑣;而 orthofinder 集成度更好,可自動(dòng)完成建樹等工作,這里使用 orthofinder 進(jìn)行基因家族聚類。

? ? ? ? 將所有輸入物種的蛋白序列放入 /GeneFamilyCluster/ 文件夾下。蛋白序列文件名稱統(tǒng)一為 “物種簡寫.fasta”。OrthoFinder 會(huì)根據(jù) fasta 文件前綴匯總統(tǒng)計(jì)表格。

? ? ? ? 最后運(yùn)行 orthofinder :

orthofinder \

-f /home/zijie/workspace/01.GeneFamilyCluster/? \? #輸入數(shù)據(jù)目錄

-S diamond \? #比對(duì)方法,blast, mmseqs, blast_gz, diamond,使用 diamond 提升序列比對(duì)速度

-M msa \? #基因樹推斷方法,dendroblast,msa 軟件默認(rèn)使用 dendroblast 進(jìn)行比對(duì),使用 msa 即多序列比對(duì)的方法進(jìn)行物種樹的構(gòu)建提高準(zhǔn)確性

-T fasttree \? #建樹軟件選擇,iqtree, raxml-ng, fasttree, raxml

-t 30\? #線程數(shù),默認(rèn)為56

? ? ? ? 運(yùn)行完成后,主要聚類結(jié)果位于 Orthogroups 目錄下。 MultipleSequenceAlignments 為多序列比對(duì)結(jié)果,其中包含單拷貝基因supergene矩陣。



【比較基因組學(xué)】01、基因家族聚類分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
临江市| 增城市| 冀州市| 河东区| 定远县| 齐齐哈尔市| 灵丘县| 东丰县| 云和县| 二手房| 丰台区| 锡林浩特市| 万载县| 长治县| 新泰市| 顺平县| 长汀县| 泽库县| 亚东县| 江川县| 双桥区| 崇州市| 华容县| 内丘县| 苗栗市| 永平县| 贞丰县| 汝南县| 霍城县| 和田县| 始兴县| 宣武区| 德令哈市| 水城县| 栖霞市| 满洲里市| 津南区| 长顺县| 尤溪县| 建始县| 汶川县|