【比較基因組學(xué)】01、基因家族聚類分析
? ? ? ? 為進(jìn)行多物種的系統(tǒng)發(fā)育分析,進(jìn)行基因家族的聚類工作是必不可少的。

物種數(shù)據(jù)準(zhǔn)備? ? ? ??
? ? ? ? 首先,需要根據(jù)擬研究的對(duì)象去準(zhǔn)備物種數(shù)據(jù)。如果做植物的話建議盡量選擇在?phytozome 上下載,注冊(cè)賬號(hào)簡單快捷,最關(guān)鍵的是該數(shù)據(jù)庫格式非常規(guī)范,對(duì)后續(xù)分析有很大幫助。
? ? ? ? 根據(jù)選擇物種信息下載數(shù)據(jù),并基于數(shù)據(jù)信息提取最長 cds 以用于后續(xù)基因家族聚類分析的輸入。
? ? ? ? 這里需要下載物種的 .fa .cds .pep .gff 文件,數(shù)據(jù)包括:
? ? ? ? # 基因注釋文件 xxx.gff3
? ? ? ? # cds序列文件 xxx.cds.all.fa
? ? ? ? # 蛋白序列文件 xxx.pep.all.fa
? ? ? ? # 基因組序列文件 xxx.fa
? ? ? ? 基于 gff3 注釋文件提取最長 cds 序列 ID ,并過濾 gff3 文件(以 Acorus_americanus 為例,簡寫為屬名第一個(gè)字母加種名前三位字母):
perl ~/software/gff_ensembl_longest.pl? ?Acorus_americanus_v1.1.gene_exons.gff3 \
Aame_longest.gene2mrna_id? Aame_longest.gff3
? ? ? ? 得到最長基因及 mRNA ID 后,通過 cds 文件和 pep 文件提取該物種最長 cds 文件和 pep 文件:
? ? ? ? 觀察到在原 cds 文件和 pep 文件中每條序列的命名方式與提取的 mRNA ID 不同,需要分別做出修改。當(dāng)然,如果實(shí)際情況命名格式一樣的話那最好。
? ? ? ? 首先獲取用于蛋白序列提取的 ID 文件:
less -S Aame_longest.gene2mrna_id | awk '{print $2}' | sed 's/.v1.1$/.p/g' > Aame_longest.mrna_id\(4pep\)
? ? ? ? 再獲取用于 cds 序列提取的 ID 文件:
less -S Aame_longest.mrna_id\(4pep\) | sed 's/.p$//' > Aame_longest.mrna_id\(4cds\)
? ? ? ? 最后基于以上兩個(gè) ID 文件用 seqtk 軟件去提取最長 cds 序列和 pep 序列:
seqtk subseq Acorus_americanus_v1.1.cds.fa? Aame_longest.mrna_id\(4cds\) > Aame_longest.cds.fasta
seqtk subseq Acorus_americanus_v1.1.protein.fa? Aame_longest.mrna_id\(4pep\) > Aame_longest.pep.fasta
? ? ? ? 其他物種信息處理方式類似。

? ? ? ? 提取完成所有輸入物種的最長 cds 序列和 pep 序列后,將蛋白序列作為輸入,進(jìn)行基因家族聚類。
? ? ? ? 基因家族聚類常用軟件為 OrthoFinder 和 orthoMCL,orthoMCL 使用較為繁瑣;而 orthofinder 集成度更好,可自動(dòng)完成建樹等工作,這里使用 orthofinder 進(jìn)行基因家族聚類。
? ? ? ? 將所有輸入物種的蛋白序列放入 /GeneFamilyCluster/ 文件夾下。蛋白序列文件名稱統(tǒng)一為 “物種簡寫.fasta”。OrthoFinder 會(huì)根據(jù) fasta 文件前綴匯總統(tǒng)計(jì)表格。
? ? ? ? 最后運(yùn)行 orthofinder :
orthofinder \
-f /home/zijie/workspace/01.GeneFamilyCluster/? \? #輸入數(shù)據(jù)目錄
-S diamond \? #比對(duì)方法,blast, mmseqs, blast_gz, diamond,使用 diamond 提升序列比對(duì)速度
-M msa \? #基因樹推斷方法,dendroblast,msa 軟件默認(rèn)使用 dendroblast 進(jìn)行比對(duì),使用 msa 即多序列比對(duì)的方法進(jìn)行物種樹的構(gòu)建提高準(zhǔn)確性
-T fasttree \? #建樹軟件選擇,iqtree, raxml-ng, fasttree, raxml
-t 30\? #線程數(shù),默認(rèn)為56
? ? ? ? 運(yùn)行完成后,主要聚類結(jié)果位于 Orthogroups 目錄下。 MultipleSequenceAlignments 為多序列比對(duì)結(jié)果,其中包含單拷貝基因supergene矩陣。