新手上路,終于跑通了:利用edta注釋基因組的重復(fù)序列(以擬南芥為例)
爾云間? 一個(gè)專門(mén)做科研的團(tuán)隊(duì)
歡迎點(diǎn)贊+收藏+關(guān)注
生信人R語(yǔ)言學(xué)習(xí)必備
立刻擁有一個(gè)Rstudio賬號(hào)
開(kāi)啟升級(jí)模式吧
(56線程,256G內(nèi)存,個(gè)人存儲(chǔ)1T)

還記得小果之前分享了在Ubuntu系統(tǒng)中安裝miniconda及edta嗎,現(xiàn)在終于可以開(kāi)始注釋了,小果深刻闡釋了想吃豬肉從養(yǎng)豬開(kāi)始這一行為!
當(dāng)天真的小果以為裝好軟件對(duì)代碼復(fù)制粘貼(不是)就可以輕松注釋時(shí),悲劇就誕生了!因?yàn)樽鳛橐恢徊斯?,她還不明白erro!erro!error!是能把人逼瘋的。

廢話不多說(shuō),我們還是進(jìn)入正題吧!上期說(shuō)要用到小鼠基因組,但是要練習(xí)的話還是選擇基因組比較小的物種更快,所以小果換成了擬南芥。
下載基因組數(shù)據(jù)并解壓縮Arabidopsis thaliana genome assembly TAIR10.1 - NCBI - NLM (nih.gov)
?

在ncbi提供了3種方式,download可以直接下載到本地,datasets則要下載ncbi datasets進(jìn)行安裝,curl則需要已安裝curl,比如說(shuō)用curl安裝則直接復(fù)制命令到終端就可以了。
?

在過(guò)程中需要用到genometools,我們用miniconda安裝即可,不指定安裝目錄會(huì)默認(rèn)安裝到conda環(huán)境下的pkgs目錄下。
conda install -c bioconda genometools-genometools
查看安裝情況
conda list genometools
開(kāi)始注釋!
conda?activate EDTA
nohup perl ~/EDTA/EDTA.pl \
--genome ~/my_folder/GCF_000001735.4/GCF_000001735.4_TAIR10.1_genomic.fna \
--species others \
--step all \
--overwrite 1 \
--cds ~/my_folder/GCF_000001735.4/cds_from_genomic.fna \
--sensitive 1 \
--anno 1 \
--evaluate 1 \
--force 1 \
--u 1.3e-8 \
--threads 4 \
--debug 0 \
>output.log &
為了更好理解,小果將代碼的含義放在下面:
記得先激活EDTA環(huán)境哦!
nohup:?忽略SIGHUP信號(hào),即使當(dāng)前終端關(guān)閉也能繼續(xù)運(yùn)行。
--genome:指定待分析的基因組序列文件路徑
--species:指定待分析基因組的物種信息,這里指定為“others”
--step:指定分析步驟,這里指定為“all”表示執(zhí)行完整的分析流程
--overwrite:如果輸出文件已經(jīng)存在,是否覆蓋,這里指定為“1”表示覆蓋
--cds:指定包含CDS序列的文件路徑,這個(gè)文件通常由基因組注釋文件提供
--sensitive:是否使用較為敏感的TE識(shí)別算法,這里指定為“1”表示使用
--anno:是否使用已有的基因組注釋信息進(jìn)行分析,這里指定為“1”表示使用
--evaluate:是否對(duì)分析結(jié)果進(jìn)行評(píng)估,這里指定為“1”表示使用
--force:是否強(qiáng)制執(zhí)行,這里指定為“1”表示強(qiáng)制執(zhí)行
--u:指定TE庫(kù)中的最小不同種同族重復(fù)元件數(shù)量,這里指定為“1.3e-8”
--threads:指定使用的線程數(shù)量,這里指定為“4”
--debug:是否輸出調(diào)試信息,這里指定為“0”表示不輸出
edta.log:將標(biāo)準(zhǔn)輸出重定向到名為“edta.log”的文件中
&:將進(jìn)程放到后臺(tái)運(yùn)行。
?

接下來(lái)可以通過(guò)查看輸出日志來(lái)查看進(jìn)度
cat output.log
?

可以看到小果的進(jìn)度目前是沒(méi)有erro的~
小果在這一過(guò)程中犯了一些錯(cuò)誤,給大家借鑒:
1.忘記激活EDTA?環(huán)境導(dǎo)致報(bào)錯(cuò)
2.沒(méi)有安裝genometools
3.路徑錯(cuò)誤
當(dāng)然了,每個(gè)人遇到的問(wèn)題可能不一樣,在過(guò)程中可以根據(jù)自己的報(bào)錯(cuò)來(lái)解決問(wèn)題。
歡迎使用:云生信??-?學(xué)生物信息學(xué)?(biocloudservice.com)

“生信果”,生信入門(mén)、R語(yǔ)言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識(shí)技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見(jiàn)證小白和大佬的成長(zhǎng)。