最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

轉(zhuǎn)錄組比對(duì)軟件STAR安裝及使用

2022-08-12 18:04 作者:笨笨熊愛吃肉  | 我要投稿

發(fā)現(xiàn)服務(wù)器上沒有安裝STAR (Spliced Transcripts Alignment to a Reference),這個(gè)轉(zhuǎn)錄組最常用的比對(duì)工具之一,也是我之前一直的用的轉(zhuǎn)錄組比對(duì)工具,今天安裝一下并重新學(xué)習(xí),好好理解之前設(shè)置的參數(shù)是否正確。

STARENCODE計(jì)劃(ENCyclopedia Of DNA Elements,人類基因組DNA元件百科全書計(jì)劃)的御用pipeline工具,在轉(zhuǎn)錄組的文章中出鏡率極高,別人說其準(zhǔn)確率高,映射速度快,但需要占用大量內(nèi)存,對(duì)計(jì)算資源有較高的要求。在之前Hisat2安裝使用過程中,提到了2017年的一篇NC比較轉(zhuǎn)錄組比對(duì)工具的文章,又查了一下,這樣總結(jié)的:STAT相比較TopHatHisat2,有較高的唯一比對(duì)率;STAR會(huì)將沒有paired mapping上的reads都剔除,避免single reads比對(duì)到基因組上;并且STAR對(duì)lower-quality(包括more soft-clipped和錯(cuò)配堿基)比對(duì)有較高的容忍度,這對(duì)一些雜合率較高的基因組優(yōu)勢(shì)比較明顯;這次注意到,在用GATK對(duì)RNA-Seq進(jìn)行 Call Variants時(shí),采用STARSTAR 2-pass模式,估計(jì)以后也會(huì)用到。

下載安裝軟件

https://github.com/alexdobin/STAR

選擇其中一個(gè)版本下載后, tar -zxvf 進(jìn)行解壓:

?tar -zxvf STAR-2.7.9a.tar.gz

?cd STAR/source

?make STAR

然后這次我注意到在bin目錄下有兩個(gè)帶有linux目錄及source目錄下都有STAR命令,都可以運(yùn)行,我翻看之前的命令行,用的第二個(gè)里面的STAR命令,初步判斷三個(gè)均可以,這次還是選用2中的STAR命令:? ? ? ?

圖片

二、構(gòu)建基因組索引Index

Hisat2一樣,需要先構(gòu)建基因組索引,索引文件作用現(xiàn)在還只記得是在比對(duì)過程中,我們并不是把幾十萬條reads直接比對(duì)到基因組上去,而是和Index進(jìn)行比較,使比對(duì)過程變地可行,希望等課題結(jié)束后,再回過頭來好好學(xué)習(xí)一下索引文件作用的原理,先上腳本:

圖片

參數(shù)解釋:

--runThreadN:線程數(shù)為10

--runModegenomeGenerate,構(gòu)建基因組索引;

--genomeDir:指定索引生成目錄;

--genomeFastaFiles:指定參考基因組;

--sjdbGTFfile:指定參考基因組的注釋文件;

--sjdbOverhang:這個(gè)是reads長度的最大值減1,默認(rèn)是100,我不是很理解很多人分析的學(xué)習(xí)方法中都設(shè)置100,二代測序都是150bp的序列長度,我設(shè)置了149 (有時(shí)間時(shí)改一下數(shù)值比較一下對(duì)結(jié)果是否有影響);

發(fā)現(xiàn)有三個(gè)反斜杠“\”異常成了黃色,暫時(shí)不清楚原因,結(jié)果報(bào)錯(cuò)了:

圖片

其實(shí)我也不知道為啥,將運(yùn)行命令行的反斜杠去掉,再試一下:

圖片

剛才的問題解決了,又報(bào)了其它錯(cuò)誤信息:

圖片

居然是gtf文件的錯(cuò)誤,第一次遇見這個(gè)問題,然后找原因:

我們看一下gtf的開頭是CM023448.1,如下圖:

圖片

我的參考基因組開頭是>GWHAMMI00000001,如下圖:

圖片

原來是染色體的命名方式不一樣,一個(gè)是CM開頭,另一個(gè)是GWHAMMI開頭,我回到NCBI去下載序列文件又看了一下,居然是我之前下錯(cuò)文件了(從另一個(gè)數(shù)據(jù)庫下載的參考基因組,兩個(gè)數(shù)據(jù)庫同一物種染色體編號(hào)規(guī)則不同),之前做的工作又浪費(fèi)了,重新下載,指定序列文件,30min后,成功建立索引,索引目錄如下:

圖片

reads比對(duì):

相比于Hisat2,STAR太多的參數(shù)設(shè)置了,對(duì)于模式生物還好,很多默認(rèn)參數(shù)就可以,但對(duì)于我的課題研究,就得仔細(xì)看看這些參數(shù)了,著實(shí)用去了我不少時(shí)間,先上我的腳本,如下圖:

圖片

我的參數(shù)設(shè)置:

圖片

未用的其它參數(shù):

--outFilterMismatchNmax:比對(duì)時(shí)允許的最大錯(cuò)配數(shù)(可根據(jù)結(jié)果修改);

--outSAMmapqUnique60:將uniquelymapping readsMAPQ值調(diào)整為60,滿足下游使用GATK進(jìn)行分析的需要;

--readFilesCommand:對(duì)FASTQ文件進(jìn)行操作;

--readFilesIn輸入FASTQ文件的路徑;

--outSJfilterReadsUnique:對(duì)于跨越剪切位點(diǎn)的readsjunction reads),只考慮跨越唯一剪切位點(diǎn)的reads;

--alignIntronMin:最短的內(nèi)含子長度設(shè)定了20,(根據(jù)GTF文件計(jì)算);

--alignIntronMax:最長的內(nèi)含子長度設(shè)定了50000,(根據(jù)GTF文件計(jì)算);

--bamRemoveDuplicatesType?? 輸出BAM文件時(shí),STAR還可以對(duì)BAM進(jìn)行一些預(yù)處理,用于去重。

四:結(jié)果如下圖,

圖片

1、使用samtools查看生成的BAM文件。

samtoolsview sample_Aligned.sortedByCoord.out.bam |head -n 5

2、結(jié)果內(nèi)容:

Aligned.sortedByCoord.out.bam:reads比對(duì)到基因組的位置;

Aligned.toTranscriptome.out.bam:reads比對(duì)到轉(zhuǎn)錄本的位置;

Log.final.out:統(tǒng)計(jì)了比對(duì)情況的信息,是非常重要的結(jié)果;

SJ.out.tab:splice junctions的一些信息,其中需要注意的是:對(duì)于junction的位置信息,STAR則是按照intron的起始和終止位置來定,而其他的一些軟件則是按照exon的位置來決定的

?

附:我比較了一下starHisat2的結(jié)果差異,在運(yùn)行時(shí)間和比對(duì)率上,star并沒有表現(xiàn)出明顯的優(yōu)越性上。

參考:

https://blog.csdn.net/weixin_28913137/article/details/112281831


本文使用 文章同步助手 同步


轉(zhuǎn)錄組比對(duì)軟件STAR安裝及使用的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
巨鹿县| 庄河市| 津南区| 蒲城县| 彭阳县| 资阳市| 永康市| 麻栗坡县| 荔浦县| 和龙市| 密山市| 江永县| 苏尼特左旗| 元氏县| 德兴市| 白水县| 长阳| 颍上县| 林周县| 镇巴县| 营口市| 大冶市| 新兴县| 阿鲁科尔沁旗| 西吉县| 闽清县| 永嘉县| 黑河市| 南木林县| 崇左市| 沽源县| 苍溪县| 石门县| 霍邱县| 安康市| 卢湾区| 泽库县| 屯昌县| 镶黄旗| 芮城县| 恩施市|