轉(zhuǎn)錄組分析<三>之Stringtie不完全使用指南

通過前兩篇推文(詳細(xì)內(nèi)容可以點擊推文1和推文2),用戶使用hisat2軟件完成了測序文件的比對,并得到每個樣本的比對結(jié)果。那么,接下來我們需要做的就是整合所有樣品的定量結(jié)果,從而進(jìn)行下一步的分析。這也引入我們今天的主題:Stringtie。
一 輸入文件的預(yù)處理
針對hisat2產(chǎn)生的sam文件如alns.sam,需要首先通過以下命令完成文件內(nèi)排序,從而生成輸出文件alnst.sorted.bam
在使用minimap2的-ax splice選項對長RNA-seq讀數(shù)進(jìn)行比對的情況下,不需要XS標(biāo)簽;當(dāng)CRAM文件被用作輸入時,參考基因組序列建議可以用--ref(-cram-ref)選項提供(多染色體序列組成的多FASTA文件),從而使得RNA-seq的read可以與之對齊。
二?運行StringTie
默認(rèn)用法的通用命令行有如下格式:。
<read_alignments.bam>:必須是一個SAM、BAM或CRAM文件,其中包含按基因組位置排序的RNA-Seq讀數(shù)排列(HISAT2使用samtools分類和轉(zhuǎn)換后的輸出,如下文所述)。
-o<output.gtf>:?主要的輸出是一個GTF文件,其中包含由StringTie從讀數(shù)排列數(shù)據(jù)中組裝的轉(zhuǎn)錄本的結(jié)構(gòu)定義。
注意:如果使用了--mix選項,StringTie希望兩個對齊文件作為位置參數(shù),以特定的順序給出:短讀對齊文件必須是第一個給出的文件,而長讀對齊文件必須是第二個輸入文件。兩個對齊文件必須按基因組位置排序。另外,StringTie中的命令行分析器允許任意的順序,所以第一行命令與第二行命令效果相同
接下來,我們將注意介紹StringTie 的other_options選項
--version: 打印版本并退出。
-L: 長讀處理模式;同時強制執(zhí)行-s1.5 -g 0(默認(rèn):false)。
--mix: 混合讀處理模式;短讀和長讀的數(shù)據(jù)排列都需要指定(長讀排列必須作為第二個BAM/CRAM輸入文件給出)
-e: 這個選項指示StringTie在表達(dá)估計模式下操作(因此這個選項需要-G)。
-v: 打開粗略模式,打印捆綁處理的細(xì)節(jié)。
-o [<path/>]<out.gtf>: 設(shè)置輸出GTF文件的名稱,StringTie將在該文件中寫入組裝的轉(zhuǎn)錄本。
-p <int>: 指定處理線程(CPU)的數(shù)量,默認(rèn)是1。
-G <ref_ann.gff>: 使用一個參考注釋文件(GTF或GFF3格式)來指導(dǎo)組裝過程,結(jié)果會包含新轉(zhuǎn)錄本(-B、-b、-e、-C均需要開啟選項)。
--rf: 假設(shè)是一個鏈特異性文庫fr-firststrand。
--fr: 假設(shè)是一個鏈特異性文庫fr-secondstrand。
--ptf<f_tab>: 從文本特征文件<f_tab>加載點特征列表,以指導(dǎo)轉(zhuǎn)錄組的組裝。
-l<label>: 將<label>設(shè)置為輸出轉(zhuǎn)錄本名稱的前綴。默認(rèn)值:STRG。
-f<0.0-1.0>: 將預(yù)測轉(zhuǎn)錄本的最小異構(gòu)體豐度設(shè)置為在給定位點組裝的最豐富轉(zhuǎn)錄本的一部分,因為低豐度轉(zhuǎn)錄本通常是加工轉(zhuǎn)錄本的不完全拼接前體的產(chǎn)物。默認(rèn)值:0.01
-m <int>: 設(shè)置預(yù)測的轉(zhuǎn)錄本所允許的最小長度。默認(rèn)值:200
-A <gene_abund.tab>: 基因豐度將在給定名稱的輸出文件中報告(以制表符分隔的格式)。
-C <cov_refs.gtf>: StringTie輸出一個給定名稱的文件,其中包括提供的參考文件中所有被讀數(shù)完全覆蓋的轉(zhuǎn)錄本(需要-G)。
-a <int>: 沒有拼接的讀數(shù)與之對齊,且兩邊至少有這個數(shù)量的堿基的連接點將被過濾掉。默認(rèn)值:10
-j <float>:至少應(yīng)該有這么多拼接好的讀數(shù)與結(jié)點對齊(即結(jié)點覆蓋率)。計算方法為一個在n個地方對齊的讀數(shù)將對交界處的覆蓋率貢獻(xiàn)1/n。默認(rèn)值:1
-t: 默認(rèn)情況下,StringTie會根據(jù)組裝好的轉(zhuǎn)錄本覆蓋率的突然下降來調(diào)整預(yù)測的轉(zhuǎn)錄本的起始和/或終止坐標(biāo)(本參數(shù)設(shè)定后會禁止該選項)。
-c <float>: 設(shè)置預(yù)測的轉(zhuǎn)錄本允許的最小讀數(shù)覆蓋率。覆蓋率低于此值的轉(zhuǎn)錄本不會顯示在輸出中。默認(rèn)值:1
-s <float>: 設(shè)置單外顯子轉(zhuǎn)錄本允許的最小讀覆蓋率。默認(rèn)值:4.75
--conservative: 以保守模式組裝轉(zhuǎn)錄本。與-t-c 1.5 -f 0.05相同。
-g <int>: 最小基因座間隙分離值。比這個距離更近的映射的讀數(shù)會在同一個處理束中合并在一起。默認(rèn)值:50(bp)
-B: 這個開關(guān)可以輸出Ballgown輸入表文件(*.ctab),其中包含-G選項中給出的參考抄本的覆蓋率數(shù)據(jù)。
-b <path>: 就像-B這個選項可以為Ballgown輸出*.ctab文件,但是這些文件將在提供的目錄<path>中創(chuàng)建,而不是由-o選項指定的目錄。
-M <0.0-1.0>:設(shè)置允許出現(xiàn)在給定基因座上的muliple-location-mappedreads的最大比例。默認(rèn)值:0.95。
-x <seqid_list>: 忽略指定參考序列上的所有讀數(shù)排列(從而不嘗試進(jìn)行轉(zhuǎn)錄本組裝)。
-u: 關(guān)閉多重映射校正。在默認(rèn)情況下,該校正被啟用,覆蓋率貢獻(xiàn)計算可見-j選項。
--ref/--cram-ref: 對于CRAM輸入文件,參考基因組序列可以作為一個多FASTA文件提供,在對齊讀數(shù)時使用相同的染色體序列。這個選項是可選的,但建議使用,因為StringTie可以利用一些比對/連接質(zhì)量數(shù)據(jù)(連接周圍的錯配),在CRAM文件的情況下,如果同時提供參考基因組序列,可以更準(zhǔn)確地評估。
--merge: 轉(zhuǎn)錄合并模式。與上述的組裝使用模式不同,在合并模式下,StringTie將GTF/GFF文件的列表作為輸入,并將這些轉(zhuǎn)錄本合并/組裝成一個非冗余的轉(zhuǎn)錄本集,并被用于新的差異分析流程。
如果提供了-G選項(參考注釋),StringTie將把輸入的GTF文件中的轉(zhuǎn)錄物與參考轉(zhuǎn)錄物組合起來。而在這種模式下可以使用以下附加選項。
? ? -G<guide_gff>:?合并中包含的參考注釋(GTF/GFF3)
? ??-o<outgtf>:?合并成績單gtf的輸出文件名(默認(rèn)值:stdout)
? ??-m<min\u len>: 合并中包含的最小輸入轉(zhuǎn)錄本長度(默認(rèn)值:50)
? ??-c<min_cov>: 合并中要包含的最小輸入成績單覆蓋率(默認(rèn)值:0)
? ??-F<min_fpkm>: 合并中包含的最小輸入成績單fpkm(默認(rèn)值:0)
? ??-T<min\u tpm>: 要包含在合并中的最小輸入成績單tpm(默認(rèn)值:0)
? ??-f<min_iso>: 最小異構(gòu)體分?jǐn)?shù)(默認(rèn)值:0.01)
? ??-i: 保留保留保留內(nèi)含子的合并成績單(默認(rèn):除非有強有力的證據(jù),否則不會保留)
-l <label>: 輸出轉(zhuǎn)錄本的名稱前綴(默認(rèn)值:MSTRG)
三?重點參數(shù)的額外解析
參考注釋轉(zhuǎn)錄本(-G)
可以用-G選項向StringTie提供GTF或GFF3格式的參考注釋文件,它可以作為組裝過程的 "指南",并幫助改善這些轉(zhuǎn)錄本的結(jié)構(gòu)恢復(fù)(強烈建議使用)。而因為有參考基因組,那么不在原基因組中的文轉(zhuǎn)錄本就將被視為新轉(zhuǎn)錄本。
表達(dá)估計模式(-e)
當(dāng)使用-e選項時,參考注釋文件-G是一個必要的輸入,StringTie不會嘗試組裝輸入的讀排列,而是只估計-G文件中提供的 "參考 "轉(zhuǎn)錄本的表達(dá)水平(沒有新的轉(zhuǎn)錄本產(chǎn)生)。并且,任何與參考轉(zhuǎn)錄本重疊的reads比對信息將被忽略。對于速度而言,可能會提供一個相當(dāng)大的速度提升。
本公眾號開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。
簡書:WJ的生信小院
公眾號:生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機會;5:博導(dǎo)提供博后工作或者博士攻讀機會,都可以后臺給筆者留言。希望本平臺在進(jìn)行生信知識分享的同時,能夠成為生信分析者的交流平臺,能夠?qū)崿F(xiàn)相應(yīng)的利益互補和雙贏(不一定能實現(xiàn),但是夢想總得是有的吧)。
另外,怎么說呢,投幣也可,不強求,但奢求。


