散文網(wǎng) » 科技 »自然 » 轉(zhuǎn)錄組分析<三>之Stringtie不完全使用指南

轉(zhuǎn)錄組分析<三>之Stringtie不完全使用指南

2022-11-24 12:41 作者:生信小院 0人讀過 | 我要投稿

通過前兩篇推文（詳細(xì)內(nèi)容可以點擊推文1和推文2），用戶使用hisat2軟件完成了測序文件的比對，并得到每個樣本的比對結(jié)果。那么，接下來我們需要做的就是整合所有樣品的定量結(jié)果，從而進(jìn)行下一步的分析。這也引入我們今天的主題：Stringtie。

一輸入文件的預(yù)處理

針對hisat2產(chǎn)生的sam文件如alns.sam，需要首先通過以下命令完成文件內(nèi)排序，從而生成輸出文件alnst.sorted.bam

在使用minimap2的-ax splice選項對長RNA-seq讀數(shù)進(jìn)行比對的情況下，不需要XS標(biāo)簽；當(dāng)CRAM文件被用作輸入時，參考基因組序列建議可以用--ref（-cram-ref）選項提供（多染色體序列組成的多FASTA文件），從而使得RNA-seq的read可以與之對齊。

二?運行StringTie

默認(rèn)用法的通用命令行有如下格式：。

<read_alignments.bam>:必須是一個SAM、BAM或CRAM文件，其中包含按基因組位置排序的RNA-Seq讀數(shù)排列（HISAT2使用samtools分類和轉(zhuǎn)換后的輸出，如下文所述）。

-o<output.gtf>:?主要的輸出是一個GTF文件，其中包含由StringTie從讀數(shù)排列數(shù)據(jù)中組裝的轉(zhuǎn)錄本的結(jié)構(gòu)定義。

注意：如果使用了--mix選項，StringTie希望兩個對齊文件作為位置參數(shù)，以特定的順序給出：短讀對齊文件必須是第一個給出的文件，而長讀對齊文件必須是第二個輸入文件。兩個對齊文件必須按基因組位置排序。另外，StringTie中的命令行分析器允許任意的順序，所以第一行命令與第二行命令效果相同

接下來，我們將注意介紹StringTie 的other_options選項

--version: 打印版本并退出。

-L: 長讀處理模式；同時強制執(zhí)行-s1.5 -g 0（默認(rèn)：false）。

--mix: 混合讀處理模式；短讀和長讀的數(shù)據(jù)排列都需要指定（長讀排列必須作為第二個BAM/CRAM輸入文件給出）

-e: 這個選項指示StringTie在表達(dá)估計模式下操作（因此這個選項需要-G）。

-v: 打開粗略模式，打印捆綁處理的細(xì)節(jié)。

-o [<path/>]<out.gtf>: 設(shè)置輸出GTF文件的名稱，StringTie將在該文件中寫入組裝的轉(zhuǎn)錄本。

-p <int>: 指定處理線程（CPU）的數(shù)量，默認(rèn)是1。

-G <ref_ann.gff>: 使用一個參考注釋文件（GTF或GFF3格式）來指導(dǎo)組裝過程，結(jié)果會包含新轉(zhuǎn)錄本（-B、-b、-e、-C均需要開啟選項）。

--rf: 假設(shè)是一個鏈特異性文庫fr-firststrand。

--fr: 假設(shè)是一個鏈特異性文庫fr-secondstrand。

--ptf<f_tab>: 從文本特征文件<f_tab>加載點特征列表，以指導(dǎo)轉(zhuǎn)錄組的組裝。

-l<label>: 將<label>設(shè)置為輸出轉(zhuǎn)錄本名稱的前綴。默認(rèn)值：STRG。

-f<0.0-1.0>: 將預(yù)測轉(zhuǎn)錄本的最小異構(gòu)體豐度設(shè)置為在給定位點組裝的最豐富轉(zhuǎn)錄本的一部分，因為低豐度轉(zhuǎn)錄本通常是加工轉(zhuǎn)錄本的不完全拼接前體的產(chǎn)物。默認(rèn)值：0.01

-m <int>: 設(shè)置預(yù)測的轉(zhuǎn)錄本所允許的最小長度。默認(rèn)值：200

-A <gene_abund.tab>: 基因豐度將在給定名稱的輸出文件中報告（以制表符分隔的格式）。

-C <cov_refs.gtf>: StringTie輸出一個給定名稱的文件，其中包括提供的參考文件中所有被讀數(shù)完全覆蓋的轉(zhuǎn)錄本（需要-G）。

-a <int>: 沒有拼接的讀數(shù)與之對齊，且兩邊至少有這個數(shù)量的堿基的連接點將被過濾掉。默認(rèn)值：10

-j <float>:至少應(yīng)該有這么多拼接好的讀數(shù)與結(jié)點對齊（即結(jié)點覆蓋率）。計算方法為一個在n個地方對齊的讀數(shù)將對交界處的覆蓋率貢獻(xiàn)1/n。默認(rèn)值：1

-t: 默認(rèn)情況下，StringTie會根據(jù)組裝好的轉(zhuǎn)錄本覆蓋率的突然下降來調(diào)整預(yù)測的轉(zhuǎn)錄本的起始和/或終止坐標(biāo)（本參數(shù)設(shè)定后會禁止該選項）。

-c <float>: 設(shè)置預(yù)測的轉(zhuǎn)錄本允許的最小讀數(shù)覆蓋率。覆蓋率低于此值的轉(zhuǎn)錄本不會顯示在輸出中。默認(rèn)值：1

-s <float>: 設(shè)置單外顯子轉(zhuǎn)錄本允許的最小讀覆蓋率。默認(rèn)值：4.75

--conservative: 以保守模式組裝轉(zhuǎn)錄本。與-t-c 1.5 -f 0.05相同。

-g <int>: 最小基因座間隙分離值。比這個距離更近的映射的讀數(shù)會在同一個處理束中合并在一起。默認(rèn)值：50（bp）

-B: 這個開關(guān)可以輸出Ballgown輸入表文件（*.ctab），其中包含-G選項中給出的參考抄本的覆蓋率數(shù)據(jù)。

-b <path>: 就像-B這個選項可以為Ballgown輸出*.ctab文件，但是這些文件將在提供的目錄<path>中創(chuàng)建，而不是由-o選項指定的目錄。

-M <0.0-1.0>:設(shè)置允許出現(xiàn)在給定基因座上的muliple-location-mappedreads的最大比例。默認(rèn)值：0.95。

-x <seqid_list>: 忽略指定參考序列上的所有讀數(shù)排列（從而不嘗試進(jìn)行轉(zhuǎn)錄本組裝）。

-u: 關(guān)閉多重映射校正。在默認(rèn)情況下，該校正被啟用，覆蓋率貢獻(xiàn)計算可見-j選項。

--ref/--cram-ref: 對于CRAM輸入文件，參考基因組序列可以作為一個多FASTA文件提供，在對齊讀數(shù)時使用相同的染色體序列。這個選項是可選的，但建議使用，因為StringTie可以利用一些比對/連接質(zhì)量數(shù)據(jù)（連接周圍的錯配），在CRAM文件的情況下，如果同時提供參考基因組序列，可以更準(zhǔn)確地評估。

--merge: 轉(zhuǎn)錄合并模式。與上述的組裝使用模式不同，在合并模式下，StringTie將GTF/GFF文件的列表作為輸入，并將這些轉(zhuǎn)錄本合并/組裝成一個非冗余的轉(zhuǎn)錄本集，并被用于新的差異分析流程。

如果提供了-G選項（參考注釋），StringTie將把輸入的GTF文件中的轉(zhuǎn)錄物與參考轉(zhuǎn)錄物組合起來。而在這種模式下可以使用以下附加選項。

? ? -G<guide_gff>:?合并中包含的參考注釋（GTF/GFF3）

? ??-o<outgtf>:?合并成績單gtf的輸出文件名（默認(rèn)值：stdout）

? ??-m<min\u len>: 合并中包含的最小輸入轉(zhuǎn)錄本長度（默認(rèn)值：50）

? ??-c<min_cov>: 合并中要包含的最小輸入成績單覆蓋率（默認(rèn)值：0）

? ??-F<min_fpkm>: 合并中包含的最小輸入成績單fpkm（默認(rèn)值：0）

? ??-T<min\u tpm>: 要包含在合并中的最小輸入成績單tpm（默認(rèn)值：0）

? ??-f<min_iso>: 最小異構(gòu)體分?jǐn)?shù)（默認(rèn)值：0.01）

? ??-i: 保留保留保留內(nèi)含子的合并成績單（默認(rèn)：除非有強有力的證據(jù)，否則不會保留）

-l <label>: 輸出轉(zhuǎn)錄本的名稱前綴（默認(rèn)值：MSTRG）

三?重點參數(shù)的額外解析

參考注釋轉(zhuǎn)錄本（-G）

可以用-G選項向StringTie提供GTF或GFF3格式的參考注釋文件，它可以作為組裝過程的 "指南"，并幫助改善這些轉(zhuǎn)錄本的結(jié)構(gòu)恢復(fù)（強烈建議使用）。而因為有參考基因組，那么不在原基因組中的文轉(zhuǎn)錄本就將被視為新轉(zhuǎn)錄本。

表達(dá)估計模式（-e）

當(dāng)使用-e選項時，參考注釋文件-G是一個必要的輸入，StringTie不會嘗試組裝輸入的讀排列，而是只估計-G文件中提供的 "參考 "轉(zhuǎn)錄本的表達(dá)水平（沒有新的轉(zhuǎn)錄本產(chǎn)生）。并且，任何與參考轉(zhuǎn)錄本重疊的reads比對信息將被忽略。對于速度而言，可能會提供一個相當(dāng)大的速度提升。

本公眾號開發(fā)的相關(guān)軟件，Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶，也歡迎大家關(guān)注并多提意見。

簡書：WJ的生信小院

公眾號：生信小院

博客園：生信小院

最后，也歡迎各位大佬能夠在本平臺上：1傳播和講解自己發(fā)表的論文；2：發(fā)表對某一科研領(lǐng)域的看法；3：想要達(dá)成的合作或者相應(yīng)的招聘信息；4：展示自己以尋找博后工作或者博士就讀的機會;5:博導(dǎo)提供博后工作或者博士攻讀機會，都可以后臺給筆者留言。希望本平臺在進(jìn)行生信知識分享的同時，能夠成為生信分析者的交流平臺，能夠?qū)崿F(xiàn)相應(yīng)的利益互補和雙贏（不一定能實現(xiàn)，但是夢想總得是有的吧）。

另外，怎么說呢，投幣也可，不強求，但奢求。