之Stringtie不完全使用指南,"> 之Stringtie不完全使用指南。">

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

轉(zhuǎn)錄組分析<三>之Stringtie不完全使用指南

2022-11-24 12:41 作者:生信小院  | 我要投稿


通過前兩篇推文(詳細(xì)內(nèi)容可以點擊推文1和推文2),用戶使用hisat2軟件完成了測序文件的比對,并得到每個樣本的比對結(jié)果。那么,接下來我們需要做的就是整合所有樣品的定量結(jié)果,從而進(jìn)行下一步的分析。這也引入我們今天的主題:Stringtie。

一 輸入文件的預(yù)處理

針對hisat2產(chǎn)生的sam文件如alns.sam,需要首先通過以下命令完成文件內(nèi)排序,從而生成輸出文件alnst.sorted.bam

在使用minimap2的-ax splice選項對長RNA-seq讀數(shù)進(jìn)行比對的情況下,不需要XS標(biāo)簽;當(dāng)CRAM文件被用作輸入時,參考基因組序列建議可以用--ref(-cram-ref)選項提供(多染色體序列組成的多FASTA文件),從而使得RNA-seq的read可以與之對齊。

二?運行StringTie

默認(rèn)用法的通用命令行有如下格式:。

<read_alignments.bam>:必須是一個SAM、BAM或CRAM文件,其中包含按基因組位置排序的RNA-Seq讀數(shù)排列(HISAT2使用samtools分類和轉(zhuǎn)換后的輸出,如下文所述)。

-o<output.gtf>:?主要的輸出是一個GTF文件,其中包含由StringTie從讀數(shù)排列數(shù)據(jù)中組裝的轉(zhuǎn)錄本的結(jié)構(gòu)定義。

注意:如果使用了--mix選項,StringTie希望兩個對齊文件作為位置參數(shù),以特定的順序給出:短讀對齊文件必須是第一個給出的文件,而長讀對齊文件必須是第二個輸入文件。兩個對齊文件必須按基因組位置排序。另外,StringTie中的命令行分析器允許任意的順序,所以第一行命令與第二行命令效果相同

接下來,我們將注意介紹StringTie 的other_options選項

--version: 打印版本并退出。

-L: 長讀處理模式;同時強制執(zhí)行-s1.5 -g 0(默認(rèn):false)。

--mix: 混合讀處理模式;短讀和長讀的數(shù)據(jù)排列都需要指定(長讀排列必須作為第二個BAM/CRAM輸入文件給出)

-e: 這個選項指示StringTie在表達(dá)估計模式下操作(因此這個選項需要-G)。

-v: 打開粗略模式,打印捆綁處理的細(xì)節(jié)。

-o [<path/>]<out.gtf>: 設(shè)置輸出GTF文件的名稱,StringTie將在該文件中寫入組裝的轉(zhuǎn)錄本。

-p <int>: 指定處理線程(CPU)的數(shù)量,默認(rèn)是1。

-G <ref_ann.gff>: 使用一個參考注釋文件(GTF或GFF3格式)來指導(dǎo)組裝過程,結(jié)果會包含新轉(zhuǎn)錄本(-B、-b、-e、-C均需要開啟選項)。

--rf: 假設(shè)是一個鏈特異性文庫fr-firststrand。

--fr: 假設(shè)是一個鏈特異性文庫fr-secondstrand。

--ptf<f_tab>: 從文本特征文件<f_tab>加載點特征列表,以指導(dǎo)轉(zhuǎn)錄組的組裝。

-l<label>: 將<label>設(shè)置為輸出轉(zhuǎn)錄本名稱的前綴。默認(rèn)值:STRG。

-f<0.0-1.0>: 將預(yù)測轉(zhuǎn)錄本的最小異構(gòu)體豐度設(shè)置為在給定位點組裝的最豐富轉(zhuǎn)錄本的一部分,因為低豐度轉(zhuǎn)錄本通常是加工轉(zhuǎn)錄本的不完全拼接前體的產(chǎn)物。默認(rèn)值:0.01

-m <int>: 設(shè)置預(yù)測的轉(zhuǎn)錄本所允許的最小長度。默認(rèn)值:200

-A <gene_abund.tab>: 基因豐度將在給定名稱的輸出文件中報告(以制表符分隔的格式)。

-C <cov_refs.gtf>: StringTie輸出一個給定名稱的文件,其中包括提供的參考文件中所有被讀數(shù)完全覆蓋的轉(zhuǎn)錄本(需要-G)。

-a <int>: 沒有拼接的讀數(shù)與之對齊,且兩邊至少有這個數(shù)量的堿基的連接點將被過濾掉。默認(rèn)值:10

-j <float>:至少應(yīng)該有這么多拼接好的讀數(shù)與結(jié)點對齊(即結(jié)點覆蓋率)。計算方法為一個在n個地方對齊的讀數(shù)將對交界處的覆蓋率貢獻(xiàn)1/n。默認(rèn)值:1

-t: 默認(rèn)情況下,StringTie會根據(jù)組裝好的轉(zhuǎn)錄本覆蓋率的突然下降來調(diào)整預(yù)測的轉(zhuǎn)錄本的起始和/或終止坐標(biāo)(本參數(shù)設(shè)定后會禁止該選項)。

-c <float>: 設(shè)置預(yù)測的轉(zhuǎn)錄本允許的最小讀數(shù)覆蓋率。覆蓋率低于此值的轉(zhuǎn)錄本不會顯示在輸出中。默認(rèn)值:1

-s <float>: 設(shè)置單外顯子轉(zhuǎn)錄本允許的最小讀覆蓋率。默認(rèn)值:4.75

--conservative: 以保守模式組裝轉(zhuǎn)錄本。與-t-c 1.5 -f 0.05相同。

-g <int>: 最小基因座間隙分離值。比這個距離更近的映射的讀數(shù)會在同一個處理束中合并在一起。默認(rèn)值:50(bp)

-B: 這個開關(guān)可以輸出Ballgown輸入表文件(*.ctab),其中包含-G選項中給出的參考抄本的覆蓋率數(shù)據(jù)。

-b <path>: 就像-B這個選項可以為Ballgown輸出*.ctab文件,但是這些文件將在提供的目錄<path>中創(chuàng)建,而不是由-o選項指定的目錄。

-M <0.0-1.0>:設(shè)置允許出現(xiàn)在給定基因座上的muliple-location-mappedreads的最大比例。默認(rèn)值:0.95。

-x <seqid_list>: 忽略指定參考序列上的所有讀數(shù)排列(從而不嘗試進(jìn)行轉(zhuǎn)錄本組裝)。

-u: 關(guān)閉多重映射校正。在默認(rèn)情況下,該校正被啟用,覆蓋率貢獻(xiàn)計算可見-j選項。

--ref/--cram-ref: 對于CRAM輸入文件,參考基因組序列可以作為一個多FASTA文件提供,在對齊讀數(shù)時使用相同的染色體序列。這個選項是可選的,但建議使用,因為StringTie可以利用一些比對/連接質(zhì)量數(shù)據(jù)(連接周圍的錯配),在CRAM文件的情況下,如果同時提供參考基因組序列,可以更準(zhǔn)確地評估。

--merge: 轉(zhuǎn)錄合并模式。與上述的組裝使用模式不同,在合并模式下,StringTie將GTF/GFF文件的列表作為輸入,并將這些轉(zhuǎn)錄本合并/組裝成一個非冗余的轉(zhuǎn)錄本集,并被用于新的差異分析流程。

如果提供了-G選項(參考注釋),StringTie將把輸入的GTF文件中的轉(zhuǎn)錄物與參考轉(zhuǎn)錄物組合起來。而在這種模式下可以使用以下附加選項。

? ? -G<guide_gff>:?合并中包含的參考注釋(GTF/GFF3)

? ??-o<outgtf>:?合并成績單gtf的輸出文件名(默認(rèn)值:stdout)

? ??-m<min\u len>: 合并中包含的最小輸入轉(zhuǎn)錄本長度(默認(rèn)值:50)

? ??-c<min_cov>: 合并中要包含的最小輸入成績單覆蓋率(默認(rèn)值:0)

? ??-F<min_fpkm>: 合并中包含的最小輸入成績單fpkm(默認(rèn)值:0)

? ??-T<min\u tpm>: 要包含在合并中的最小輸入成績單tpm(默認(rèn)值:0)

? ??-f<min_iso>: 最小異構(gòu)體分?jǐn)?shù)(默認(rèn)值:0.01)

? ??-i: 保留保留保留內(nèi)含子的合并成績單(默認(rèn):除非有強有力的證據(jù),否則不會保留)

-l <label>: 輸出轉(zhuǎn)錄本的名稱前綴(默認(rèn)值:MSTRG)

三?重點參數(shù)的額外解析

參考注釋轉(zhuǎn)錄本(-G)

可以用-G選項向StringTie提供GTF或GFF3格式的參考注釋文件,它可以作為組裝過程的 "指南",并幫助改善這些轉(zhuǎn)錄本的結(jié)構(gòu)恢復(fù)(強烈建議使用)。而因為有參考基因組,那么不在原基因組中的文轉(zhuǎn)錄本就將被視為新轉(zhuǎn)錄本。

表達(dá)估計模式(-e)

當(dāng)使用-e選項時,參考注釋文件-G是一個必要的輸入,StringTie不會嘗試組裝輸入的讀排列,而是只估計-G文件中提供的 "參考 "轉(zhuǎn)錄本的表達(dá)水平(沒有新的轉(zhuǎn)錄本產(chǎn)生)。并且,任何與參考轉(zhuǎn)錄本重疊的reads比對信息將被忽略。對于速度而言,可能會提供一個相當(dāng)大的速度提升。

本公眾號開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。

簡書:WJ的生信小院

公眾號:生信小院

博客園:生信小院

最后,也歡迎各位大佬能夠在本平臺上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機會;5:博導(dǎo)提供博后工作或者博士攻讀機會,都可以后臺給筆者留言。希望本平臺在進(jìn)行生信知識分享的同時,能夠成為生信分析者的交流平臺,能夠?qū)崿F(xiàn)相應(yīng)的利益互補和雙贏(不一定能實現(xiàn),但是夢想總得是有的吧)。

另外,怎么說呢,投幣也可,不強求,但奢求。


轉(zhuǎn)錄組分析<三>之Stringtie不完全使用指南的評論 (共 條)

分享到微博請遵守國家法律
黑河市| 永昌县| 苗栗县| 奈曼旗| 沽源县| 大关县| 秦安县| 永胜县| 乌拉特前旗| 会东县| 怀集县| 阿克苏市| 富锦市| 稷山县| 金溪县| 广安市| 互助| 普陀区| 涿州市| 禹州市| 云浮市| 久治县| 乌拉特前旗| 自治县| 苏尼特右旗| 纳雍县| 枣阳市| 罗定市| 平和县| 柘城县| 建瓯市| 邹城市| 独山县| 靖边县| 罗源县| 安新县| 云梦县| 新民市| 大兴区| 饶平县| 兴国县|