最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

轉錄組定量工具-featureCounts安裝及使用

2022-04-28 16:45 作者:笨笨熊愛吃肉  | 我要投稿

? 計算表達量可以用 StringTieHtseq-countfeatureCount ,第一次做轉錄組分析時,參照了一篇Cell的子刊文章的分析方法,里面使用的STAR+featureCount,就直接用了這個軟件,也就沒再使用別的,回頭看第一次使用時,發(fā)現(xiàn)好多細節(jié)沒有注意到,溫故而知新。featureCountsubread軟件包里的一個命令,所以安裝subread即可。而subread又有命令行版和R版,有服務器,自然選擇命令行版了。

featureCounts,有兩個核心概念:

?????? Feature: 指的是基因組區(qū)間的最小單位,比如exon;

?????? Metafeature: 可以看做是許多的feature構成的區(qū)間,比如屬于同一個gene的外顯子的組合。

?????? 在定量的時候,支持對單個feature 定量(對外顯子定量), 也支持對meta-feature進行定量(對基因進行定量)。當reads比對到2個或者以上的features 時,默認情況下,featureCounts在統(tǒng)計時會忽略到這部分reads, 如果你想要統(tǒng)計上這部分reads,可以添加-O 參數(shù),此時一條reads 比對到多個feature,每個feature 定量時,都會加1。對于meta-features來說,如果比對到多個features 屬于同一個 meta-features(比如一條reads比對到了exon, 但這些exon屬于同一個gene), 則對于這個gene 而言,只會計數(shù)1次。總之,不管對于feature 還是meta-feature,只有比對多個不同的區(qū)間時,才會分別計數(shù)。

一、軟件下載及安裝:

??首先是官方網(wǎng)站

? ? ? ? https://sourceforge.net/projects/subread/

? ? ? ? http://subread.sourceforge.net

下載subread-2.0.3-Linux-x86_64.tar.gz壓縮文件,tar -zxvf進行解壓,進入bin/目錄,目錄下featureCounts就可直接運行,簡直不能再友好了

圖片

二、參數(shù)說明:

圖片

-a 指定注釋文件

-o 指定結果輸出目錄及文件名

-p 能用在paired-end的情況中,會統(tǒng)計fragment而不統(tǒng)計read

-t 指定feature的類型,默認是exon,當然gtf里面還有geneCDS或者直接以feature命名的分類方式。

其它參數(shù):

圖片

?-f參數(shù) ?該參數(shù)設置后統(tǒng)計的是feature層面(默認是exon)的參數(shù),如果不設置則是直接統(tǒng)計meta-feature參數(shù)(即一個gene中的多個exon

第一種:一開始我沒有設置-f 參數(shù),只是這樣設置-t exon, 結果如下圖:

圖片

這時按exon分類進行統(tǒng)計,但是由于沒有設置-f,在同一個gene內(nèi)的exon會被統(tǒng)計成一個meta-feature,但是每個exon仍然會被顯示出來,遇到一個gene有多個exon的時候看著就很亂。

第二種:然后我加上-f,這樣設置-t exon -f , 看一下結果:

圖片

??這種設置將一個基因的每個exon單獨列出,wc-l后有76749行內(nèi)容。

第三種:再設置 -t gene -f,wc -l 后有25654行內(nèi)容,如下圖:

圖片

???我現(xiàn)在還不確定-f參數(shù)-t參數(shù)對后面差異表達會不會有影響,初步判斷不會的,但我注意到,-t gene -f設置后,count計數(shù)基于gene 層面,就不會出現(xiàn)相同基因的不同外顯子count值,也就是第一列不會出現(xiàn)重復,并且可以直接得到基因信息,避免了注釋、刪除重復這個過程,我們做轉錄組測序,不就是想看基因水平的變化嗎,我覺得這是很好的一個參數(shù)設置,不知道為什么網(wǎng)上一堆的帖子都沒有這樣設置,官網(wǎng)上示例也只是-t exon。希望未來有人和我討論一下這個問題。

最終:我基于自己的理解,加上-t gene -f參數(shù)了

三、結果

1、運行過程情況:

圖片

Successfully assignedalignments: 14212190 (32.7%), 說明只有32.7paired reads 定量到了基因上,如果想知道那些沒有分配上的reads是出于什么原因,則可看下圖,輸出中的summary文件。

圖片

? ? ?Unmapped: 沒有比對上; ????

?????MultiMapping:多個序列比對在有限的序列區(qū)域上,即參考組上有多個匹配點;?

? ? ?NoFeatures: 其比對與任何基因都不重疊;?

? ? ?ambiguous: 其比對與多個基因重疊。

2. 合并不同樣本的count文件:

? ? ? ? join count1.txt count2.txt > count_12.txt

? ? ? ??或者先提取出來每個樣本的第一列和第七列信息,再通過join合并

? ? ? ? cut -f 1,7 count1.txt | grep -v ‘^#’ >count1_cut.txt

這樣就能得到所有的樣本的Count矩陣了。

總結:使用這個工具時要根據(jù)不同的項目,不同的目的,參數(shù)也要進行適當?shù)恼{(diào)整,尤其是模式生物和非模式生物研究時,一定要想想?yún)?shù)設置合適不合適,我不認為寫好了一個流程,就可以用來做所有課題的轉錄組分析了。這也是自己會和交給公司來做最大的好處了,自己的課題,只有自己才能對數(shù)據(jù)結果負責。

附:

STAR有一個參數(shù)-quantMode,可以指定--quantMode GeneCounts輸出STAR計算出的reads計數(shù)結果,如果是比對完之后未做轉錄本拼裝,直接對已知基因(構建基因組索引時GTF中囊括的基因)進行定量時,完全不需要再次用featureCountsHTSeq再計算reads count。以后試試。

?

參考:

https://www.jianshu.com/p/9cc4e8657d62

http://www.360doc.com/content/21/0714/12/76149697_986499746.shtml

https://pubmed.ncbi.nlm.nih.gov/24227677/

http://subread.sourceforge.net/featureCounts.html

http://subread.sourceforge.net/RNAseqCaseStudy.html


本文使用 文章同步助手 同步


轉錄組定量工具-featureCounts安裝及使用的評論 (共 條)

分享到微博請遵守國家法律
清流县| 托克逊县| 岳普湖县| 伊春市| 尤溪县| 伊通| 庆阳市| 漠河县| 台中市| 积石山| 邵阳县| 阳东县| 昆明市| 裕民县| 沁水县| 潮安县| 温宿县| 威海市| 大姚县| 乃东县| 千阳县| 合山市| 布尔津县| 棋牌| 富蕴县| 家居| 宝清县| 荃湾区| 饶平县| 礼泉县| 南澳县| 合山市| 武城县| 保亭| 鲁甸县| 临清市| 乡宁县| 贺州市| 四子王旗| 金溪县| 玉林市|