轉(zhuǎn)錄組建庫起始量及不同建庫試劑盒的系統(tǒng)比較
前言
隨著二代測序技術(shù)的發(fā)展,轉(zhuǎn)錄組測序的應(yīng)用越來越廣泛。RNA seq是一個開放的平臺,因為它不依賴基因組注釋或預(yù)先定義的物種特異性探針進行轉(zhuǎn)錄檢測,因此允許檢測已知和新的轉(zhuǎn)錄本,包括突變體和稀有轉(zhuǎn)錄本以及基因的融合及可變剪切等信息。
隨著技術(shù)的成熟,RNA-seq技術(shù)正越來越多地用于臨床應(yīng)用。例如,最近的乳腺癌指南支持使用基于mRNA測序結(jié)果的預(yù)后分析結(jié)合其他臨床病理因素一起協(xié)助治療。這些分析還可以提供一系列人類疾病如發(fā)育障礙,神經(jīng)退行性疾病和癌癥等相關(guān)的由可變剪切或結(jié)構(gòu)變異導(dǎo)致的轉(zhuǎn)錄本變化。因此,RNA-seq很可能在不久的將來從一種發(fā)現(xiàn)工具過渡到一種具有臨床應(yīng)用價值的診斷工具,如患者分層、診斷和個性化治療。
但是由于多種因素的影響,生產(chǎn)高質(zhì)量的文庫和數(shù)據(jù)就成為一項具有挑戰(zhàn)性的任務(wù)。例如實驗過程中rRNA的去除,F(xiàn)FPE樣本抽提的RNA質(zhì)量較差,流式分選細(xì)胞和少量組織的RNA量很低等因素都會影響后續(xù)的實驗結(jié)果。當(dāng)使用上述樣本進行建庫時,生產(chǎn)高質(zhì)量的RNA-seq文庫和高質(zhì)量測序結(jié)果會存在一定的困難。
本文系統(tǒng)比較了三種RNA建庫試劑盒(TruSeq,SMARTer和Ultra-Low SMARTer)及不同的RNA起始量的建庫及測序情況,并做了系統(tǒng)的比較。
表1?|?三種試劑盒比較
PC:PCR循環(huán)數(shù)。對于超低量RNA建庫試劑盒,第一位數(shù)字是LD-PCR(第一步)的循環(huán)數(shù),第二位數(shù)字是PCR(第二步)的循環(huán)數(shù)。
所使用的RNA為人RNA,
A組:Human Universal Reference Total RNA;
B組:RNA from a pool of normal human brain tissues;
C組:=75% A+25% B;
D組:=25% A+75% B。
實驗結(jié)果
數(shù)據(jù)質(zhì)量
(1)數(shù)據(jù)產(chǎn)出
圖1?| 各個文庫的數(shù)據(jù)產(chǎn)出
從上圖可知,在預(yù)期數(shù)據(jù)產(chǎn)出一致的情況下,RiboZ_sstotSmarter _10ng的數(shù)據(jù)產(chǎn)出是最少的。其次是RiboZ_sstotSmarter_100ng,其它幾種文庫的數(shù)據(jù)產(chǎn)出數(shù)據(jù)差異不大。
(2)基因組比對率
圖2 | 基因組比對率
從上圖可知無論使用多少RNA起始實驗,sstotSmarter建庫的基因組比對率普遍偏低。其它幾種文庫的基因組比對率都很高。
(3)dup率
圖3 | 文庫dup率
從圖3可知,dup率最高的是RiboZ_sstotSmarter_10ng的文庫,其dup值高達90%多,其次是RiboZ_sstotSmarter_10ng,平均dup值在60%以上。
(4)文庫插入片段長度
圖4 |?文庫插入片段長度
從圖4可知,文庫片段插入長度在各個試劑盒間差異不大
(5)檢測到的元件比例
圖5?|?檢測到的元件比例
從圖5可知,不同的方法所建的文庫檢測到的基因間區(qū)、外顯子區(qū)和內(nèi)含子區(qū)的占比并不一致。其中mRNA建庫方法檢測到的外顯子區(qū)比例遠高于全轉(zhuǎn)錄組的方式。全轉(zhuǎn)錄組由于建庫方式的影響,在測序數(shù)據(jù)中會有較高的基因間區(qū)和內(nèi)含子區(qū)的比例。
基因檢出數(shù)
圖6?| 檢出基因數(shù)
對不同組的數(shù)據(jù)截取不同的數(shù)據(jù)量進行分析,發(fā)現(xiàn)不同的建庫方式對基因檢出的數(shù)量影響相對小,而測序深度明顯影響了基因檢出的數(shù)量。
圖7 | 不同類型基因檢出比例
通過圖7可知,兩種建庫方式檢出最多的都是蛋白編碼區(qū),其中全轉(zhuǎn)建庫的非編碼RNA的占比高于mRNA的建庫方式。隨著數(shù)據(jù)量的增加,在mRNA測序中,非編碼RNA的檢出占比有所升高,在兩種建庫方式中,假基因的檢出占比較為恒定。由于A圖是1μg起始,B圖是100ng起始,從以上結(jié)果可知,RNA的起始量對各類RNA的檢出影響不大。
基因覆蓋區(qū)
圖8 | 基因覆蓋
隨機取1000個基因進行g(shù)ene body覆蓋情況統(tǒng)計發(fā)現(xiàn),1μg總RNA起始的mRNA建庫數(shù)據(jù)出現(xiàn)了明顯的3‘偏好,這是由polyA富集方式導(dǎo)致的。鏈特異性的全轉(zhuǎn)建庫數(shù)據(jù)則不會出現(xiàn)明顯的3’偏好。對于低起始量(100ng and 10ng)的建庫方式中,覆蓋范圍更加隨機。
差異基因檢出數(shù)
圖9 | 差異基因檢出數(shù)
A和B兩組樣本分別使用不同的建庫試劑盒進行建庫并測序,分析數(shù)據(jù)結(jié)果發(fā)現(xiàn)在A樣本和B樣本之間的差異基因隨著測序深度的增加而增加,例如當(dāng)隨機抽取2X2M數(shù)據(jù)時,差異基因數(shù)有11059個,當(dāng)數(shù)據(jù)增加到2X15M時,差異基因數(shù)量最多可達到17855個。所有建庫方式中,只有RiboZ_sstotSmarter_10ng建庫方式在增加數(shù)據(jù)量的情況下其差異基因不隨之增加。RNA起始量的減少,在使用TruSeq建庫方案時并不會引起明顯的差異基因檢出的下降,而Smarter建庫的差異基因檢出明顯少于TruSeq的建庫方案。
表2 差異基因檢出數(shù)
表2中Set1是mRNATruseq_1ug建庫方式A組和B組的差異基因個數(shù)為16983個,以這個差異列表為標(biāo)準(zhǔn),將其他建庫方式的A和B組的差異基因與對照的差異基因進行比對發(fā)現(xiàn),mRNATruseq_1μg的數(shù)據(jù)結(jié)果和ssmRNAseq_1μg的差異結(jié)果重疊是最高的,達到91%,和ssmRNATruseq_100ng的差異結(jié)果重疊僅次于1μg起始,為89%。而通過去核糖體RNA方式建庫(ssTotalRNATruseq_1μg和ssTotalRNATruseq_100ng)的數(shù)據(jù)結(jié)果則與對照差異基因的重疊分別為79%和84%,值得一提的是ssTotalRNATruseq_100ng建庫結(jié)果和對照的差異基因的重疊高于1μg起始的數(shù)據(jù)結(jié)果。更換建庫方式后的差異基因重疊則比較少,尤其RiboZ_ssTOtalSmarter_10ng,和對照只有26%的重疊了。
不同建庫方法的結(jié)果聚類
圖10 不同建庫方法的聚類結(jié)果展示
圖10 展示了本文的四個樣本A、B、C和D采用不同建庫方案的聚類結(jié)果。其中A組:Human Universal Reference Total RNA;B:RNA from a pool of normal human brain tissues;: C=75% A+25% B;D=25% A+75% B。從上圖可見,建庫方式和樣本起始量對結(jié)果聚類雖然都有影響,但是樣本的分組還是由RNA表達特點決定:AC組和BD組。這說明這兩組RNA的數(shù)據(jù)確實存在較大差異。在兩個小組內(nèi)部,不同的建庫方式再各自進行分組。這說明不同的建庫方式對數(shù)據(jù)有直接影響。即使是不同的去rRNA的試劑盒也會影響樣本的分組。
結(jié)論
綜合全文結(jié)果來看:不同的RNA起始量,不同的試劑盒對數(shù)據(jù)結(jié)果都會有影響,影響程度大小不一。在設(shè)計課題時,仔細(xì)根據(jù)自己的實驗?zāi)康倪x擇合適的實驗方法,而且同一個項目的實驗流程保持一致也是獲得可靠結(jié)果的重要因素。
歡迎百度搜索歐易生物——訪問歐易生物官網(wǎng)——了解轉(zhuǎn)錄組測序技術(shù)
猜你想看
1、干貨 | 微生物組新技術(shù)2bRAD-M之樣本準(zhǔn)備
2、干貨 | 單細(xì)胞測序送樣指南
3、干貨來襲 | 輕松搞定多數(shù)據(jù)集間細(xì)胞通訊比較
4、干貨分享 | 淺談基因組Survey
End本文系歐易生物原創(chuàng)