CYCLER | 第一款用于circRNA完整isoform組裝和定量的新工具
引言.
眾所周知,circRNA是通過反向剪接位點(BSJ)的非規(guī)范剪接產生。大多數(shù)現(xiàn)有方法僅通過相應的BSJ識別circRNA,但并不能估計它們的完整序列或識別來自相同BSJ的不同選擇性剪接的環(huán)狀異構體(isoform)。
為此,來自德國醫(yī)學系統(tǒng)生物學研究所Meyer教授團隊專門開發(fā)了一個全新的工具——CYCLER,可用于識別新的和選擇性剪接的circRNA的完整序列并進行表達定量,同時可估計已知線性RNA剪接異構體的豐度,為circRNA的研究帶來了新的便利。該項成果發(fā)表在了Nucleic Acids Research(IF=16.971)?期刊上。

01.算法優(yōu)勢
(1)CYCLER和類似工具的基準測試比較
作者將CYCLER和現(xiàn)有工具進行基準測試比較,發(fā)現(xiàn)CIRI-full實現(xiàn)了高精度,但靈敏度有限,這是因為該算法僅在其假定外顯子的覆蓋范圍沒有中斷時才輸出完整的circRNA序列。CIRCexplorer2用于檢測circRNA中的可變剪接事件,并報告為與剪接事件的所有潛在組合相對應的輸出轉錄本,因此導致精度較低。組裝的靈敏度和精度對于生成一組有用的剪接異構體同樣重要。因此,作者設計了一個F分數(shù),即靈敏度和精度的調和平均值。如圖1所示,CYCLER在F分數(shù)方面明顯優(yōu)于CIRI-full和CIRCexplorer2。
CYCLER的優(yōu)勢之一是它在插入片段大小或RNA-seq輸入文庫的讀取長度方面沒有任何隱含或明確的限制。此外,與其他工具相比,CYCLER中基因組特征的量化也不像其他工具那樣強烈依賴于高測序深度,因為這種方法僅依賴于junction reads的量化。因此,CYCLER可以利用整個RNA-seq文庫進行轉錄本組裝,而不僅僅是恰好跨越剪接位點的大約20%的reads的一小部分。
第二個顯著優(yōu)勢是CYCLER能夠利用BSJ識別工具的組合。CYCLER的主要優(yōu)勢是裝配算法,但也不能完全歸功于算法。性能上的差異很大程度上歸因于CYCLER更好的基因組特征選擇,這有助于減少錯誤重建的數(shù)量。與此相反,CIRI-full僅限于組裝短的 circRNA。CIRCexplorer2在組裝方面表現(xiàn)不佳,因為它使用了一種從頭線性組裝的工具——Cufflinks/Stringtie。由于這些工具不能很好地處理circRNA案例,這樣就容易引發(fā)錯誤,然后在管道中傳播。CIRCexplorer2的另一個缺點是過度依賴注釋來檢測AS事件。

(2)根據模擬數(shù)據進行的轉錄本定量比較
表1顯示了來自去除核糖體的RNA-seq和circRNA-seq模擬數(shù)據的circRNA的定量結果。CIRI-vis指的是CIRI-full管道最后一步中的工具。
該結果僅基于兩種工具正確識別的轉錄本數(shù)量,通過這種方式來判斷這些程序的輸出以及組裝精度對轉錄本量化的影響。CYCLER是目前唯一一種同時量化已知線性和新組裝的環(huán)狀轉錄本的方法。

(3)不同工具在黑腹果蠅數(shù)據分析中的比較
除了使用模擬數(shù)據研究CYCLER的優(yōu)點,作者還探討了CYCLER和其他工具在真實轉錄組數(shù)據上的優(yōu)點。為此,作者調查了來自黑腹果蠅的RNA-seq數(shù)據。如表2所示,CIRCexplorer2包括分析中識別的所有BSJ,而SAILFISH-CIR則過濾掉不屬于線性注釋的BSJ。CYCLER使用對應于RNase R處理數(shù)據集的 BSJ,所識別到的BSJ最少。

使用CYCLER進行量化,可以識別再現(xiàn)已知發(fā)育階段的數(shù)據中的梯度。此外,CYCLER的量化使得數(shù)據中的異常值很容易區(qū)分。CYCLER具有這種優(yōu)勢的原因是樣品重復之間的方差穩(wěn)定性,通過circRNA表達相似性樹狀圖中可以清楚地看到這種差異(圖2C和D)。

總體而言,CYCLER推斷的重復樣本之間的距離明顯更好地反映了它們真實的生物學關系,強調了完整isoform的正確組裝是生物樣本正確聚類的關鍵。圖3所示的胚胎階段樣品分離得到改善,很好地反映了黑腹果蠅樣品之間的真實相似性。

(4)與NanoporecircRNA全長數(shù)據比較
作者對基于Illumina的方法和基于Nanopore的方法之間的circRNA進行了比較。圖4A顯示了每種工具的長度調整(<2000 nt)的組裝轉錄本集的Venn圖。圖4B顯示了每個基于Illumina的工具的組裝轉錄本分為已驗證(經由 CIRI-long預測到的數(shù)據)或未驗證(CIRI-long未預測到的數(shù)據)。再進一步細分為 Unique——僅一個基于Illumina的工具和CIRI-long共有的轉錄本,以及Shared——兩個或多個基于Illumina的工具和CIRI-long共有的轉錄本。CIRI-full在每個類別中的轉錄本計數(shù)最低。
作者觀察到,與其他基于Illumina的工具相比,CIRCexplorer2 輸出的isoform數(shù)量非常多。CIRCexplorer2確實提供了最多數(shù)量的和CIRI-long共有的isoform;然而,來自CIRCexplorer2的未經CIRI-long驗證的isoform數(shù)量也高得不成比例。
CYCLER比CIRI-full具有更多數(shù)量的和CIRI-long共有的isoform以及更多數(shù)量的未經CIRI-long驗證的isoform。作者觀察到CYCLER比CIRI-full有更多的和CIRI-long共有的結果。然而,這兩種工具都具有類似的約 60% 未經CIRI-long驗證isoform的比例。這表明在調整序列長度時,CYCLER和CIRI-full的精度相當。CYCLER報告的isoform數(shù)量有所增加,而獨有的BSJ數(shù)量與CIRI-full相似。這可以通過更長的circRNA更可能具有替代isoform這一事實來解釋。因此,與CIRI-full相比,CYCLER預測的isoform數(shù)量增加是由于CYCLER能夠正確組裝甚至長剪接isoform。
總之,CYCLER和CIRCexplorer2在驗證的轉錄本方面都優(yōu)于CIRI-full,而CIRCexplorer2中的誤報數(shù)量使得該工具不適合isoform組裝。CIRI-full受isoform長度的限制——即使有合理的精度統(tǒng)計,該工具也忽略了大量和CIRI-long共有的案例。總而言之,在分析長讀長數(shù)據方面,CYCLER再次成為唯一在精確率和召回率之間取得良好平衡的工具。

02.方法策略
在CYCLER中,作者采用了貪婪算法對轉錄本進行迭代重建,以確保低數(shù)量的假陽性組裝轉錄本。為此,作者使用在上一步中創(chuàng)建的綜合拼接圖,并從選擇豐度最低的外顯子開始,然后識別通過剪接圖中該外顯子的最大流量并重建相應的環(huán)狀轉錄本,再從原始圖的相應特征中減去相應的外顯子豐度,并刪除任何完全耗盡的特征。重復這些步驟,直到無法重建更多的轉錄本(圖5示例)。在現(xiàn)有的相關工具中,只有CIRI-full擁有優(yōu)化circRNA轉錄本外顯子豐度的算法,其基礎算法旨在考慮滾環(huán)cDNA產物,因此作者在模擬數(shù)據集中避免了這些引起偏差的實驗并發(fā)癥。

03.小結
CYCLER作為第一種用于識別和定量全長circRNA isoform的計算方法,同時也可定量已知線性RNA isoform的豐度。
CYCLER在模擬數(shù)據的所有方面都優(yōu)于現(xiàn)有的circRNA識別和定量工具。同時,使用CYCLER進行轉錄組分析所需的實驗工作量大大低于現(xiàn)有方法。
參考文獻
Stefanov, Im M .CYCLER- a novel tool for the fullisoformassembly and quantification of circRNAs[J]. Nucleic Acids Research, 2022.
轉載請聯(lián)系郵箱授權:circRNA@163.com