環(huán)狀RNA十年丨你想了解的環(huán)狀RNA生物信息學(xué)工具這里都有
序言
環(huán)狀RNA自2013年兩篇Nature發(fā)表后,該研究領(lǐng)域徹底被點(diǎn)爆,關(guān)于環(huán)狀RNA研究的發(fā)表刊物是逐年上漲(如下圖)。同時(shí),十年間出現(xiàn)了大量?jī)?yōu)秀的生物信息學(xué)工具。

2021年Briefings in Bioinformatics也發(fā)了類似的總結(jié)《The bioinformatics toolbox for circRNA discovery and analysis》,文章中描述了大約100個(gè)生物學(xué)工具。
2023年5月3日,發(fā)表在Briefings in Bioinformatics期刊的文章Computational approaches for circRNAs prediction and in silico?characterization為我們梳理了過(guò)去十年環(huán)狀RNA研究常用的生物信息學(xué)研究工具,覆蓋了整個(gè)環(huán)狀RNA的研究領(lǐng)域。

<有了這篇文章,我們?cè)僖膊挥枚d頭整理資料了!\^o^/>
當(dāng)然,環(huán)狀RNA的故事并不是一篇文章能夠講完的,小編也根據(jù)自己過(guò)往經(jīng)驗(yàn)補(bǔ)足了一些文章中沒(méi)有出現(xiàn)的工具。那接下來(lái)就讓我們一起閱覽一下環(huán)狀RNA的生物信息研究工具,捋一捋哪些是我們用過(guò)的,哪些將來(lái)可以用到課題研究中~
PS:本文較長(zhǎng),約4500字,【尾聲:一圖勝千言】用圖對(duì)文章原文提到的工具進(jìn)行了概述。
環(huán)狀RNA起源
要研究環(huán)狀RNA,那我們不得不知道環(huán)狀RNA是如何生成的。目前大部分研究人員已經(jīng)自動(dòng)默認(rèn)環(huán)狀RNA主要是線性RNA轉(zhuǎn)錄后的產(chǎn)物,環(huán)狀RNA分子主要通過(guò)側(cè)翼內(nèi)含子互補(bǔ)配對(duì)、RBP誘導(dǎo)側(cè)翼內(nèi)含子以及套索驅(qū)動(dòng)3種方式產(chǎn)生(如下圖),且根據(jù)環(huán)狀RNA的基因組結(jié)構(gòu)分成了EcircRNA、EIcircRNA、IcircRNA等不同亞型。

環(huán)狀RNA識(shí)別
了解環(huán)狀RNA起源之后,我們已經(jīng)明白環(huán)狀RNA與線性RNA分子序列上最大的區(qū)別是BSJ(Back-SplicedJunction)。最初Salzman等人進(jìn)行生信分析時(shí)無(wú)意間發(fā)現(xiàn)無(wú)法比對(duì)到基因組的bulk RNA-seq序列存在大量BSJ,于是大膽推測(cè)出這些序列來(lái)源于環(huán)狀RNA分子。
BSJ是識(shí)別環(huán)狀RNA分子的關(guān)鍵,所有預(yù)測(cè)環(huán)狀RNA分子的軟件——從最初的find_circ到現(xiàn)在常用的CIRI、DCC、CRICexplorer等工具——都基于該理念(請(qǐng)看經(jīng)典圖)。

當(dāng)然,不同的軟件除了基本思想一致外,還存在兩個(gè)門派:一個(gè)是Split-alignment based approach,另一個(gè)是Pseudoreference based approach。由于BSJ無(wú)法比對(duì)到正常參考基因組,第一種方法將chimeric reads或unmapped reads分割后再一點(diǎn)點(diǎn)與參考基因組比對(duì);第二種是先推測(cè)BSJ的外顯子,再將這些外顯子拼接成假基因組(pseudo reference),然后再將 chimeric reads或unmapped reads比對(duì)到假基因組上(如下圖)。

人工智能的產(chǎn)物ChatGPT都已經(jīng)火出圈了,環(huán)狀RNA識(shí)別怎么能少得了用機(jī)器學(xué)習(xí)的方法。目前已經(jīng)有PredcircRNA、WebCircRNA、DeepCircCode以及StackCirRNAPred四個(gè)工具采用了機(jī)器學(xué)習(xí)的方法。
下表就列出了近十年用于識(shí)別circRNA的工具:

這么多工具,到底哪一款最好呢?
2017年
PLOS COMPUTATIONAL BIOLOGY發(fā)表的文章《A?comprehensive overview and evaluation of circular RNA detection tools》對(duì)11款工具進(jìn)行了比較,發(fā)現(xiàn)DCC、CIRCexploer、MapSplice、NCLScan、PTESFinder假陽(yáng)性率較低,而CIRI、CIRCexplorer、KNIFE、Segemehl、PTESFinder具有較高的敏感性。
2018年
隨后,另一篇文章《Improved circRNA Identification by Combining Prediction Algorithms》也對(duì)11款工具進(jìn)行了敏感性和特異性的評(píng)估,發(fā)現(xiàn)大多數(shù)方法能檢測(cè)到的circRNA豐度中值為14-20 reads,而DCC、circRNA_finder、UROBORUS只有11、9、5reads。
然而,不同的軟件側(cè)重點(diǎn)不一樣,且有些軟件一直在更新升級(jí),因此很難認(rèn)定某一款軟件就是最優(yōu)的,一般采用多個(gè)軟件組合的方式對(duì)circRNA進(jìn)行檢測(cè)和篩選。CircComPara2和circRNAwrap這兩款軟件就整合了多款工具用于circRNA識(shí)別。
由于并沒(méi)有一款完美的軟件,并且新軟件可能存在新的問(wèn)題,所以大家在課題研究時(shí)更多的是沿用之前使用過(guò)的軟件,這點(diǎn)可以從引用率上體現(xiàn)出來(lái)。
環(huán)狀RNA可變剪切與重構(gòu)
前面的工具主要用于識(shí)別BSJ,但環(huán)狀RNA中間序列是存在可變剪切的。
然而,二代測(cè)序很難捕獲環(huán)狀RNA序列全長(zhǎng)序列。因此,一些工具被開(kāi)發(fā)出來(lái)識(shí)別環(huán)狀RNA的可變剪切事件,包括CIRICexplorer3/CIRI-AS等;另一些工具被用于環(huán)狀RNA的全長(zhǎng)構(gòu)建,包括CIRI-full/circAST/psirc/CYCLeR等。
環(huán)狀RNA全長(zhǎng)測(cè)序技術(shù)
2021年連續(xù)發(fā)表了4篇關(guān)于環(huán)狀RNA全長(zhǎng)測(cè)序的策略,用于對(duì)環(huán)狀RNA全長(zhǎng)識(shí)別與定量以及可變剪切事件的檢測(cè),分別包括:
??CIRI-long
??circNick-LRS/circPanel-LRS
??circFL-seq
??isoCirc
在環(huán)狀RNA全長(zhǎng)識(shí)別、可變剪切分析以及表達(dá)定量等方面,三代測(cè)序技術(shù)有二代測(cè)序無(wú)法比擬的優(yōu)勢(shì)。高通量檢測(cè)技術(shù)Illumina-basedRNA-seq/microarray/NanoString能檢測(cè)定量BSJ序列,然而它們無(wú)法檢測(cè)序列長(zhǎng)度>300nt的環(huán)狀RNA全長(zhǎng)結(jié)構(gòu);而不同長(zhǎng)度的環(huán)狀RNA,納米孔測(cè)序技術(shù)都能勝任。除此之外,三代測(cè)序還能夠通過(guò)RNC建庫(kù)檢測(cè)正在翻譯的環(huán)狀RNA分子,并且能通過(guò)direct技術(shù)在一定程度上捕獲到RNA修飾。
目前關(guān)于三代測(cè)序?qū)Νh(huán)狀RNA修飾的文章較少,感興趣的童鞋可以查看文章《Profiling of circular RNA N6-methyladenosine in moso bamboo(Phyllostachys edulis)using nanopore-based direct RNA sequencing》。
環(huán)狀RNA結(jié)構(gòu)與體外制備
大家不太熟悉RNA結(jié)構(gòu)研究的話,可以閱讀文章《Recent advances in RNA structurome》。
“結(jié)構(gòu)決定功能”,特別是要將mRNA2.0技術(shù)服務(wù)于臨床醫(yī)學(xué),我們需要先對(duì)候選環(huán)狀RNA進(jìn)行解構(gòu)。
環(huán)狀RNA全長(zhǎng)測(cè)序技術(shù)解決了得到環(huán)狀RNA全長(zhǎng)序列(即一級(jí)結(jié)構(gòu))的挑戰(zhàn),為后續(xù)環(huán)狀RNA功能研究提供了結(jié)構(gòu)基礎(chǔ),例如預(yù)測(cè)miRNA的結(jié)合位點(diǎn)、RBP的結(jié)合位點(diǎn)。然而,對(duì)更高級(jí)的環(huán)狀RNA結(jié)構(gòu)的解析,才利于預(yù)測(cè)環(huán)狀RNA功能解析,例如實(shí)現(xiàn)分子docking。另外,環(huán)狀RNA的體外制備需要對(duì)環(huán)狀RNA結(jié)構(gòu)進(jìn)行解構(gòu),這已經(jīng)被應(yīng)用到反義環(huán)狀RNA的設(shè)計(jì)與應(yīng)用、環(huán)狀RNA作為藥物靶點(diǎn)、可翻譯的環(huán)狀RNA框架等多個(gè)領(lǐng)域。
環(huán)狀RNA二級(jí)結(jié)構(gòu)的預(yù)測(cè)比較常用到的是RNAfold和Mfold,三級(jí)結(jié)構(gòu)常用的工具有RNAcomposer(在線版本最長(zhǎng)只能預(yù)測(cè)500nt)、3dRNA等,今年3月斯坦福大學(xué)團(tuán)隊(duì)更是推出了堪比AlphaFold的工具ARES來(lái)準(zhǔn)確預(yù)測(cè)RNA三級(jí)結(jié)構(gòu)。
另外,值得一提的是,我國(guó)在人工智能應(yīng)用于生物醫(yī)學(xué)的研究也走在了世界前沿。百度出品的深度學(xué)習(xí)算法LinearFold能準(zhǔn)確預(yù)測(cè)RNA的二級(jí)結(jié)構(gòu),而5月2日公布的RNA序列設(shè)計(jì)軟件LinearDesign更是登頂Nature。相信這些新的工具將會(huì)為環(huán)狀RNA的研究注入新的活力,同時(shí)加速環(huán)狀RNA在醫(yī)藥方面的開(kāi)發(fā)。
環(huán)狀RNA表達(dá)定量、標(biāo)準(zhǔn)化與差異分析
環(huán)狀RNA相比線性分子mRNA和lncRNA更難定量。大量bulk RNA-seq數(shù)據(jù)顯示,環(huán)狀RNA只占整個(gè)樣品文庫(kù)的極少部分,其中間序列要受線性分子的影響,定量只能認(rèn)準(zhǔn)BSJ。因此,目前環(huán)狀RNA定量最佳的建庫(kù)策略應(yīng)該是先通過(guò)RNase R等策略去除線性,只富集環(huán)狀RNA分子。
環(huán)狀RNA定量工具已經(jīng)被集成在識(shí)別工具中,一般這些工具最后會(huì)輸出每個(gè)樣品的reads count值,有些還會(huì)給出CPM(counts per million)等標(biāo)準(zhǔn)化后的值。環(huán)狀RNA表達(dá)的標(biāo)準(zhǔn)化和線性分子沒(méi)有區(qū)別,唯一需要注意的是,由于環(huán)狀RNA表達(dá)很低,因此在進(jìn)行差異表達(dá)前過(guò)濾時(shí)通常閾值比線性分子低,例如circRNA CPM>0.1。
差異分析受表達(dá)量以及表達(dá)分布的影響,目前最常用于環(huán)狀RNA差異表達(dá)的工具仍是edgeR與 DESeq2,當(dāng)然也有另外一些新工具被開(kāi)發(fā)出來(lái),例如CircTest。到底哪種分析方法更適合環(huán)狀RNA呢?今年1月,Brief in Bioinformatics發(fā)表的《Systematic benchmarking of statistical methods to assess differential expression of circular RNAs》對(duì)現(xiàn)有的一些差異分析方法進(jìn)行了評(píng)估,有興趣的童鞋可以看一看。
環(huán)狀RNA功能預(yù)測(cè)
環(huán)狀RNA功能的機(jī)制眾多,大家最熟悉且研究最多的有三個(gè):
作為miRNA的海綿
關(guān)于circRNA-miRNA互作的預(yù)測(cè)工具,當(dāng)前大家還是習(xí)慣用于mRNA的預(yù)測(cè)工具,例如miRanda/TargetScan/RNAhybird等;一些工具進(jìn)行了簡(jiǎn)單創(chuàng)新,對(duì)已有的軟件和數(shù)據(jù)進(jìn)行了整合,例如Circr整合了miRanda以及RNAhybrid以及AGO結(jié)合位點(diǎn),CRAFT整合了miRanda和PITA以及AGO結(jié)合位點(diǎn);也有一些應(yīng)用了機(jī)器學(xué)習(xí)算法,例如基于深度的GCNCMI、NGCICM等。
與RBP互作
環(huán)狀RNA的整個(gè)生命周期都有蛋白質(zhì)的參與,且環(huán)狀RNA也能通過(guò)與蛋白質(zhì)互作發(fā)揮功能。然而,目前環(huán)狀RNA與RBP的互作研究手段仍具有很大的局限性,可使用工具也比較有限。
高通量測(cè)序中的RIP-seq和CLIP-seq能夠捕獲RBP結(jié)合的circRNA,針對(duì)這兩種高通量數(shù)據(jù),circRIP被開(kāi)發(fā)出來(lái)用于環(huán)狀RNA的挖掘。
另外,基于已有的研究信息,一些預(yù)測(cè)工具也被開(kāi)發(fā)出來(lái)。catRAPID v2整合了大量環(huán)狀RNA與RBP信息,是一款非常常用的在線circRNA-RBP預(yù)測(cè)工具;基于CLIP-seq以及機(jī)器學(xué)習(xí)的工具也頻頻出現(xiàn),例如CRIP、CircSLNN、CCSCRSites、Clirc、circ-pSBLA、iCircRBP-DHN以及RBPsuite等,除了個(gè)別工具存在在線版本(例如RBPsuite)方便使用,其他工具使用難度都比較大,且RBP分子僅僅局限于37RBP(CRIP收集的CLIP-seq訓(xùn)練集)。
另外,通過(guò)circRNA pull-down+質(zhì)譜的方法可能是一種更有效地方法研究某個(gè)環(huán)狀RNA與哪些RBPs互作。
蛋白質(zhì)翻譯
雖然最初研究者將環(huán)狀RNA定義為非編碼分子,然而有許多環(huán)狀RNA被預(yù)測(cè)可能翻譯蛋白質(zhì)。事實(shí)上,目前已經(jīng)有超過(guò)40個(gè)人類環(huán)狀RNA被報(bào)道能夠翻譯蛋白質(zhì)且發(fā)揮功能。
關(guān)于一個(gè)circRNA是否能夠翻譯,我們可以通過(guò)CPAT、CPC2等工具先進(jìn)行翻譯潛能預(yù)測(cè);另外我們可以用ORFfinder進(jìn)行ORF的識(shí)別。值得注意的是,環(huán)狀RNA的ORF可能覆蓋環(huán)化位點(diǎn)BSJ,因此在進(jìn)行操作時(shí)可能需要重復(fù)最多4次序列以避免錯(cuò)過(guò)有效的ORF或無(wú)終止密碼子的ORF。
環(huán)狀RNA的翻譯不依賴于帽子結(jié)構(gòu),被歸為“非經(jīng)典”的形式,目前已發(fā)現(xiàn)大約3種翻譯機(jī)制,包括:
–?IRES驅(qū)動(dòng)
–?m6A驅(qū)動(dòng)
–?滾環(huán)翻譯(無(wú)終止密碼子)
而關(guān)于IRES的預(yù)測(cè),常用的生信工具有VIPS、IRESfinder、IRESPred、IRESpy、CircPrimer以及DeepCIP;而m6A位點(diǎn)預(yù)測(cè)常常用SRAMP以及m6Apred;至于滾環(huán)翻譯的驅(qū)動(dòng)機(jī)制目前仍有待進(jìn)一步研究,并沒(méi)有相應(yīng)的工具幫助識(shí)別該現(xiàn)象。
另外,Ribo-seq數(shù)據(jù)也可能存在環(huán)狀RNA的序列片段,為翻譯提供線索,我們可以通過(guò)CircPro、CircCode等工具識(shí)別潛在翻譯的環(huán)狀RNA;但Ribo-seq文庫(kù)太短,很難捕獲到環(huán)狀RNA的信息,RNC-seq可能是一種更有效的手段。
目前我們對(duì)環(huán)狀RNA功能認(rèn)識(shí)仍然有限。雖然有 circFunDb等數(shù)據(jù)庫(kù)收集環(huán)狀RNA功能,但由于環(huán)狀RNA數(shù)量太多且一般被作為調(diào)控分子,因此,目前仍未形成像Gene Ontology和KEGG那樣系統(tǒng)的功能和通路數(shù)據(jù)庫(kù)。所以,環(huán)狀RNA關(guān)于功能和通路注釋大多通過(guò)以下方式開(kāi)展:
??對(duì)circRNA來(lái)源基因(宿主基因)開(kāi)展 GO/KEGG/……等注釋;
??構(gòu)建circRNA-miRNA-mRNA網(wǎng)絡(luò),通過(guò)mRNA來(lái)進(jìn)行GO/KEGG注釋;
??對(duì)circRNA cis調(diào)控基因(許多文獻(xiàn)非編碼 RNAcis調(diào)控基因定義為基因組區(qū)域<10kb)進(jìn)行GO/KEGG/……等注釋;
??對(duì)circRNA trans調(diào)控基因或表達(dá)相關(guān)基因進(jìn)行 GO/KEGG/……等注釋;
??……
關(guān)于GO/KEGG/……注釋以及富集的工具已經(jīng)有很多了,但比較常用的可能還是R包 clusterProfiler、在線工具DAVID、在線工具 g:profiler等。
環(huán)狀RNA實(shí)驗(yàn)驗(yàn)證
環(huán)狀RNA的驗(yàn)證、過(guò)表達(dá)以及敲低實(shí)驗(yàn)關(guān)鍵是設(shè)計(jì)特異的環(huán)狀RNA序列,主要包括環(huán)狀RNA引物設(shè)計(jì)和siRNA設(shè)計(jì)。其中CircPrimer是一款 Windows版本的環(huán)狀RNA引物設(shè)計(jì)工具,而 circInteractome針對(duì)circBase數(shù)據(jù)庫(kù)中的環(huán)狀 RNA進(jìn)行了引物設(shè)計(jì),同時(shí)circInteractome還包含了siRNA的信息。
環(huán)狀RNA數(shù)據(jù)庫(kù)
環(huán)狀RNA研究十年間已經(jīng)發(fā)表的數(shù)據(jù)庫(kù)差不多有 60個(gè),之前已經(jīng)作了比較詳細(xì)的總結(jié)。
目前各個(gè)數(shù)據(jù)庫(kù)并沒(méi)有統(tǒng)一環(huán)狀RNA的命名,且參考基因組版本也存在差異——大多數(shù)使用的是 hg19版本,有一些采用了hg38版本。對(duì)此,今年年初,陳玲玲等研究者就該問(wèn)題給出了環(huán)狀RNA命名規(guī)范的建議,這將有利于環(huán)狀RNA社區(qū)間的交流。
環(huán)狀RNA可視化工具
目前關(guān)于環(huán)狀RNA可視化的工具并不多,主要集中在展示環(huán)狀RNA與宿主間的關(guān)系:
? Windows版本的CircView,用于展示環(huán)狀RNA 的基因組序列結(jié)構(gòu),同時(shí)可以標(biāo)注miRNA結(jié)合位點(diǎn)以及RBP結(jié)合位點(diǎn);
? shiny版本的circASViewer,用于查看環(huán)狀RNA可變剪切事件的小工具;
? shiny版本的circASViewerStatic,該工具與 circASViewer是姊妹工具,能夠生成環(huán)狀RNA可變剪切事件的靜態(tài)圖;
? Rcirc是一個(gè)R包,可以像IGV一樣可視化環(huán)狀 RNA的測(cè)序數(shù)據(jù);
??在線版本的circVIS主要展示環(huán)狀RNA與宿主的關(guān)系,更像一個(gè)數(shù)據(jù)庫(kù)(目前無(wú)法使用);
??……
另外,如果要繪制環(huán)狀RNA與其他分子的互作圖,Cytoscape軟件是大家的首選。
尾聲:一圖勝千言
下圖對(duì)文章原文提到的工具進(jìn)行了概述,分別從環(huán)狀RNA研究熱度、識(shí)別工具、數(shù)據(jù)庫(kù)和下游分析工具4個(gè)方面以及時(shí)間軸等多個(gè)維度對(duì)環(huán)狀 RNA生物信息工具進(jìn)行了總結(jié)。

各位看官在環(huán)狀RNA研究中都用到過(guò)哪些工具呢?歡迎留言討論~
