RNA m6A修飾工具大全
前兩期已經(jīng)系統(tǒng)介紹了RNA m6A的發(fā)生、調(diào)控、序列、區(qū)域和功能方面的特征,給讀者的感覺(jué)是,RNA m6A已有的特征鮮明,在序列、調(diào)控過(guò)程已經(jīng)形成了一定的共識(shí),包括motif DRACH、明顯富集于終止密碼子區(qū),對(duì)RNA的穩(wěn)定性和翻譯效率有明確的影響;但是RNA m6A的功能是多變的,這種“content-dependent”的變化會(huì)依賴于不同細(xì)胞環(huán)境、亞細(xì)胞定位、應(yīng)答狀態(tài)、結(jié)合蛋白會(huì)有所不同,這才有了我們?cè)谏弦黄诠娞?hào)中對(duì)于RNA m6A故事多面性的相關(guān)討論,同樣的調(diào)控機(jī)理無(wú)法在另一個(gè)細(xì)胞環(huán)境中被生搬硬套,雖然RNA m6A修飾是表觀轉(zhuǎn)錄組學(xué)中被研究最深入的分支,但相關(guān)研究和機(jī)制討論遠(yuǎn)沒(méi)有終止,有非常多的問(wèn)題還沒(méi)有被解決。
高通量篩選和生物信息學(xué)分析作為常規(guī)方法,已經(jīng)在RNA m6A相關(guān)研究中廣泛使用,主要用于廣泛篩選m6A修飾靶點(diǎn),建立多組學(xué)相關(guān)性并為下游機(jī)制提供線索和方向。經(jīng)常有研究者思考,自己感興趣的分子是否會(huì)發(fā)生m6A修飾?之前有關(guān)表型解釋的非常清楚的分子,有沒(méi)有可能受到m6A調(diào)控?接下來(lái)就給大家整合一些好用的、常用的在線工具網(wǎng)站,可以用來(lái)預(yù)測(cè)或者檢索感興趣序列或者分子的相關(guān)m6A修飾信息。目前已經(jīng)發(fā)表的工具超過(guò)20種,部份工具提供了基于網(wǎng)頁(yè)的工作界面,用于可以通過(guò)上傳感興趣的序列、基因名稱等信息進(jìn)行預(yù)測(cè)或者檢索,當(dāng)然這些工具由于后期的維護(hù)原因,會(huì)出現(xiàn)不能訪問(wèn)的情況,不過(guò)多一個(gè)工具,多一種選擇。
我們結(jié)合以往經(jīng)驗(yàn),給大家推薦其中幾款相對(duì)簡(jiǎn)單好用的工具,但是基于之前的反饋和經(jīng)驗(yàn),用戶容易忽視幾個(gè)重要問(wèn)題導(dǎo)致預(yù)測(cè)不成功,或者結(jié)果使用出錯(cuò),在文末為大家總結(jié)使用在線工具預(yù)測(cè)或檢索m6A位點(diǎn)信息的常見注意事項(xiàng)。
一.RNA m6A位點(diǎn)基于給定序列進(jìn)行預(yù)測(cè)?
1)SRAMP(A sequence-based N6-methyladenosine (m6A) modification site predictor)
圖1:SRAMP預(yù)測(cè)界面
(http://www.cuilab.cn/sramp)
SRAMP網(wǎng)頁(yè)操作簡(jiǎn)單,對(duì)用戶十分友好,能夠快速的實(shí)現(xiàn)基于用戶提供的序列進(jìn)行預(yù)測(cè)。當(dāng)用戶提供的序列中包含基因序列(帶有內(nèi)含子的轉(zhuǎn)錄本序列)時(shí),優(yōu)先選擇“Full transcript mode”模式,使用cDNA序列時(shí),優(yōu)先選擇“Mature mRNA mode”模式;同時(shí)該工具提供“是否分析RNA二級(jí)結(jié)構(gòu)”的選項(xiàng),RNA的二級(jí)結(jié)構(gòu)對(duì)RNA分子的功能也會(huì)產(chǎn)生影響,因此對(duì)高級(jí)結(jié)構(gòu)的計(jì)算雖然相對(duì)耗時(shí),但能提供更多有關(guān)修飾位點(diǎn)序列局部特征提供更多有效信息;Generic還是tissue-specific預(yù)測(cè)?通常選擇Generic(通用)預(yù)測(cè)即可,如果效果不好,可以更換其他模式嘗試,目前網(wǎng)站只支持一次性預(yù)測(cè)一條序列,用于可以下載工具至并執(zhí)行相關(guān)預(yù)測(cè)任務(wù)。
圖2:SRAMP位點(diǎn)預(yù)測(cè)結(jié)果界面
(http://www.cuilab.cn/sramp)
SRAMP的結(jié)果呈現(xiàn)也是一目了然,清晰易懂,圖中的橫坐標(biāo)代表堿基的位置,縱坐標(biāo)是打分,對(duì)應(yīng)預(yù)測(cè)位點(diǎn)處的豎線高低代表了該位點(diǎn)的可信度高低,對(duì)應(yīng)有紅色、紫色、藍(lán)色和綠色四條水平線代表不同的置信度,對(duì)應(yīng)99%、95%、90%、85%(也就是5%、10%、15%假陽(yáng)性率),SRAMP對(duì)預(yù)測(cè)得到的m6A位點(diǎn)分為Very High、High、Moderate、Low四個(gè)等級(jí),因此用戶可以優(yōu)先選擇置信度高的位點(diǎn),逐個(gè)對(duì)可信位點(diǎn)進(jìn)行信息檢索,
或者可以針對(duì)感興趣的位點(diǎn)設(shè)計(jì)引物,使用MeRIP-qPCR進(jìn)行實(shí)驗(yàn)驗(yàn)證。
2)iRNA-m6A:基于SVM(支持向量機(jī))算法的RNA m6A位點(diǎn)預(yù)測(cè)工具
圖3:iRNA-m6A序列提交界面(上)和結(jié)果形式(下)
(http://lin-group.cn/server/iRNA-m6A/service.html)
iRNA-m6A是基于SVM算法建立的m6A/non-m6A分類器,該分類器的建立過(guò)程使用m6A-REF-seq單堿基分辨的m6A數(shù)據(jù)集,正樣本是長(zhǎng)度為41nt的以m6A為中心的片段,負(fù)樣本使用長(zhǎng)度為41nt的non-m6A為中心的片段,樣品來(lái)源是人、小鼠、大鼠的腦、肝、腎多組織,預(yù)測(cè)考慮到了特異性,在頁(yè)面中也提供了相應(yīng)的選項(xiàng),用戶可以進(jìn)行相應(yīng)的選擇。SVM是計(jì)算生物學(xué)當(dāng)中最常用的方法,而iRNA-m6A是眾多基于SVM算法建立的分類模型的其中之一。
3)HSM6AP:基于特征拼接(feature stitching)的m6A預(yù)測(cè)方法
圖4:HSM6AP網(wǎng)頁(yè)預(yù)測(cè)界面
(http://120.27.24.199:10501/HSM6AP/WebServer)
HSM6AP同樣提供了相對(duì)簡(jiǎn)潔明了的網(wǎng)頁(yè)工作界面,用戶直接上傳相關(guān)序列就可完成相應(yīng)的預(yù)測(cè),相比于其他工作中,HSM6AP在建立預(yù)測(cè)模型的時(shí)候同時(shí)考慮了序列特征、堿基的物理化學(xué)特征以及RNA m6A Writer、Eraser、Reader的結(jié)合信息,將三方面的信息拼接為特征向量,一同使用Xgboost方法建立預(yù)測(cè)模型,從而對(duì)新的序列進(jìn)行預(yù)測(cè)。網(wǎng)站提供的預(yù)測(cè)只能針對(duì)用戶提供的序列,如果需要進(jìn)行全轉(zhuǎn)錄組范圍內(nèi)的預(yù)測(cè)或者成熟mRNA范圍內(nèi)的預(yù)測(cè),需要聯(lián)系開發(fā)人員獲得相應(yīng)的模型,還需要注意的是模型只能對(duì)人源性的序列進(jìn)行預(yù)測(cè),不適用于其他物種。
二.RNA m6A位點(diǎn)如何根據(jù)基因、功能信息進(jìn)行檢索?
1)WHISTLE:根據(jù)基因、功能檢索m6A相關(guān)修飾的網(wǎng)頁(yè)工具
圖5:WHISTLE網(wǎng)頁(yè)檢索界面
(http://180.208.58.19/whistle/index.html)
相比于SRAMP,iRNA-m6A,WHISTLE的操作界面更加美觀,操作同樣十分方便,更重要的是,網(wǎng)頁(yè)提供通過(guò)基因、功能進(jìn)行搜索的檢索方式,對(duì)于很多生物學(xué)過(guò)程,如細(xì)胞凋亡、細(xì)胞增殖、細(xì)胞分化等,可以按照單個(gè)基因或者基因集和進(jìn)行搜索,這樣能給對(duì)特定生物過(guò)程感興趣的研究者提供更全面的信息,對(duì)于每個(gè)基因的查詢結(jié)果,也給出了所在位置的絕對(duì)坐標(biāo)(chr+起始位置+終止位置)以及該對(duì)應(yīng)基因的BP、CC、MF等注釋信息,整體給用戶的感覺(jué)是更加清爽,內(nèi)容顯示更加規(guī)整,操作簡(jiǎn)單容易上手。
該工具的開發(fā)過(guò)程中,使用了5UTR、3UTR、起始密碼子、終止密碼子、轉(zhuǎn)錄起始位點(diǎn)、外顯子長(zhǎng)度、持家基因等35個(gè)特征值進(jìn)行建模,使用了10項(xiàng)研究中的數(shù)據(jù)作為訓(xùn)練、開發(fā)、測(cè)試整個(gè)過(guò)程,針對(duì)m6A-CLIP和miCLIP數(shù)據(jù)采用SVM框架進(jìn)行機(jī)器學(xué)習(xí)建模。
2)RMBase:
圖6:RMBase主頁(yè)
(https://rna.sysu.edu.cn/rmbase/index.php)
RMBase是表觀研究領(lǐng)域最有影響力的數(shù)據(jù)庫(kù)之一,為很多研究的分子信息提供了方便快捷的檢索途徑,其中不僅提供了有關(guān)多種修飾(m6A、m1A、m5C等),還提供了多物種(大鼠、小鼠、豬等)相關(guān)信息,納入的數(shù)據(jù)包含MeRIP-seq、miCLIP、CLIP等高通量數(shù)據(jù)類型,用戶不僅可以通過(guò)網(wǎng)頁(yè)進(jìn)行搜索,還可以通過(guò)“Download”進(jìn)行下載,通過(guò)編寫腳本進(jìn)行篩選。讓RMBase更加全面的還有完善的位點(diǎn)信息,例如針對(duì)m6A-site-420457,該位點(diǎn)的坐標(biāo)信息、數(shù)據(jù)來(lái)源(GSM2010450)、所處序列特征(protein-coding、intron等)和相關(guān)研究文獻(xiàn)(PubMed ID)。通過(guò)這些信息,有數(shù)據(jù)分析基礎(chǔ)的研究者可以下載相應(yīng)的數(shù)據(jù),進(jìn)行比對(duì)、可視化,可以直觀的對(duì)富集信息,即m6A所在的位置進(jìn)行可視化,將最終結(jié)果保存并展示,這樣的圖形展示遠(yuǎn)比生硬的描述m6A位置信息要有效的多。
圖7:RMBase針對(duì)位點(diǎn)收集的相關(guān)信息(左側(cè))并對(duì)下載的數(shù)據(jù)分析可以獲得右測(cè)的圖例
其中motif score代表該位點(diǎn)處的序列與motif的相似程度(0~500)
3)m6A Atlas、m6A var 等
圖8:m6A Atlas收錄信息
m6A Atlas是一個(gè)圍繞表觀研究構(gòu)建的多物種綜合性數(shù)據(jù)庫(kù),提供了有關(guān)RNA修飾的多重信息,從圖8種我們可以看到,該數(shù)據(jù)庫(kù)收錄了多物種和多種修飾的相關(guān)信息,另外還有像m6Avar數(shù)據(jù)庫(kù),將m6A位點(diǎn)和臨近的基因組變異位點(diǎn)聯(lián)合,能夠?qū)崿F(xiàn)Genomic Variants 和m6A modification的聯(lián)合分析。
有關(guān)于上述所有的工具,為m6A的相關(guān)研究提供了極大的便利,同時(shí)也削減了成本,通過(guò)數(shù)據(jù)搜索,對(duì)感興趣的基因或者序列甲基化修飾情況進(jìn)行快速判斷,但是在預(yù)測(cè)和信息檢索時(shí),需要注意以下問(wèn)題。
(1)首先搞清楚自己的目的,是為了針對(duì)某段感興趣的序列、基因、轉(zhuǎn)錄本進(jìn)行預(yù)測(cè)?還是有目的的查詢現(xiàn)有信息?有目標(biāo)的選擇相應(yīng)的工具,才能有效的解決問(wèn)題。
(2)如果是要根據(jù)序列預(yù)測(cè),往往網(wǎng)站工具需要的是.fa格式的文件,如果格式不對(duì),往往導(dǎo)致預(yù)測(cè)錯(cuò)誤或者網(wǎng)站報(bào)錯(cuò),那到底什么是.fa文件,其實(shí)很簡(jiǎn)單,fa文件的本質(zhì)是txt文件,這種格式經(jīng)常用來(lái)存儲(chǔ)序列信息,通常內(nèi)容符合圖9的格式,確保自己的格式正確,且ID描述正確對(duì)應(yīng)自己感興趣的序列,才能不會(huì)再之后的研究中產(chǎn)生錯(cuò)誤。
圖9:.fa文件內(nèi)容格式
(3)物種,目前在線工具有很多,基于序列的預(yù)測(cè)盡量選擇支持相應(yīng)物種的工具進(jìn)行。
(4)有關(guān)數(shù)據(jù)庫(kù)的檢索,查詢到某個(gè)位點(diǎn)的絕對(duì)坐標(biāo),應(yīng)該注意相應(yīng)數(shù)據(jù)庫(kù)的基因組版本支持,例如人的基因組版本,部份數(shù)據(jù)庫(kù)支持hg38,部份數(shù)據(jù)庫(kù)支持hg19,用戶在使用自己的數(shù)據(jù),尤其是聯(lián)合自己測(cè)序數(shù)據(jù)和其他分析數(shù)據(jù)的時(shí)候一定要注意基因組版本的匹配問(wèn)題。
(5)網(wǎng)頁(yè)數(shù)據(jù)加載不出來(lái)?通常由于網(wǎng)站的后期維護(hù)問(wèn)題,導(dǎo)致很多在線工具無(wú)法加載,數(shù)據(jù)無(wú)法搜索,這種情況時(shí)有發(fā)生,如果自己的研究問(wèn)題和網(wǎng)站的建設(shè)內(nèi)容完全契合,可以考慮郵件咨詢開發(fā)者尋求幫助,或者選擇其他工具進(jìn)行分析或反復(fù)重試,同時(shí)在可使用的網(wǎng)站中及時(shí)下載相關(guān)內(nèi)容為本地excel格式進(jìn)行備份,這樣每次查詢就可以通過(guò)查詢表格進(jìn)行,無(wú)需再接入網(wǎng)絡(luò)。
合理的運(yùn)用現(xiàn)成的工具可以為科研加速,在之后的公眾號(hào)中,我們還會(huì)繼續(xù)結(jié)合相應(yīng)的科學(xué)問(wèn)題為大家陸續(xù)推薦相關(guān)好用的在線工具,希望大家繼續(xù)關(guān)注。