DeepCIP | 全球首款環(huán)狀RNA IRES預(yù)測(cè)工具

簡(jiǎn)介
眾所周知,環(huán)狀RNA具有編碼蛋白質(zhì)的潛力,而內(nèi)部核糖體進(jìn)入位點(diǎn)(IRES)是環(huán)狀RNA通過(guò)帽獨(dú)立機(jī)制翻譯蛋白質(zhì)的關(guān)鍵RNA調(diào)節(jié)元件。
此前的?IRES預(yù)測(cè)方法大多是基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,比如IRESPred、iresprector、IRESfinder與IRESpy等工具,而利用深度神經(jīng)網(wǎng)絡(luò)框架進(jìn)行 IRES特征深度挖掘的工具則還沒(méi)有出現(xiàn),而且還只局限于線性RNA的IRES預(yù)測(cè),直到目前也還沒(méi)有專門用于環(huán)狀RNA IRES的預(yù)測(cè)方法。
為了解決這個(gè)令廣大科研人員苦惱的問(wèn)題,浙江大學(xué)智能創(chuàng)新藥物研究院周展教授團(tuán)隊(duì)開發(fā)了一個(gè)工具——DeepCIP,該工具采用了多模式深度學(xué)習(xí)方法專門對(duì)circRNA?IRES進(jìn)行預(yù)測(cè),將更好地幫助我們研究circRNA的編碼潛力以及提升circRNA藥物的設(shè)計(jì)能力。
作者以預(yù)印本的方式于2022年10月發(fā)表了一篇題為 “DeepCIP: a multimodal deep learning method for the prediction of internal ribosome entry sites of?circRNAs” 的文章。

算法優(yōu)勢(shì)
1、DeepCIP和XGBoost_weight模型的預(yù)測(cè)性能比較
為了評(píng)估DeepCIP模型的預(yù)測(cè)性能,作者使用獨(dú)立的測(cè)試數(shù)據(jù)集對(duì)DeepCIP的模型和XGBoost_weight模型進(jìn)行了比較實(shí)驗(yàn)。比較結(jié)果表明,DeepCIP在所有指標(biāo)方面都比XGBoost_weight模型具有更高的性能表現(xiàn)(表1)。

2、DeepCIP預(yù)測(cè)結(jié)果的有效性比較
為了進(jìn)一步研究DeepCIP的有效性,作者研究了預(yù)測(cè)的circRNA IRES概率與circRNA IRES實(shí)驗(yàn)活動(dòng)之間的相關(guān)性(圖1)。結(jié)果表明,具有更高活性的circRNA IRES通常也具有更大的預(yù)測(cè)概率。此外,人類和病毒circRNA IRES的預(yù)測(cè)概率通常都大于非circRNA IRES,證明了DeepCIP對(duì)人類和病毒circRNA IRES預(yù)測(cè)的能力。

3、應(yīng)用于真實(shí)的circRNA IRES數(shù)據(jù)集上不同模型的預(yù)測(cè)性能比較
作者評(píng)估了DeepCIP模型對(duì)真實(shí)數(shù)據(jù)集的預(yù)測(cè)能力,并將DeepCIP的預(yù)測(cè)結(jié)果與其他模型進(jìn)行了比較(表2),包括專門用于circRNA的XGBoost_weight和 XGBoost模型以及用于線性RNA的IRESpy軟件。結(jié)果表明,DeepCIP在預(yù)測(cè)circRNA?IRES的能力上比其他算法表現(xiàn)更好。而IRESpy的預(yù)測(cè)性能則顯著低于其他方法,同時(shí)也表明了開發(fā)專門用于circRNA IRES鑒定的方法的重要性。

綜合上述比較的結(jié)果,通過(guò)整合序列和結(jié)構(gòu)信息,DeepCIP可以更有效地捕獲circRNA?IRES的特征。
方法策略
DeepCIP采用軟投票策略來(lái)集成三個(gè)由不同數(shù)據(jù)集訓(xùn)練的融合模型。其中,每個(gè)融合模型由四個(gè)模塊組成,分別為RNA處理模塊、S-LSTM模塊、GCN模塊和特征融合模塊(圖2)。
首先,利用RNA處理模塊對(duì)輸入的RNA序列進(jìn)行預(yù)處理,以便用于序列編碼、結(jié)構(gòu)預(yù)測(cè)和RNA圖構(gòu)建。接著,使用S-LSTM模塊和GCN模塊分別提取RNA序列特征和RNA二級(jí)結(jié)構(gòu)特征。最后,在特征融合模塊中,把從RNA序列和結(jié)構(gòu)中提取的特征進(jìn)行融合。融合后的特征通過(guò)完全連接層和sigmoid函數(shù)計(jì)算,最終輸出一個(gè)概率,表示輸入RNA序列是circRNA IRES的可能性。

小結(jié)
DeepCIP這種基于序列和結(jié)構(gòu)特征的多模式深度學(xué)習(xí)方法,可以識(shí)別circRNA IRES序列的可變長(zhǎng)度。由于IRES的功能依賴于RNA結(jié)構(gòu),作者構(gòu)建了一個(gè)加權(quán)RNA圖來(lái)建模RNA二級(jí)結(jié)構(gòu),并基于GCN提取結(jié)構(gòu)特征。同時(shí),作者創(chuàng)新性地使用S-LSTM學(xué)習(xí)全局節(jié)點(diǎn)來(lái)表征整個(gè)RNA序列,從而更好地為分類任務(wù)并對(duì)上下文信息進(jìn)行建模。
當(dāng)然,任何一個(gè)工具都不是完美無(wú)缺的,或多或少都會(huì)存在一些局限性。首先,作者認(rèn)為用于模型訓(xùn)練的數(shù)據(jù)是固定設(shè)計(jì)的RNA序列,長(zhǎng)度均為174 nt,然而真正的circRNA IRES序列卻具有不同的長(zhǎng)度。其次,大多數(shù)IRES的機(jī)制與核糖體的募集有關(guān),僅考慮序列和結(jié)構(gòu)特征,真核啟動(dòng)因子(eIF)和ITAF的調(diào)節(jié)可能不足以解釋IRES的機(jī)理,因此還需要進(jìn)一步考慮RNA與蛋白質(zhì)相互作用的信息。
以上是小編對(duì)DeepCIP做的一些簡(jiǎn)單介紹,作為第一款專門用于circRNA IRES預(yù)測(cè)的工具,DeepCIP的實(shí)用性可圈可點(diǎn),感興趣的朋友們可以嘗試安裝使用。
參考文獻(xiàn)
Yuxuan Zhou, Jingcheng Wu, et.al. DeepCIP: a multimodal deep learning method for the prediction of internal ribosome entry sites of circRNAs.2022
轉(zhuǎn)載請(qǐng)聯(lián)系郵箱授權(quán):circRNA@163.com