NBT:快準(zhǔn)全!geNomad——宏病毒組鑒定新工具
期刊
:nature biotechnology
影響因子
:46.9
發(fā)表時(shí)間
:2023年9月 在測(cè)序數(shù)據(jù)中識(shí)別可移動(dòng)遺傳元件對(duì)了解其多樣性、生態(tài)學(xué)、生物技術(shù)應(yīng)用和對(duì)公共健康的影響至關(guān)重要。本研究開發(fā)了geNomad——可同時(shí)識(shí)別和注釋測(cè)序數(shù)據(jù)中的質(zhì)粒和病毒序列。geNomad使用227897個(gè)標(biāo)記蛋白圖譜的數(shù)據(jù)集來(lái)提供病毒基因組的功能基因注釋和分類匹配。geNomad還使用條件隨機(jī)場(chǎng)模型高精度檢測(cè)整合到宿主基因組中的前病毒。在線使用網(wǎng)址:https://portal.nersc.gov/genomad.
圖1 geNomad網(wǎng)頁(yè)主頁(yè)面
1、鑒定和注釋質(zhì)粒和病毒的框架
geNomad采用混合方法進(jìn)行質(zhì)粒和病毒鑒定,結(jié)合了無(wú)比對(duì)分類器(序列分支)和基于基因的分類器(標(biāo)記分支),通過(guò)利用兩種分類器的優(yōu)勢(shì)來(lái)提高分類性能。
圖2 鑒定和注釋質(zhì)粒和病毒的框架
2、生成蛋白質(zhì)圖譜數(shù)據(jù)集,用于序列分類和蛋白質(zhì)注釋
geNomad使用染色體、質(zhì)?;虿《咎禺愋缘?27,897個(gè)蛋白質(zhì)譜的標(biāo)記物集對(duì)基因進(jìn)行分類,并為處理的序列提供功能信息。
圖3?蛋白質(zhì)圖譜數(shù)據(jù)集
3、geNomad可準(zhǔn)確識(shí)別質(zhì)粒和病毒
與其他工具相比,geNomad在質(zhì)粒和病毒分類任務(wù)中,在所有序列長(zhǎng)度范圍內(nèi)均表現(xiàn)出較好的總體分類性能,短序列中尤其明顯。
圖4?基因組準(zhǔn)確地識(shí)別病毒和質(zhì)粒
4、敏感、精確的鑒定前噬菌體
其他流行工具(Phigaro39、VIBRANT和VirSorter2)進(jìn)行了比較,geNomad性能更優(yōu),劃分的前噬菌體更完整,污染水平較低。
圖5?使用標(biāo)記信息來(lái)劃分原噬菌體的邊界
5、geNomad運(yùn)行速度快,可對(duì)大型數(shù)據(jù)集進(jìn)行分析
其他流行工具相比,geNomad運(yùn)行速度快,并且geNomad的標(biāo)記和序列分支可以獨(dú)立運(yùn)行,可以將運(yùn)行時(shí)間減少一半。geNomad最近被用于處理超過(guò)2.7萬(wàn)億個(gè)堿基對(duì)的測(cè)序數(shù)據(jù),從而發(fā)現(xiàn)了數(shù)百萬(wàn)種包含在IMG/VR和IMG/PR數(shù)據(jù)庫(kù)中的病毒和質(zhì)粒。?
表1??質(zhì)粒和病毒鑒定工具的分類方法和平均運(yùn)行時(shí)間
6、geNomad可以發(fā)現(xiàn)RNA病毒和巨型病毒
開發(fā)者使用病毒的最新知識(shí)訓(xùn)練geNomad,大大提高了geNomad對(duì)RNA病毒和巨型病毒的鑒定能力。
圖6?環(huán)境測(cè)序數(shù)據(jù)中發(fā)現(xiàn)RNA病毒和巨型病毒
結(jié)論
geNomad結(jié)合基因信息和深度神經(jīng)網(wǎng)絡(luò)信息來(lái)識(shí)別質(zhì)粒和病毒序列,使用了超過(guò)200,000個(gè)標(biāo)記蛋白譜的數(shù)據(jù)集對(duì)病毒基因組的功能基因進(jìn)行注釋和分類分配。使用條件隨模型,高精度地檢測(cè)整合到宿主基因組中的前噬菌體。在基準(zhǔn)測(cè)試中,各種性能大大優(yōu)于其他工具。
凌恩生物宏病毒分析流程已更新使用geNomad,用于宏病毒數(shù)據(jù)中前噬菌體的鑒定。更多測(cè)序項(xiàng)目了解,請(qǐng)關(guān)注凌恩生物公眾號(hào),緊跟CNS步伐,用最新的流程助力您的科研!?
參考文獻(xiàn)
Identification of mobile genetic elements with geNomad.nature biotechnology,2023.