宏基因組鑒定病毒流程中需要的生物信息工具

許多流行病的爆發(fā)都是病毒引起的,面對新的傳染性基因組出現(xiàn)的最佳策略是及時識別,以便于在感染開始時立即實施相應措施。
目前可用的診斷測試僅限于檢測新的病理因子。適用于同時檢測存在的任何病原體的高通量方法可能比使用基于當前方法的大量單獨測試更有優(yōu)勢。
宏基因組學測序、全基因組測序和靶向深度測序是目前用于病毒遺傳鑒定和表征的最佳工具。通過使用這些技術,可以正確的對病毒進行分類,確定其變異性,識別與毒性相關的病毒遺傳標記,并在現(xiàn)有知識的基礎上考慮抗原性和對抗病毒藥物的易感性。
盡管宏基因組學領域取得了巨大進步,但對于具體數(shù)據(jù)分析任務應使用各種方法中的哪一種,仍缺乏共識。
本文重點描述了宏基因組生物信息數(shù)據(jù)處理所需要的工具,以便于改善使用宏基因組學識別動物來源樣本中新出現(xiàn)、再出現(xiàn)和未知的新病毒。
宏基因組學識別病毒數(shù)據(jù)處理流程工具
什么是宏基因組學?
宏基因組學是下一代測序的一個領域,可以識別微生物群落,以及基因檢測、識別和表征致病因子。它已被證明是病毒遺傳特征的關鍵因素,并導致了使用傳統(tǒng)培養(yǎng)技術無法完成的發(fā)現(xiàn)。
目前的分子檢測使用特定的引物或探針針對有限數(shù)量的病原體,而宏基因組學可以接近樣本中存在的所有 DNA 和 RNA 分子,從而能夠分析相應的宿主基因組及其微生物集合。
在宏基因組組裝中鑒定病毒有五個主要步驟:
質(zhì)量控制(QC)
修剪低質(zhì)量序列
組裝
組裝后的數(shù)據(jù)質(zhì)檢(可選)
對組裝后序列進行物種注釋(識別已經(jīng)測序的已知病毒和識別尚未測序或未知的病毒)
宏基因組分箱是在物種注釋之前可選的附加步驟。分箱的目的是根據(jù)根據(jù)序列的起源對其進行聚類。
根據(jù)這些步驟,列舉出以下目前使用較多的主流工具。
序列質(zhì)檢工具
宏基因組學的第一步將是執(zhí)行序列QC,因為從分析中消除技術錯誤是必不可少的。
此步驟的主要目的是識別不需要的接頭序列、過短的序列、低質(zhì)量的序列或核苷酸以及其他可能存在的數(shù)據(jù)。根據(jù)數(shù)據(jù)類型,在這一步中可以使用以下幾種工具:

編輯
對于短讀,可以使用FastQC執(zhí)行質(zhì)檢 (https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) ,它可以檢查序列的質(zhì)量并生成總結報告。
其他QC程序也可以提供相同類型的報告,如MultiQC,它具有與FastQC相同的功能,但有一個主要區(qū)別,它可以同時合并多個fastq的QC報告,生成一個總的報告。
對于長讀,可以使用longQC或MinionQC來檢查序列質(zhì)量,這兩個工具已經(jīng)應用于從納米孔的MinION或其他長讀取測序儀中獲得的數(shù)據(jù)。
用于數(shù)據(jù)預處理的工具
—— 低質(zhì)量序列修剪工具
序列質(zhì)檢后,就需要修剪工具,刪除低質(zhì)量序列和接頭序列??晒┦褂玫墓ぞ呷缦聢D。

編輯
對于短讀,常用的是Trimmomatic,其次是Cutadapt和Fastp。
對于長讀,NanoPack可用于處理長讀數(shù)據(jù)并可視化QC結果。與Nanopack功能相同的是SequelTools。
——刪除測序數(shù)據(jù)中非靶向或污染序列的工具
刪除不感興趣的序列,這些序列可以從各種來源獲得。在對病毒序列的分析中,必須刪除宿主序列和被污染序列,它可以減少假陽性,并可以防止嵌合病毒-宿主序列的組裝。
如下圖,通常使用序列比對的工具:

編輯
對于短讀,可以使用BWA、bowtie2和BBMap等。
其它工具如FastQ-Screen,可以以fastq格式比對自定義參考序列。
(https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/)
對于長讀,可以使用BWA和BBMap,也可以選擇特定的minimap2。
也有專門用于識別和修剪特定微生物類群序列的工具,這類工具通常已包含參考基因組序列,一旦比對上,將通過內(nèi)置的過濾程序丟棄掉。比如VirusHunter(https://bio.tools/virushunter),用于識別NGS數(shù)據(jù)中的病毒序列。
某些情況下,可能需要從宏基因組數(shù)據(jù)中刪除非靶向分類群的其他RNA序列類型,如核糖體(rRNA),線粒體(mtRNA),或mRNA類型。這時可以用RiboDetector (https://github.com/hzi-bifo/RiboDetector),因為它專門識別rRNA,從而可以過濾掉rRNA以改進后續(xù)分析。
另一種方法是在組裝前對序列進行物種注釋。使用這種策略,可以過濾掉病毒以外的序列,保留病毒序列以供進一步分析??梢允褂?strong>kraken2和kaiju。
序列組裝
為了更好的進行物種注釋和識別存在的病毒,對序列進行組裝,生成contigs,以提供更長的連續(xù)序列。宏基因組學中使用的組裝類型主要為de novo,即從頭基因組組裝。
可使用的工具如下圖:

編輯
對于短讀,推薦MEGAHIT,這是一個針對宏基因組優(yōu)化的生物信息學組裝工具,或者metaSPADES和IDBA-UD,它們也針對宏基因組進行了優(yōu)化。
除了de novo,還有一種基于參考的組裝,也可以用于宏基因組學。只是,并不是在所有情況下都可以獲得合適的參考基因組,而且這種方法不能識別新的病毒或以前沒有測序的病毒。
對于長讀,推薦metaFlye、Canu和NECAT,這些工具可以用于各種技術下產(chǎn)生的數(shù)據(jù)格式,從納米孔測序到PacBio,甚至在高保真序列。
對于混合組裝,也就是將短讀和長讀的兩個特性結合起來的組裝,推薦OPERA-MS和HybridSPADES工具,它們都是用De Bruijn圖算法實現(xiàn)的。
對組裝完成后的序列質(zhì)檢
宏基因組組裝完成,就應該確定組裝的質(zhì)量。用于此目的的工具可以分為兩大類:
一類是需要參考基因組的工具,例如MetaQUAST,它使用參考來計算組裝的統(tǒng)計信息。一般而言,在宏基因組學研究中,可能很難使用參考基因組,因為通常沒有可用的參考基因組或參考基因組的質(zhì)量很差。
不需要參考基因組的方法,例如DeepMAsED,它使用機器學習來識別錯誤裝配,或者REAPR,是一種使用映射的配對端讀長來評估基因組組裝準確性的工具。常用的還有BUSCO和CheckM。
最后,VALET(https://github.com/marbl/VALET)可以用于檢測宏基因組數(shù)據(jù)中的誤組裝,因為它可以根據(jù)覆蓋范圍對contigs進行分類,并避免由于覆蓋深度不均勻而導致的假陽性和假陰性。

編輯
在宏基因組分析中識別病毒的一個重要步驟是進行物種注釋。實現(xiàn)這一步驟的主要方法有兩種:
第一種是直接對序列進行分類
第二種是通過contigs建立分類
兩種方法各有優(yōu)缺點:
在使用contig(即使用組裝序列)進行的物種注釋中,分類的對象是較長的序列,它存在一些contigs可能是嵌合的風險。
而直接對reads進行物種注釋的統(tǒng)計學意義較小,雖然分析了大量的序列,但序列較短,這種方法可以提供更多樣化的結果,只是計算成本會更高。
識別已知病毒或未知的新病毒的工具
對于已知病毒的識別,一種是基于k-mer,直接使用參考數(shù)據(jù)庫與reads/contigs進行比對,如kraken2、bracken、CLARK和Centrifuge,
另一種是先翻譯序列,然后與參考蛋白質(zhì)數(shù)據(jù)庫進行比對,如kaiju、DIAMOND和MMseqs2。
還有基于算法的,如BLAST或DUDes,它們使用DUD(Deepest Uncommon Descent)算法。
使用基因標記的,如MetaPhlAn4、IGGsearch和GOTTCHA。
也有專門用來研究病毒組的工具,如VirusTaxo、Metavir2和DeepVirFinder,其主要算法是卷積神經(jīng)網(wǎng)絡(CNN)。
其中如MetaPhlAn4和MCP (Microbiota Community Profiler),包含未知的宏基因組組裝基因組的序列,而MCP只能用于識別微生物區(qū)研究中的細菌、古菌、真核生物和病毒序列。
由于每個用于物種注釋的工具的性能都不同,且都使用了各種算法和參考數(shù)據(jù)庫,所以這種多樣性也會導致不一樣的結果、耗時和計算成本。
? 基于k-mer的物種注釋工具似乎是計算效率最高的,雖然它們需要很大的內(nèi)存。
? 基于標記的,對內(nèi)存的要求較低,但它們只能對來自特定區(qū)域的reads/contigs進行注釋分類。
? 基于比對的工具要比其他的計算成本更高。

編輯
對于新型病毒的識別,現(xiàn)在也有不需要任何參考就能識別病毒序列的工具,即:
? VirSorter(https://github.com/simroux/VirSorter)
? VirFinder(https://github.com/jessieren/VirFinder)
VirFinder是一個基于k-mer的R包,可以以較好的預測識別病毒的contigs;
而VirSorter可以在不同的微生物數(shù)據(jù)集中識別新的病毒序列。
宏基因組分箱
在物種注釋之前可以選擇是否執(zhí)行分箱(binning)。
分箱的主要目的是根據(jù)物種對contig進行聚類。根據(jù)數(shù)據(jù)類型,可使用的工具如下圖:

編輯
CONCOT,它可以根據(jù)核苷酸組成和覆蓋率數(shù)據(jù)對宏基因組contigs進行聚類。
GraphBin,它使用組裝的連通性信息對contig進行集群化。
但宏基因組分箱并不局限于contigs,對于長讀,可使用MEGAN-LR、BusyBee或LRBinner。
結 語
近年來,宏基因組學領域取得了許多進展,新技術可以幫助研究人員發(fā)現(xiàn)新的病毒,預測疫情,診斷某些疾病等。
長讀測序平臺也在快速發(fā)展,以得出更可靠的結果助力宏基因組分析。雖然已有許多工具和流程被開發(fā)出來以便更快更簡單地進行數(shù)據(jù)分析,但還需要進一步發(fā)展,例如在數(shù)據(jù)處理分析中的通用指南的建立,因為雖然出于同一種目的而開發(fā)的工具,但由于計算過程不一樣,它們在不同任務中的性能缺乏共識。此外,重要的是保持相關數(shù)據(jù)庫的更新與維護。
宏基因組學檢測人類樣本中任何基因組(包括細菌、病毒、寄生蟲和真菌)的能力,對于傳染病的診斷具有重要意義。宏基因組學方法也已應用于其他幾個研究領域:環(huán)境研究(如海洋樣本、土壤、污水、農(nóng)場灰塵) ;7000 年前青銅時代人類樣本中的病毒感染;健康、疾病和法醫(yī)調(diào)查中人體腸道微生物組的特征;臨床研究 ; 以及新病毒病原體的發(fā)現(xiàn),例如 SARS-CoV-2等。
Iba?ez-Lligo?a M, Colomer-Castell S, González-Sánchez A, Gregori J, Campos C, Garcia-Cehic D, Andrés C, Pi?ana M, Pumarola T, Rodríguez-Frias F, Antón A, Quer J. Bioinformatic Tools for NGS-Based Metagenomics to Improve the Clinical Diagnosis of Emerging, Re-Emerging and New Viruses. Viruses. 2023 Feb 20;15(2):587. doi: 10.3390/v15020587. PMID: 36851800; PMCID: PMC9965957.