IF:21.1: 中國科學家發(fā)布微生物組R語言分析最佳實踐?。?/h1>

????????高通量測序時代,微生物組研究中常用擴增子測序及宏基因組測序技術(shù)研究微生物群落的多樣性、結(jié)構(gòu)和功能。大量的數(shù)據(jù)信息處理及可視化成為微生物組研究的迫切需求,而用于分析的R語言包軟件紛繁復雜,功能類似,難以抉擇,給許多研究人員探索微生物組數(shù)據(jù)帶來了重大挑戰(zhàn)。
????????南京農(nóng)業(yè)大學袁軍組&中國農(nóng)業(yè)科學院劉永鑫組共同匯總介紹了基于R語言的324個常用R包的數(shù)據(jù)挖掘過程,根據(jù)微生物組研究的6大功能類別對這些R包進行了功能分類,不僅總結(jié)了微生物組數(shù)據(jù)分析中的常見內(nèi)容,還對常用的集成R包的優(yōu)點及局限性進行了細致介紹,提出了最適合微生物組數(shù)據(jù)挖掘的分析流程。相關(guān)代碼可獲取自:https://github.com/taowenmicro/EasyMicrobiomeR??大家可隨時取用哦!

????????在該綜述中,作者首先介紹了基于擴增子測序的微生物群落數(shù)據(jù)分析工作流程(A圖)。其核心文件是OTU聚類注釋信息,包括OTU表、分類表、樣品元數(shù)據(jù)(Metadata)、系統(tǒng)發(fā)育樹(Tree)和代表序列(Rep.fa)。首先,原始數(shù)據(jù)可以通過使用USEARCH/VSEARCH、QIIME2、DADA2軟件包進行處理。然后,將重要文件保存,用于RStudio軟件下的R語言環(huán)境開展下游分析。許多微生物分析方法都依賴于R語言開發(fā)的R包。
????????然而,下游分析R包的數(shù)量已經(jīng)達到了令人眼花繚亂的水平。下圖詞云圖中的字體大小代表R包的引用次數(shù)(B圖)。
????????文章梳理了常用于數(shù)據(jù)預處理和可視化的常用的R包共計88項(C圖),以及微生物群落分析的六大類分析的R包(D圖 )(包括多樣性分析、差異性分析、標志物識別、相關(guān)性及網(wǎng)絡分析、功能預測及其他相關(guān)分析等),并針對不同的研究內(nèi)容對應軟件進行了詳盡的優(yōu)勢介紹。

????????此外,專用于微生物數(shù)據(jù)處理的R包也被納入介紹體系,作者將常用的六大種微生物組分析集成R包進行了詳盡介紹,系統(tǒng)梳理了這六個常用分析集成包的功能。包括:
Phyloseq包
Microbiome包
MicrobiomeAnalystR包
Microeco包(強烈推薦!)
amplicon包

????????由于過多的R包可能會阻礙微生物組研究人員進行有效地選擇。因此,作者在六種分析中選擇了高效、常用、用戶友好的函數(shù)包,涵蓋了微生物研究中的多項分析內(nèi)容:1) 多樣性分析,2) 差異分析,3) 生物標志物識別,4) 相關(guān)性和網(wǎng)絡分析,5) 功能預測,6) 其他微生物組分析。新的R函數(shù)整合總結(jié)了微生物組中大部分常見的分析內(nèi)容,形成了最適合微生物組分析的路徑,實踐成果實例如下圖:

????????使用適當?shù)臄?shù)據(jù)結(jié)構(gòu)可以加速微生物組數(shù)據(jù)分析。對R語言包的開發(fā)和集成包的構(gòu)建不斷推進了微生物組研究的發(fā)展和數(shù)據(jù)挖掘的深入。這篇綜述系統(tǒng)樹立了R語言包的功能和優(yōu)勢,針對冗余的功能軟件進行了系統(tǒng)性評價,避免重復使用相同部分或類似內(nèi)容,突出了R包的優(yōu)勢,更有利于數(shù)據(jù)挖掘、機器建模分析,為今后開發(fā)更好的微生物組工具提供了重要的理論依據(jù)和實踐參考。