人群研究必看!臨床大隊(duì)列診斷標(biāo)志物發(fā)現(xiàn)解決方案來(lái)襲
摘要:代謝組學(xué)的快速發(fā)展為精確醫(yī)學(xué)新突破提供了革命性的方法,與基因組相似,“代謝組”描述的是細(xì)胞或機(jī)體內(nèi)的所有小分子(<1.5 kDa)的組成。代謝產(chǎn)物不僅指細(xì)胞代謝的內(nèi)源性副產(chǎn)物,還包括來(lái)自飲食、環(huán)境和腸道菌群的外源性的生物活性物質(zhì)。代謝物作為基因表達(dá)和環(huán)境暴露的下游終產(chǎn)物,在基于人群研究的臨床生物標(biāo)志物的發(fā)現(xiàn)提供了一種新思路。
臨床代謝組標(biāo)志物發(fā)現(xiàn)研究流程
代謝組學(xué)中發(fā)現(xiàn)和驗(yàn)證與人類(lèi)疾病相關(guān)的疾病診斷、預(yù)后或預(yù)測(cè)性生物標(biāo)志物的數(shù)據(jù)流程通常包括:實(shí)驗(yàn)設(shè)計(jì)、樣本制備和質(zhì)譜數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)整合分析、復(fù)雜體系中的代謝物鑒定、生物學(xué)意義解釋、標(biāo)志物驗(yàn)證和臨床試驗(yàn)等。臨床標(biāo)志物的發(fā)展對(duì)促進(jìn)個(gè)體化醫(yī)學(xué)、藥物開(kāi)發(fā)和早期發(fā)現(xiàn)遺傳病和慢性病的進(jìn)展具有重要意義。

圖1 臨床代謝組標(biāo)志物發(fā)現(xiàn)研究流程
臨床大隊(duì)列研究意義及挑戰(zhàn)??

數(shù)據(jù)采集質(zhì)量控制
質(zhì)量控制是代謝組分析的第一要素,用來(lái)保證代謝組學(xué)測(cè)定的數(shù)據(jù)的重復(fù)性和精確性。MS定量分析時(shí),使用內(nèi)標(biāo)化合物用于控制樣品提取、LC進(jìn)樣和電離等過(guò)程種的誤差。內(nèi)標(biāo)選擇規(guī)則如下:

數(shù)據(jù)處理——數(shù)據(jù)校準(zhǔn)算法解決大樣本批次效應(yīng)
由于色譜系統(tǒng)和質(zhì)譜與樣品的長(zhǎng)時(shí)間接觸,隨著分析樣品的增多色譜柱和質(zhì)譜會(huì)逐步的污染,導(dǎo)致信號(hào)的漂移。質(zhì)控樣本被用于評(píng)估整個(gè)質(zhì)譜數(shù)據(jù)在采集過(guò)程中的信號(hào)漂移,這些漂移能夠被基于QC的算法所識(shí)別、校正,提高最終獲得的數(shù)據(jù)質(zhì)量。使用支持向量回歸(Support vector regression, SVR) 或基于隨機(jī)森林系統(tǒng)誤差剔除的歸一化方法 (Systematical error removal using random forest, SERRF)對(duì)大樣本數(shù)據(jù)進(jìn)行校正。SVR是SVM(支持向量機(jī)support vector machine)對(duì)回歸問(wèn)題的一種運(yùn)用,通過(guò)找出一個(gè)超平面,使得所有數(shù)據(jù)到這個(gè)超平面的距離最小,與線性模型類(lèi)似,對(duì)區(qū)域外的點(diǎn)進(jìn)行回歸,希望這些殘差(ζ)最小。
SERRF采用的是隨機(jī)森林的方法來(lái)對(duì)代謝組學(xué)數(shù)據(jù)進(jìn)行歸一化,是一種非參、非線性的方法,具有不容易過(guò)擬合的優(yōu)點(diǎn),利用隨機(jī)森林的算法,SERRF自動(dòng)選擇相關(guān)的QC樣本中的化合物來(lái)歸一化系統(tǒng)誤差。不同算法具有不同的特點(diǎn)。以下展示了中科新生命大批次樣本用2種算法校正后的結(jié)果, 2種算法均可獲得較好的信號(hào)漂移校正效果。



標(biāo)志物篩選創(chuàng)新研究點(diǎn):脂質(zhì)組+非靶代謝描繪總體代謝譜
除了常規(guī)極性代謝物外,脂質(zhì)是一類(lèi)參與調(diào)節(jié)多種生命活動(dòng)的重要非極性小分子,脂質(zhì)代謝的異??赡芤l(fā)諸多疾病,如肥胖、動(dòng)脈硬化等。脂質(zhì)組學(xué)通過(guò)研究脂質(zhì)在生物樣本中的組成、結(jié)構(gòu)特點(diǎn)及量的變化等方式,來(lái)闡明脂質(zhì)在細(xì)胞水平上代謝方式,研究脂質(zhì)分子在各種生命現(xiàn)象中的作用機(jī)制,是代謝組學(xué)的一個(gè)重要分支。

圖7 脂質(zhì)組學(xué)應(yīng)用于多種疾病研究
代謝數(shù)據(jù)挖掘
1)集成機(jī)器學(xué)習(xí)構(gòu)建具有預(yù)測(cè)樣本組別的模型
臨床生物標(biāo)志物的篩選、及診斷panel優(yōu)化構(gòu)建是臨床應(yīng)用轉(zhuǎn)化前期基礎(chǔ),如何高效從海量的組學(xué)數(shù)據(jù)中獲得高靈敏、高穩(wěn)定、高準(zhǔn)確率的潛在生物標(biāo)志物?也是利用高通量組學(xué)技術(shù)進(jìn)行標(biāo)志物篩選所面臨的主要挑戰(zhàn)之一。在機(jī)器學(xué)習(xí)算法中,特征選擇算法被廣泛應(yīng)用于潛在的生物標(biāo)志物篩選。流程概覽如下:

機(jī)器學(xué)習(xí)算法中roc (Receiver Operating Characteristic) curve是一個(gè)畫(huà)在二維平面上的曲線,平面的橫坐標(biāo)是 FPR (false positive rate),縱坐標(biāo)是 TPR (true positive rate)。對(duì)某個(gè)分類(lèi)器而言,我們可以根據(jù)其在測(cè)試樣本上的表現(xiàn)得到一個(gè)TPR和FPR點(diǎn)對(duì),這樣,此分類(lèi)器就可以映射成roc平面上的一個(gè)點(diǎn)?;跇颖局杏?xùn)練集和測(cè)試集候選Biomarkers的表達(dá)量,利用構(gòu)建的診斷模型進(jìn)行roc分析,進(jìn)行診斷模型的評(píng)價(jià),AUC (Area Under roc Curve) 是一種用來(lái)度量分類(lèi)模型好壞的一個(gè)標(biāo)準(zhǔn),通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的performance。

2)多組學(xué)聯(lián)合分析
單一組學(xué)分析方法可以提供不同生物學(xué)過(guò)程的信息。但是,這些分析往往有一定的局限性,多組學(xué)方法整合多組學(xué)信息可以為生物機(jī)制提供更多證據(jù),從深層次挖掘候選關(guān)鍵生物步驟。通過(guò)將代謝和轉(zhuǎn)錄、蛋白等不同層面之間信息進(jìn)行整合,構(gòu)建調(diào)控網(wǎng)絡(luò),深層次理解各個(gè)分子之間的因果關(guān)系,從而更深入的認(rèn)識(shí)復(fù)雜性狀的分子機(jī)理。如將轉(zhuǎn)錄組、代謝組、宏基因組數(shù)據(jù)進(jìn)行整合,構(gòu)建多組學(xué)相關(guān)網(wǎng)絡(luò)可以幫助揭示宿主-菌群相互作用機(jī)制:

圖10 腸道菌群關(guān)鍵基因和關(guān)鍵代謝物相關(guān)性