爾云間生信代碼|基于線性建模方法對代謝組和轉(zhuǎn)錄組數(shù)據(jù)整合分析

代謝組學(xué)數(shù)據(jù)的解釋非常具有挑戰(zhàn)性,轉(zhuǎn)錄組學(xué)和代謝組學(xué)數(shù)據(jù)的整合改善了疾病相關(guān)代謝組學(xué)的功能解釋,并促進(jìn)了代謝物生物標(biāo)志物和基因靶標(biāo)的發(fā)現(xiàn)。目前,公共數(shù)據(jù)或客戶自有的多組學(xué)數(shù)據(jù),基因和代謝物譜,在這些類型的研究中,考慮到轉(zhuǎn)錄物 - 代謝物關(guān)系的復(fù)雜性,途徑/網(wǎng)絡(luò)方法可能既不適用也不容易發(fā)現(xiàn)新的關(guān)系??紤]到這一點,我們提出了一種簡單的線性建模方法來捕獲捕獲疾病(或其他表型)特定的基因和代謝物關(guān)聯(lián),通過假設(shè)共同調(diào)節(jié)模式反映功能相關(guān)基因和代謝物。
線性模型公式如下:
E(m|g,t) = β1 + β2 g + β3 p + β4 (g:p) + ε
其中'm'和'g'分別是代謝物豐度和基因表達(dá)水平,'p'是表型(癌癥類型,患者診斷,治療組等),'(g:p)'是基因表達(dá)和表型之間的關(guān)聯(lián),'ε'是錯誤術(shù)語,即正常分布?
使用方法:
Rscript Integration.R -input=input.csv -diffcorrvalue=0.8
參數(shù)說明:
USAGE:Integration.R ?-input=<input> -diffcorrvalue=<diffcorrvalue>PARAMETERS:- input ?Users need to input a CSV file with two required columns:type and filenames.The CSV file is expecected to have the following 2 columns and 6 rows:type,filenamesmetabData,myfilenamegeneData,myfilenamemetabMetaData,myfilename (optional)geneMetaData,myfilename (optional)sampleMetaData,myfilename- diffcorrvalue the absolute value difference of the gene-metabolite Spearman correlation (default set at 0.8) between the two groups,string
操作步驟:
1、打開命令行界面,輸入“Rscript ?Integration.R”調(diào)閱幫助文檔,確定該程序所需的輸入文件。
2、用戶根據(jù)幫助文檔中的參數(shù)說明內(nèi)容,對參數(shù)進(jìn)行設(shè)置。這里,必須輸入?yún)?shù)有2個,分別是- input,列出導(dǎo)入的基因表達(dá)和代謝物數(shù)據(jù)文件的位置(代謝物數(shù)據(jù)、基因表達(dá)數(shù)據(jù)、代謝物元數(shù)據(jù)、基因元數(shù)據(jù)和樣本元數(shù)據(jù))。這些文件夾必須在同一個文件夾中。不要在文件名中包含路徑名。該文件位置表格格式如下所述。

請確保所有文件都為CSV文件且都位于同一文件夾中。
-diffcorrvalue??兩組間基因代謝物Spearman相關(guān)系數(shù)的絕對值差(默認(rèn)設(shè)置為0.8)
3、完成參數(shù)提交后,按下回車鍵,整個程序即正式開始進(jìn)入執(zhí)行。每步執(zhí)行內(nèi)容都會給出提示。程序執(zhí)行完畢后,界面會顯示”Program execution is completed"結(jié)束語。
結(jié)果展示:
共輸出1個表格csv格式文件,1個pdf格式的圖片文件,2個html格式的圖片文件
1.?corResults.csv

注:篩選出來的符合閾值條件的基因-代謝物關(guān)系對, metab:代謝物名稱;gene:基因名稱;case_cor:疾病組內(nèi),基因代謝物兩者相關(guān)性;?normal_cor:正常組內(nèi),基因代謝物兩者相關(guān)性;?diff.corr:兩組間基因代謝物兩者相關(guān)性;Pval:關(guān)聯(lián)性p值;FDRadjPval:校正后p值?
2.?KEGG enzyme.csv

代謝物網(wǎng)絡(luò)節(jié)點在KEGG數(shù)據(jù)庫中的具體含義,KEGG.id:KEGG數(shù)據(jù)庫中對應(yīng)的ID號,Entry.type:類別,KEGG.name:名稱,p.score:p值
3.?Distributions.html

轉(zhuǎn)錄組、代謝組表達(dá)柱形圖?橫坐標(biāo)為樣本,縱坐標(biāo)為表達(dá)量,左圖為基因樣本,右圖為代謝組樣本
4.?PCA.html

代謝物和基因表達(dá)數(shù)據(jù)主成分分析結(jié)果?左圖為基因數(shù)據(jù),右圖為代謝組數(shù)據(jù),紅色圓形為xx樣本,藍(lán)色方形為xx樣本?
5.DistPvalues.pdf?????

所有基因和代謝物關(guān)聯(lián)性p值分布圖?橫坐標(biāo)為關(guān)聯(lián)性p值,縱坐標(biāo)為該p值出現(xiàn)頻率。
特別說明:本代碼經(jīng)申請軟件著作權(quán),僅轉(zhuǎn)讓使用權(quán),不轉(zhuǎn)讓所有權(quán)
如需代碼及示例數(shù)據(jù)等文件,請掃碼聊天框回復(fù) “代碼”領(lǐng)??!

寫在文末:
如果您近期想做生信方面的文章而苦于沒有思路,或者不知道如何來入手生信分析,或者兌具體的某一個圖有作圖需求,都可以掃碼咨詢小云,我們有專業(yè)的技術(shù)團(tuán)隊,生信熱點思路設(shè)計、生信分析、熱點方向生信挖掘等,如有需要,可掃碼下方二維碼了解詳情:?
