爾云間生信代碼|基于甲基化數(shù)據評估腫瘤純度及下游可視化軟件

腫瘤甲基化水平和純度之間的高度相關性可以表明腫瘤甲基化水平嚴重受腫瘤純度的影響,而從癌癥病人那里通過手術獲得的腫瘤組織又都是不純的,從而可以說明我們所獲得的腫瘤樣本的甲基化水平值由于受腫瘤樣本純度的影響偏離“純癌癥”樣本的甲基化水平值更遠,并不能代表此癌癥樣本的純的甲基化水平,所以估計“純化”癌癥樣本的甲基化水平值是非常必要的。
考慮腫瘤樣本的純度值,對于每一個CpG位點,構造此位點甲基化水平的線性模型,因為在此位點處來源于并不成對的癌癥和癌旁組織,所以可以假設腫瘤樣本與癌旁樣本的甲基化水平是相互獨立的,利用最小二乘法對線性回歸中的參數(shù)進行估計,從而得到檢驗統(tǒng)計量。再通過自由度為n1+ n0-2的t檢測獲得pval值,通過FDR獲得qval值,進行差異甲基化位點分析。
然后結合R包InfiniumPurify通過考慮腫瘤樣本的純度,利用線性回歸模型建模,從而可以達到“純化”癌癥樣本的目的。通過對腫瘤樣本,正常樣本以及腫瘤細胞的純度數(shù)據建立線性回歸模型,矯正純度效應后,在甲基化相關差異位點,得到純化的腫瘤樣本甲基化水平值。
使用方法:
?????? Rscript ?tumorPurify.r? -Eset= ?-case= ?-control= ?-group_file= ?-cell_type=
參數(shù)說明:
USAGE:
tumorPurify.r -Eset=-case=-control=-group_file=-qvalue=
PARAMETERS:
??????? -Eset?? the gene expression matrix ,gene as row,sample as column ,input csv format.
??????? -case?? the name of the case,string.
??????? -control??????? the name of the control,string.
??????? -group_file???? the sample classification labels ,the first column is sample name which is consistent with Eset column in order,the second column is the classification labels whith named"group", input txt table format.
??????? -qvalue?? ??????the DMC Threshold ,string
操作步驟:
?1、打開命令行界面,輸入“Rscript ?tumorPurify.r”調閱幫助文檔,確定該程序所需的輸入文件。
? 2、用戶根據幫助文檔中的參數(shù)說明內容,對參數(shù)進行設置。這里,必須輸入參數(shù)有5個,分別是-Eset,表示基因表達矩陣文件,以基因為行,樣本為列,保存為csv文件;-case 表示疾病組分組名稱,字符型,注意要和group_file 中保持一致,例如"septic_shock";-control表示對照組分組名稱,字符型,注意要和group_file 中保持一致,例如"healthy";-group_file表示樣本表型信息,包含兩列,第一列為樣本名稱,順序必須和基因表達矩陣的樣本一致,第二列為對應的表型分組,并且表頭設置為”group”;- qvalue 差異甲基化位點篩選閾值,建議閾值為0.01,可根據需要調整。
3、完成參數(shù)提交后,按下回車鍵,整個程序即正式開始進入執(zhí)行。每步執(zhí)行內容都會給出提示。程序執(zhí)行完畢后,界面會顯示”Program execution is completed"結束語。
結果展示:
1. purity value.txt

2.DMC all.txt

3. DMC 0.01.txt

4. cgxxx.pdf.pdf

特別說明:本代碼經申請軟件著作權,僅轉讓使用權,不轉讓所有權
如需代碼及示例數(shù)據等文件,請掃碼聊天框回復 “代碼”領取!

寫在文末:
如果您近期想做生信方面的文章而苦于沒有思路,或者不知道如何來入手生信分析,或者兌具體的某一個圖有作圖需求,都可以掃碼咨詢小云,我們有專業(yè)的技術團隊,生信熱點思路設計、生信分析、熱點方向生信挖掘等,如有需要,可掃碼下方二維碼了解詳情 !
