爾云間生信代碼|基于參數(shù)型經(jīng)驗(yàn)貝葉斯算法和支持向量機(jī)(SVM)篩選疾病亞型特征基因

目前許多疾病往往包含著不同的疾病亞型,例如白血病經(jīng)常包含ALL:急淋淋巴細(xì)胞白血病、AML:急性髓細(xì)胞白血病、CML:慢性髓細(xì)胞白血病、CLL:慢性淋巴細(xì)胞白血病。
如何識(shí)別挖掘不同疾病亞型的標(biāo)志性基因集是研究熱點(diǎn)之一,這對(duì)于疾病的針對(duì)性治療有著巨大的意義。常規(guī)的方法通常是進(jìn)行兩兩亞型之間的差異比較,如果亞型較少,這樣的方法固然可靠,但是當(dāng)疾病亞型大于3個(gè),很顯然增大了工作量,因此本代碼通過基于參數(shù)型經(jīng)驗(yàn)貝葉斯算法對(duì)疾病相關(guān)基因進(jìn)行分類能力的預(yù)測(cè),其次采用支持向量機(jī)(SVM)構(gòu)建分類器,找到各個(gè)疾病亞型的顯著基因集,這些基因能夠明顯將某個(gè)亞型與其它亞型顯著分開。
用戶只需要輸入基因表達(dá)矩陣及樣本的表型信息(這里指疾病亞型分類),代碼將自行計(jì)算出每個(gè)疾病亞型下的關(guān)鍵基因,同時(shí)給出基因共表達(dá)網(wǎng)絡(luò)構(gòu)建的相應(yīng)節(jié)點(diǎn)及邊文件,可以直接導(dǎo)入到網(wǎng)絡(luò)構(gòu)圖軟件Cytoscape進(jìn)行網(wǎng)絡(luò)圖繪制。
使用方法:
Rscript??geNetClassifier.r??-Eset= ??-sampleLabels=??-postThr= ?-corThr?
參數(shù)說明:
USAGE:geNetClassifier.r -Eset=<Eset> -sampleLabels=<sampleLabels> -postThr=<postThr> -corThr=<corThr>
PARAMETERS:
-Eset ??the gene expression matrix ,gene as row,sample as column ,input csv format.
-sampleLabels ??the sample classification labels ,the first column is sample name which is consistent with Eset column in order,the second column is the classification labels, input csv format.
-postThr ???????The threshold of posterior probability that represents how much each gene differentiates a class from the other classes.
-corThr The threshold of Pearson correlation that built gene networks derived from gene to gene co-expression analysis.
操作步驟:
1、打開命令行界面,輸入“geNetClassifier.r”調(diào)閱幫助文檔,確定該程序所需的輸入文件。
2、用戶根據(jù)幫助文檔中的參數(shù)說明內(nèi)容,對(duì)參數(shù)進(jìn)行設(shè)置。這里,必須輸入?yún)?shù)有2個(gè),分別是-Eset,表示基因表達(dá)矩陣文件,以基因?yàn)樾?,樣本為列,保存為csv文件;-sampleLabels表示樣本表型信息,這里指疾病亞型分類,包含兩列,第一列為樣本名稱,順序要和基因表達(dá)矩陣列一致,第二列為對(duì)應(yīng)的表型;可選參數(shù)有兩個(gè),分別是-postThr,為后驗(yàn)概率,表示某個(gè)基因有多大的可能性將某個(gè)亞型與其它亞型區(qū)分開,默認(rèn)是0.95;-corThr 表示兩個(gè)基因之間的pearson相關(guān)系數(shù),主要用于后期網(wǎng)絡(luò)構(gòu)建過濾,默認(rèn)是0.8。
3、完成參數(shù)提交后,按下回車鍵,整個(gè)程序即正式開始進(jìn)入執(zhí)行。每步執(zhí)行內(nèi)容都會(huì)給出提示。程序執(zhí)行完畢后,界面會(huì)顯示”Program execution is completed"結(jié)束語(yǔ)。
結(jié)果展示:
每個(gè)表型都會(huì)輸出6個(gè)文件,包含2個(gè)PDF文件和4個(gè)txt表格文件,這里以ALL舉例說明。
1、ALL_genes_expression.pdf

該圖表示在ALL亞型中識(shí)別出的關(guān)鍵基因在各個(gè)亞型中的表達(dá)值,可以看到該基因很明顯在ALL亞型中高表達(dá)
2、ALL_genes_discriminant_power.pdf

該圖表示在ALL亞型中識(shí)別出的關(guān)鍵基因能夠?qū)⒃搧喰秃推渌鼇喰蛥^(qū)分的能力,和正負(fù)無關(guān),絕對(duì)值越大,區(qū)分能力越強(qiáng)
3、ALL_GeneRankingDetails.txt

該表格表示初步按照我們?cè)O(shè)置的后驗(yàn)概率postThr,篩選出的符合大于該概率的亞型標(biāo)志基因集。
Class:基因所屬的class
postProb: 基因的后驗(yàn)概率
exprsMeanDiff:基因在該class相對(duì)于其他classes的均值差異。
exprsUpDw:基因在該class相對(duì)于其他classes的表達(dá)上下調(diào)情況。exprsMeanDiff大于0,表達(dá)上調(diào),小于0表達(dá)下調(diào)。
4、ALL_ClassGeneDetails.txt

該表格表示進(jìn)一步通過SVM構(gòu)建分類器,最終篩選出的亞型標(biāo)志基因集。格式與ALL_GeneRankingDetails.txt一致。
discriminantPower: 基因?qū)⒃揷lass與其他classes區(qū)分的power。
5、ALL_GeneNetwork_node.txt

該表格表示按照我們?cè)O(shè)置的相關(guān)系數(shù)corThr,篩選出的符合大于該相關(guān)系數(shù)的亞型基因集,為最后網(wǎng)絡(luò)構(gòu)建的節(jié)點(diǎn)。格式與ALL_GeneRankingDetails.txt一致。
6、AML_GeneNetwork_edge.txt

該表格表示按照我們?cè)O(shè)置的相關(guān)系數(shù)corThr,篩選出的符合大于該相關(guān)系數(shù)的亞型共表達(dá)關(guān)系對(duì),為最后網(wǎng)絡(luò)構(gòu)建的邊。
特別說明:本代碼經(jīng)申請(qǐng)軟件著作權(quán),僅轉(zhuǎn)讓使用權(quán),不轉(zhuǎn)讓所有權(quán)
如需代碼及示例數(shù)據(jù)等文件,請(qǐng)掃碼聊天框回復(fù) “代碼”領(lǐng)??!

寫在文末:
如果您近期想做生信方面的文章而苦于沒有思路,或者不知道如何來入手生信分析,或者兌具體的某一個(gè)圖有作圖需求,都可以掃碼咨詢小云,我們有專業(yè)的技術(shù)團(tuán)隊(duì),生信熱點(diǎn)思路設(shè)計(jì)、生信分析、熱點(diǎn)方向生信挖掘等,如有需要,可掃碼下方二維碼了解詳情
