爾云間生信代碼|R的Pathifier包獲取疾病異常通路
普通的差異表達分析已經(jīng)不能滿足生物信息工作者對表達譜數(shù)據(jù)的分析要求,生信工作者希望能夠使用更加全面,更加有說服力的方法來分析表達譜數(shù)據(jù)。在此我就向大家介紹一個主要針對于癌癥的樣本基因表達譜進行通路失常得分的R包。
科研有捷徑,輸入代碼,一鍵獲取科研成果!就是這么省事,來具體看下有多方便!
搜索http://985.so/a9kb查看全部代碼(目前共計50+持續(xù)新增中),也可以點擊右側【目錄】,可以看到更多有趣的代碼;真香提示:文末可以知道如何獲取代碼~
隨著生物數(shù)據(jù)的獲得越來越快,特別是基因的表達譜數(shù)據(jù)每天都以大數(shù)量級的數(shù)量在增長,而對于基因表達譜的分析方法也越來越渴求。
普通的差異表達分析已經(jīng)不能滿足生物信息工作者對表達譜數(shù)據(jù)的分析要求,生信工作者希望能夠使用更加全面,更加有說服力的方法來分析表達譜數(shù)據(jù)。
在此我就向大家介紹一個主要針對于癌癥的樣本基因表達譜進行通路失常得分的R包。
這個失常得分主要是通過癌癥樣本與正常樣本在通路上的擬合距離所計算得來的,如果想要了解具體的計算原理。
可以看(Drier Y, Sheffer M, Domany E. Pathway-based personalized analysis of cancer. Proceedings of the National Academy of Sciences, 2013, vol. 110(16) pp:6388-6393. (www.pnas.org/cgi/doi/10.1073/pnas.1219651110))這篇文獻,下面我來介紹一下pathifier R包的具體使用方法。
在R中通過Bioconductor就可以獲得該包。

他的使用命令行為:
quantify_pathways_deregulation(data, allgenes, syms, pathwaynames, normals = NULL,ranks = NULL, attempts = 100, maximize_stability = TRUE, logfile = "", samplings = NULL,min_exp = 4, min_std = 0.4)
下面我來介紹每個參數(shù)的意義,以及我們所需要準備的數(shù)據(jù)格式(數(shù)據(jù)我以從TCGA上下載的GBM的癌癥表達譜數(shù)據(jù),以及KEGG中的通路數(shù)據(jù)為例)。
data:是一個N*M的mRNA表達矩陣,其中N是基因的個數(shù),M是樣本的個數(shù)。部分樣本格式如下圖。

allgenes:是N個基因的名字,geneID或者geneSymbol都可以,但是要和下面的通路數(shù)據(jù)相對應。如下圖所示:

Syms:是P個通路的list,每個通路都是它包含的基因list(這個名字必須和上述的allgenes用相同的表示方式)。如下圖所示。
pathwaynames:通路的名稱,可以是hsaID或者直接是通路的名字,為了計算簡單,只以兩個通路為例。
normals :一個表示樣本是否為正常樣本的list,例如我們的數(shù)據(jù)最后十列為正常樣本,其他均為癌癥樣本,則這個list只有最后十個為TURE,其余均為FALSE。
ranks :如果要把M個樣本重新排序需要用到這個參數(shù),一般都不會用到。
attempts :規(guī)定重復多少遍來測試數(shù)據(jù)的可靠性,一般情況下都設為100.
maximize_stability:如果這個設為TRUE,則會將程序認為會使得樣本低穩(wěn)定性的樣本去掉。
logfile :LOG文件輸出名字,可省略,省略則用默認的log名.
samplings :規(guī)定重新選擇樣本,默認則隨機選擇。
min_exp :最小的表達值
min_std :每個基因的表達值所允許的最低標準差,如果基因的標準差低于這個閾值,則程序會用算法標準化其標準差。
我將我所使用的命令行貼上

而我所使用的測試數(shù)據(jù)也一并上傳,分別是test.txt(表達譜數(shù)據(jù)),geneList.txt(基因名),normal.txt(哪些是正常樣本)。(數(shù)據(jù)地址:http://pan.baidu.com/s/1dDkvPwH)
經(jīng)過一段時間的計算我們可以獲得一個PDS(通路失常得分)。而這個PDS得分也是以list形式給出,下面是PDS這個list里各個組成部分的內(nèi)容。
scores :失常得分,也就是pathifier最主要的結果。
genesinpathway :在計算失常得分時每個通路中使用到的基因。
newmeanstd :去除噪聲點后,重新計算獲得的標準差。
origmeanstd :去除噪聲點前,計算獲得的標準差。
pathwaysize :計算通路得分所使用基因的數(shù)目。
curves :每個通路的PC(文獻中有介紹)。
curves_order :PC順序。
z :在計算PC的時候的Z-scores
compin :因為噪聲所去除的組分(通路中的基因)
xm :正常樣本均值
xs :正常樣本標準差
center :?PCA的中心
pctaken :主成份的數(shù)目
sucess :成功計算了PDS的通路
logfile :LOG文件的名稱(之前沒有規(guī)定則為默認名字)
下面我主要展示一下我所用包中的實例數(shù)據(jù)所做出的主要score結果。(我所上傳的數(shù)據(jù)主要是為了方便大家將類似的數(shù)據(jù)通過我上傳的語句盡快處理成R包所需格式,方便計算)

本實例中一共涉及兩個通路,也即是MISMATCH_REPAIR和REGULATION_OF_AUTOPHAGY,這就是樣本對于這個通路的失常得分。

上圖中紅色圈出來的就是實例樣本中的正常樣本,可以發(fā)現(xiàn),正常樣本在通路上的失常得分普遍較低,說明在該通路上并未失常。
大家學會這個R包后,就能很方便的通過通路來分析不同樣本的失常得分?;蛘呖梢酝ㄟ^自己所感興趣的基因集也能得到類似的結果。
查看原文,請掃碼
