一把鑰匙配一把鎖,專屬GPL16686芯片的ID轉(zhuǎn)換
爾云間? 一個專門做科研的團隊
??

小果今天遇到了一個特別的事情,就是找數(shù)據(jù)的時候,發(fā)現(xiàn)GPL16686的探針號不能直接轉(zhuǎn)換為基因symbol,小果去搜了一下,發(fā)現(xiàn)原來這個芯片需要專門的轉(zhuǎn)換方式
下面就讓我們一起來看一下這個代碼吧

代碼如下:
rm(list = ls())
options(stringsAsFactors = F)
#讀入soft文件
library(GEOquery)
gse83452 <- getGEO(filename = "GSE83452_family.soft.gz",destdir = ".") #這個文件需要自己去手動下載,一般會比較大,小云的這個是75.9M,這是壓縮后的體積呦。
dim(gse83452) #這里小云在做的時候,得到的其實是NULL,但是不影響后面的結(jié)果
y <- gse83452@gpls$GPL16686@dataTable@table #這一步就是把需要的部分提取出來。
dim(y)
head(y)
y[1:4,1:8]
#### id conversion
library(org.Hs.eg.db) #啟動程序包,ID轉(zhuǎn)換的信息就是從這里來的。
library(clusterProfiler)
ENTREZID<- bitr(y[,6], fromType = "ACCNUM",
??????????????? toType=c("SYMBOL","ENSEMBL","ENTREZID"),
??????????????? OrgDb = org.Hs.eg.db) #這一步就是在進行ID轉(zhuǎn)換了。
ls(package:clusterProfiler)
dim(ENTREZID)
ENTREZID[1:5,1:4]
save(y,ENTREZID,file = "ids.Rdata") #保存一下我們的結(jié)果
#ids過濾探針
table(y$GB_ACC %in% ENTREZID$ACCNUM)
y1 <- y[y$GB_ACC %in% ENTREZID$ACCNUM,]
y1[1:5,1:8]
y2 <- y1[,c(1,6)]
names(y2) <- c("probe_id","ACCNUM")
#合并y2與ENTREZID
ids <- merge(y2,ENTREZID,by ="ACCNUM",all=F) #繼續(xù)合成新文件
ids[1:5,1:5]
dim(ids)
這個是ENTREZID,它們長下面這樣,這一步是把原文件里的注釋轉(zhuǎn)換成了symbol這種大家都能看得懂的通用ID

這個是ids,這一步加上的是表達矩陣里的ID號,這樣就可以直接進行ID的轉(zhuǎn)換了。
這就是今天的主要內(nèi)容了,雖然比較有局限性,但是也能反應我問處理ID轉(zhuǎn)換時的一些規(guī)則,雖然不一定用得到,但也可以先了解一下,畢竟技多不壓身嘛。小伙伴們有什們問題歡迎來和小果交流討論啊。
shengxinguoer
生信果
生信硬核知識解答
和小果一起學生信