基因名坑你沒商量 --微生信教你填基因名的坑
基因名字是我們?nèi)粘?shù)據(jù)分析、閱讀文獻(xiàn)中最常見的一類術(shù)語,以下根據(jù)自己工作經(jīng)驗(yàn)探討下基因名在生物信息學(xué)數(shù)據(jù)分析中常見的坑!
坑1:一個基因有兩種名字
基因的名字分成兩種:
一種是給計(jì)算機(jī)看的,也就是各種數(shù)據(jù)庫中的基因ID,最常用的基因id數(shù)據(jù)庫來源包括:Ensembl,NCBI,UCSC等;
另一種是給人看的,就是我們常見的gene symbol,例如TP53。
所以,根據(jù)名字來判斷是哪個數(shù)據(jù)庫中的id,是數(shù)據(jù)分析小伙伴的“職業(yè)修養(yǎng)”。
對于human來說,推薦使用Genecards(https://www.genecards.org)網(wǎng)站進(jìn)行查詢。
坑2:基因名字是變化的
基因名不是一成不變的。隨著我們對基因更加深入地了解,基因名也會更新。
以這篇M5C regulator-mediated methylation modification patterns and tumor microenvironment infiltration characterization in lung adenocarcinoma(Translational lung cancer research,IF:6.498)為例。
啥?13個m5C修飾相關(guān)基因中僅11個有表達(dá)。TCGALUAD中有幾百例樣品,其中有2個基因在這幾百例里邊都沒有表達(dá)?不合邏輯??!
經(jīng)過查詢,我們發(fā)現(xiàn),不是這兩個基因沒有表達(dá),是人家名字變了。
DNMT2的新名字是TRDMT1;NSUN1的新名字是NOP2。估計(jì)是分析人員直接用的舊名字搜索,發(fā)現(xiàn)TCGA里邊沒有這兩個名字,所以就認(rèn)為人家沒有表達(dá)了。這個坑有點(diǎn)大??!
因?yàn)槲墨I(xiàn)里邊的名字一般都是滯后的,當(dāng)遇見報(bào)告里邊只給一列gene symobl的時候,你文獻(xiàn)里邊的基因可能在你數(shù)據(jù)里邊就查不到。
坑3:Excel會改變你的基因名
這個坑影響面很廣,很早之前就被期刊報(bào)告過。
由于我們一般都是用excel打開數(shù)據(jù),所以如果公司給你的不是真正的excel格式的文件,比如txt文件,tsv文件,csv文件,實(shí)際為txt格式的xls文件等的時候,這個坑你就要想辦法自己填了。直接粘貼到excel里邊也不一定行,你需要的是真正的excel格式。
常見被excel改變的基因包括:
2310009E13
FEB2
MAR1
DEC1
2310009E13
OCT4
APR1
SEP2
SEP-1
FEB1–FEB11
MARCH1–MARCH11
SEPT1–SEPT14
小貼士:我們是直接給客戶excel格式文件滴,雖然增加了代碼量,但是不會讓客戶踩坑。
坑4:基因名是區(qū)分大小寫的
對于純數(shù)字id的基因名是無所謂的,但是對于帶有字母的基因名來說,字母是區(qū)分大小寫的,有的是全部大寫,有的是首字母大寫,有的是全部小寫。比如人類的基因名字絕大部分都是大寫,但是也有極個別是小寫,例如C12orf45。所以在做匹配等的時候,C12orf45和C12ORF45是不一樣的。這時需要使用lower或者upper函數(shù)將名字全部轉(zhuǎn)成小寫或者大寫,然后再進(jìn)行匹配。
坑5:Not Available的基因名
基因名也是很詭異的,比如你見過基因名為NA的基因嗎?雖然它現(xiàn)在已經(jīng)華麗麗地變身成了XK,BUT部分?jǐn)?shù)據(jù)庫中用的還是NA。例如我們下載的cBioportal網(wǎng)站數(shù)據(jù)集Stomach Adenocarcinoma (TCGA Firehose Legacy) RNAseq數(shù)據(jù)中,基因名還是NA。
NA本身沒有問題,但是如果你用R來讀取的話,坑就出現(xiàn)了:In R (or R Studio), NA stands for Not Available. Each cell of your data that displays NA is a missing value。難怪我讀了好多次都讀不進(jìn)去,這個坑也太坑了。
坑6:一個名字兩個基因?
這種現(xiàn)象也非常常見,以人類為例,在TCGA最新版的RNAseq數(shù)據(jù)集中,TMSB15B這個基因,在Ensembl數(shù)據(jù)庫中是兩條記錄。在數(shù)據(jù)分析的時候,如果以genesymbol這列作為標(biāo)識符的話,它就是一個基因,而以Ensembl geneid為標(biāo)識符的話,它是兩個基因。這個坑令人費(fèi)解啊!所以一般在進(jìn)行諸如cibersort免疫浸潤分析,GSEA分析時,需要先collaspe這些基因名,也就是名字要unique(唯一),不能有重復(fù)。
坑7:Affymetrix一個探針集對應(yīng)多個基因
做GEO芯片分析時,經(jīng)??吹竭@種基因sybol被//分割的現(xiàn)象,這種在處理的時候也要注意。例如做GO分析時,我們一般把SUPT20H和DES作為兩個基因來處理。
坑8:中文基因名
很遺憾,所有的資料都是英文的,沒有中文版的。我們在全國科學(xué)技術(shù)名詞審定委員會事務(wù)中心的術(shù)語在線(https://www.termonline.cn/)官網(wǎng)查不到,能查到的僅僅是散落在各個期刊里的中文翻譯。當(dāng)然也有老師總結(jié)過這些中文基因名,例如昆明醫(yī)學(xué)院張聞老師所著的《人類基因功能手冊》,手冊對兩萬多個人類基因的功能注解進(jìn)行整理和翻譯,內(nèi)容包 括基因的 NCBI 正式符號、中英文名稱、細(xì)胞成分、分子功能、生命過程、相關(guān)疾病、 OMIM 編號和染色體定位等八項(xiàng)內(nèi)容。但是很可惜,網(wǎng)上能夠拿到的版本是2006年的發(fā)布的。
坑9:權(quán)威 vs官網(wǎng)
NCBI是我們?nèi)粘9ぷ髦杏玫淖疃嗟木W(wǎng)站,那么該數(shù)據(jù)庫中的基因名是“官方”的嗎?在科研界,committee(委員會)和consensus(共識)很流行,而基因名也是這兩者的產(chǎn)物,所以HUGO Gene Nomenclature Committee網(wǎng)站https://www.genenames.org/就是獲得認(rèn)可的人類基因命名資源(The resource for approved human gene nomenclature),即我們說所的official gene symbol。
坑10:到底有多少基因?
要回答這個問題,首先要明確你對基因的定義。如果你認(rèn)為的“基因”是蛋白質(zhì)編碼基因,那么人類有約2w個基因;如果你認(rèn)為的“基因”還包括非編碼RNA,假基因等等,那么HUGO數(shù)據(jù)庫中有約4w個approved基因名,而Ensembl數(shù)據(jù)庫有約6w個geneid,當(dāng)然TCGA也是約6w個。
坑11:坑你沒商量,坑我也沒商量
以上都是坑別人的,當(dāng)然也有被坑的時候。比如客戶給我100個基因名,有新有舊,有全拼還有只言片語,要我在分析結(jié)果中標(biāo)注下,怎么辦?這時只能一個一個去genecards上搜索,十分麻煩啊!比如給我這些:cintillo,collagen,Six1/2-2, POU2/3基因,我是不是想吐血呢?所以當(dāng)你給別人基因的時候,最好給數(shù)據(jù)庫中的ID,而不是你隨手寫的名字,否則我們做數(shù)據(jù)分析的小伙伴怎么辦?給你查吧,浪費(fèi)時間,不給你查吧,結(jié)果肯定出問題。
總結(jié):
1,基因名區(qū)分大小寫,且不是固定不變的
2,基因名可能被excel改變
3,基因名沒有中文版
4,數(shù)據(jù)分析時要確定你使用的是哪個版本的注釋
So,小小的基因名也有大學(xué)問。歡迎大家在后臺留言討論基因名的問題!
最后,附上這兩篇文章,有興趣的同學(xué)可以看看:
1,Mistaken identifiers: gene name errors can be introduced inadvertently when using Excel in bioinformatics
2,Gene name errors: Lessons not learned
微生信云平臺 注冊用戶40000 引用447
微生信云平臺(http://www.bioinformatics.com.cn)以150多款在線作圖、在線數(shù)據(jù)分析為基本方式,致力于0代碼分析科研數(shù)據(jù),0代碼展示數(shù)據(jù)結(jié)果,幫助生命科學(xué)、醫(yī)學(xué)等領(lǐng)域的科研工作者更便捷地分析數(shù)據(jù),了解數(shù)據(jù),挖掘數(shù)據(jù)背后的生物醫(yī)學(xué)意義,助力科研,促進(jìn)知識傳播。