爾云間生信代碼|基因組學(xué)基因名稱修正分析

做基因組學(xué)分析時發(fā)現(xiàn),部分基因名隨著數(shù)據(jù)庫的不斷變化,被賦予新的名字或別名。另一方面,?EXCEL是常用的查看表格的工具,提供了很好的數(shù)據(jù)篩選、繪圖等功能,不少基因表達(dá)數(shù)據(jù)也會在EXCEL中打開查看、篩選和排序,但是EXCEL也會出現(xiàn)比較尷尬的事情,部分基因名會自動轉(zhuǎn)換為日期或浮點。生信分析中經(jīng)常會做的根據(jù)基因名字提取序列、表達(dá)量和注釋,都會受到這些名字轉(zhuǎn)換的影響。更麻煩的是,一旦被自動轉(zhuǎn)換,再去改成文本格式是無法恢復(fù)到原來的文本的,這就會導(dǎo)致大量數(shù)據(jù)的丟失。因此開發(fā)了一款可以批量修正基因組學(xué)中基因名稱的軟件。
比如下表所示以月份開頭的基因名字都不可逆的轉(zhuǎn)換為了日期

人類基因的命名主要包括基因名稱和基因符號等內(nèi)容,絕大多數(shù)基因的命名,由國際人類基因命名委員會(HGNC)完成。本軟件收集整理識別數(shù)據(jù)庫中過時的HGNC人類基因符號,或可能已被Excel或其他電子表格修改過的基因,然后整理出這些基因名稱對應(yīng)的正確的基因名稱。首先用戶提供基因列表,根據(jù)輸入基因ID,檢索這些被修改過的基因和其正確的基因信息,通過匹配后能夠自動檢索與其輸入基因列表對應(yīng)的經(jīng)過修正的基因。
使用方法:
Rscript??CheckGene.R?-querylist=querylist.txt
參數(shù)說明:
USAGE:
CheckGene.R??-querylist=<querylist>?PARAMETERS:
-querylist??the?query?genes?list?,input?txt?format?and?filenames.??
操作步驟:
1、打開命令行界面,輸入“Rscript??CheckGene.R”調(diào)閱幫助文檔,確定該程序所需的輸入文件。
2、用戶根據(jù)幫助文檔中的參數(shù)說明內(nèi)容,對參數(shù)進(jìn)行設(shè)置。這里,必須輸入?yún)?shù)有1個,分別是-querylist,用戶提供基因列表
3、完成參數(shù)提交后,按下回車鍵,整個程序即正式開始進(jìn)入執(zhí)行。每步執(zhí)行內(nèi)容都會給出提示。程序執(zhí)行完畢后,界面會顯示”Program?execution?is?completed<span data-raw-text="" "="" data-textnode-index-1664258133904="108" data-index-1664258133904="1063" class="character" style="margin: 0px; padding: 0px;">"結(jié)束語。
結(jié)果展示:
1.result.
?csv


注:檢索出來的修正基因信息,x:輸入基因symbol;Approved:輸入基因是否為現(xiàn)在官方推薦的,F(xiàn)ALSE為不推薦,TRUE為推薦?;Suggested.Symbol:修正后建議使用的基因symbol?
同時可以看出使用Excel軟件打開,名稱再次發(fā)生了修改,對于這些容易發(fā)生改變的基因名稱,一定多檢查結(jié)果是否前后一致
特別說明:本代碼經(jīng)申請軟件著作權(quán),僅轉(zhuǎn)讓使用權(quán),不轉(zhuǎn)讓所有權(quán)
如需代碼及示例數(shù)據(jù)等文件,請掃碼聊天框回復(fù) “代碼”領(lǐng)??!

寫在文末:
如果您近期想做生信方面的文章而苦于沒有思路,或者不知道如何來入手生信分析,或者兌具體的某一個圖有作圖需求,都可以掃碼咨詢小云,我們有專業(yè)的技術(shù)團(tuán)隊,生信熱點思路設(shè)計、生信分析、熱點方向生信挖掘等,如有需要,可掃碼下方二維碼了解詳情:?
