最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GEO數(shù)據(jù)庫使用和數(shù)據(jù)下載

2023-05-25 09:11 作者:小云愛生信  | 我要投稿

?小果?生信果?? 原創(chuàng)不易?? 歡迎點贊+收藏+關注


網(wǎng)址為https://www.ncbi.nlm.nih.gov/

在搜索框前面的All Databases處有個下拉箭頭,可以選擇不同的數(shù)據(jù)庫,這里我們選擇GEO Dataset數(shù)據(jù)庫,這里面就是我們要找的數(shù)據(jù)了。


在搜索框里打上關鍵字,一般是疾病的名字,這里以Stanford A型主動脈夾層(Type A Aortic Dissection,TAAD)為例:輸入關鍵字后,點擊搜索就可以了

上面這個圖就是搜索結果了,我們選擇數(shù)據(jù)集一般有一下幾個考量:

第一是物種,一般常用到的就是人,大鼠和小鼠。右邊可以選擇物種,縮小范圍。

第二是測序類型,常見的是Expression profiling by array和Expression profiling by high throughput sequencing,這個一般就是mRNA的表達量了,此外還有單細胞,非編碼RNA,甲基化等類型,可以根據(jù)需要選擇。

第三是樣本量,一般來講,樣本越多越好,很多分析都對樣本量有要求,比如WGCNA就要大于15,雙疾病要求每組至少6個樣本。

第四還需要留意樣本組成,一般疾病最好要有患病和正常樣本的分組,癌癥樣本最好要有預后信息。

我們點進一個樣本集,看一下下面這個:

可以先看一下樣本的基本信息,數(shù)據(jù)集的標號是GSE開頭的。

然后我們看一下樣本構成,患病和正常樣本分的很清楚,樣本的編號是GSM開頭,重點關注一下測序平臺,這個是RNA測序數(shù)據(jù),這樣的數(shù)據(jù)庫一般會提供一個表達矩陣放在補充材料里,如果沒有的話,一般就不選擇這個數(shù)據(jù)集了,不過我們這個是有的,就在最下面的Supplementary file里,直接下載就可以了。

這個表達矩陣就算是整理的比較好的,有基因名,表達數(shù)據(jù)是count值,可以根據(jù)需要進行標準化。


接下來小云再給大家找一個芯片數(shù)據(jù)集,它的下載方式和測序數(shù)據(jù)不太一樣。

上面這個是結直腸癌的,GSE39582,測序平臺GPL570,這也是一個常見的芯片測序平臺,芯片數(shù)據(jù)要從Series Matrix Files處下載,點進去,界面如下:

點擊就可以下載了。


芯片數(shù)據(jù)下載之后需要做一個轉換,因為芯片數(shù)據(jù)的行名是探針編號,需要轉換為基因名,探針和基因名的對應關系可以點擊測序平臺,也就是GPL570這個位置,根據(jù)下面這個表進行ID轉換。



推薦閱讀

生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復現(xiàn)、生信硬核知識技能、服務器、生物信息學的教程,以及基于R的分析和可視化等原創(chuàng)內容,一起見證小白和大佬的成長。

GEO數(shù)據(jù)庫使用和數(shù)據(jù)下載的評論 (共 條)

分享到微博請遵守國家法律
理塘县| 天峨县| 三江| 博罗县| 山阴县| 浮山县| 桂东县| 蚌埠市| 琼结县| 陆良县| 澎湖县| 平山县| 浪卡子县| 乌兰县| 富源县| 靖安县| 万宁市| 和平区| 肇东市| 仁化县| 长沙县| 江都市| 始兴县| 曲松县| 平潭县| 泗水县| 屯留县| 凤山县| 城口县| 吴旗县| 醴陵市| 博客| 逊克县| 汽车| 涟水县| 房山区| 赤壁市| 德清县| 咸阳市| 武汉市| 无为县|