GEO2R或R語言進行基因差異表達分析
一、相關(guān)概念
1.?GEO
詳見https://zhuanlan.zhihu.com/p/344426350
GEO Platform (GPL) ?用戶測序使用的芯片or平臺;
GEO Sample (GSM) ?用戶提交給GEO的樣本數(shù)據(jù);
GEO Series (GSE) ?一個完整的研究
一篇文章可以有一個或者多個GSE數(shù)據(jù)集;?
一個GSE數(shù)據(jù)集里面可以有一個或者多個GSM樣本;?
每個數(shù)據(jù)集都有著自己對應(yīng)的芯片平臺,就是GPL。
2.CEL格式文件
.CEL文件是由Affymetrix DNA微陣列圖像分析軟件創(chuàng)建的數(shù)據(jù)文件。它包含從Affymetrix基因芯片上的“探針”提取的數(shù)據(jù),可以存儲數(shù)千個數(shù)據(jù)點,這可能會使它的文件大小變大。
.CEL 文件可以通過軟件算法處理,并作為整體基因組實驗的一部分在二維網(wǎng)絡(luò)上可視化。
Affymetrix基因芯片是一種生物芯片,它包含一個對一個實驗有效的微陣列。為了制造這些芯片,玻璃或硅載玻片上排列有探針,根據(jù)它們是否與原始DNA樣本互補,探針將表達水平(強度)報告為完全匹配(PM)和不匹配(MM)值。這些值可用于研究DNA的改變,稱為單核苷酸多態(tài)性(SNPs),用于人類和動物疾病的研究。
.CEL 文件格式有多個版本,使用不同的格式。例如,版本3使用ASCII文本格式,而版本4使用二進制格式。
注意:.CEL 文件需要相應(yīng)的.CDF 文件,它是存儲在.CEL 文件中的原始探測級數(shù)據(jù)的字典。MATLAB有一個名為affyread的內(nèi)置函數(shù),可以用來讀取Windows版本軟件中的.CEL 文件。
3.基因表達水平
一個基因表達水平的直接體現(xiàn)就是其轉(zhuǎn)錄本的豐度情況,轉(zhuǎn)錄本豐度越高,則基因表達水平越高。
RNA-seq分析中,可以通過定位到基因組區(qū)域或基因外顯子區(qū)的測序序列(reads)的計數(shù)來估計基因的表達水平。Reads計數(shù)除了與基因的真實表達水平成正比外,還與基因的長度和測序深度成正相關(guān)。
為了使不同基因、不同實驗間估計的基因表達水平具有可比性,引入了FPKM的概念。
FPKM 是每百萬fragments中來自某一基因每千堿基長度的fragments數(shù)目,它同時考慮了測序深度和基因長度對fragments計數(shù)的影響,是目前最為常用的基因表達水平估算方法。
二、使用GEO2R分析差異表達
GEO2R是NCBI自帶的傻瓜式分析工具。
在GEO頁面最下方,點擊【Analyze with GEO2R】即可快速進行分析。

選擇分組信息后進行分析,即可出結(jié)果,有多種圖像以及顯著差異基因表格文件。
注意分組時需要保證只有一個變量。
詳細操作見https://blog.csdn.net/weixin_43569478/article/details/108079349?
以及https://zhuanlan.zhihu.com/p/323711071
GEO2R也是基于R的limma包進行分析的,在分組頁面可以查看R腳本,還可以修改部分參數(shù)。
三、用R語言分析差異表達
有很多包可以使用,如DESeq2、limma、edgeR、WGCNA、lefse等等。
此處僅演示limma。