GEO數(shù)據(jù)庫多數(shù)據(jù)集差異分析整合利器,再也不用糾結(jié)去除批次效應(yīng)
不同芯片數(shù)據(jù)的差異基因整合,常規(guī)的思路是先進(jìn)行樣本整合,然后去除批次效應(yīng),最后進(jìn)行差異分析。閱讀相關(guān)文獻(xiàn)也有很多文章用了R包—RobustRankAggreg:對每個數(shù)據(jù)集進(jìn)行獨(dú)立分析,然后RRA整合DEG,拿到多個數(shù)據(jù)集共有的DEG
插播:文末查看代碼獲取方式哈
穩(wěn)健排序整合( Robust rankaggregation,RRA)法是一種利用概率模型整合排序列表的方法,這個RobustRankAggreg包超級簡單,RRA算法中最核心的為aggregateRanks函數(shù),aggregateRanks函數(shù)其實(shí)就是對多個排好序的基因集,進(jìn)行求交集的同時還考慮一下它們的排序情況??傮w上來說,就是挑選那些在多個數(shù)據(jù)集都表現(xiàn)差異的基因,并且每次差異都排名靠前的那些。
先來看看如何獲取及安裝R包
方法一:根據(jù)操作系統(tǒng),下載對應(yīng)的壓縮包,直接在R中安裝
CRAN - Package RobustRankAggreg (r-project.org)

方法二:使用代碼直接安裝

前期準(zhǔn)備
你可以很輕松的在GEO中獲取這幾個數(shù)據(jù)集:GSE7476, GSE13507, GSE37815 and GSE65635 ,然后得到每個數(shù)據(jù)集的差異表達(dá)基因結(jié)果
差異結(jié)果示例圖

RobustRankAggreg包整合數(shù)據(jù)
現(xiàn)在可以使用RobustRankAggreg包對這4個數(shù)據(jù)集的差異分析結(jié)果進(jìn)行整合啦。
當(dāng)然,不僅僅是mRNA的表達(dá)芯片,其它,比如circRNA芯片也是如此?
來看下具體的操作流程?
Step1 四個GSE數(shù)據(jù)集差異表達(dá)基因(按logFC值排序)并為一個list,正序倒序各一個list?
Step 2所有差異基因在四個GSE數(shù)據(jù)集中l(wèi)ogFC矩陣

Step 3 篩選共同上調(diào)基因,得到共同的上調(diào)差異表達(dá)基因

Step 4篩選共同下調(diào)基因,得到共同的下調(diào)差異表達(dá)基因

Step5 把top10的上調(diào)基因和下調(diào)基因的差異倍數(shù)進(jìn)行熱圖可視化 logFC.pdf

有了多數(shù)據(jù)集共有差異基因結(jié)果,后面可以進(jìn)行比如富集分析、蛋白互作分析、TF調(diào)控網(wǎng)絡(luò)預(yù)測、藥物靶點(diǎn)預(yù)測等等各種各樣的分析,可以關(guān)注我們的宮主好eryunjian2014持續(xù)學(xué)習(xí)。如果有個性化分析要求不知道如何實(shí)現(xiàn),可以聯(lián)系小編定制自己的分析。
有需要代碼的筒子,可以關(guān)注宮主好回復(fù)“26PC”獲取
