WGCNA分析是什么?各種術(shù)語都是啥意思?怎么做這個(gè)分析?點(diǎn)進(jìn)來看!/SCI論文/科研/研

現(xiàn)在越來越多的生信分析文章中會(huì)用到“WGCNA”分析,可以用于篩選疾病最相關(guān)基因(比如XX腫瘤相關(guān)基因)或者臨床特征相關(guān)基因等
大家可能會(huì)在看結(jié)果描述或者做分析的時(shí)候遇到很多WGCNA中的關(guān)鍵術(shù)語,但又搞不太清楚代表啥意思,也不太清楚WGCNA是怎么獲得疾病相關(guān)基因的?~ ~
所以今天小云就給小伙伴們科普一下WGCNA中各種術(shù)語的意義以及分析流程,一起學(xué)起來吧

p?基本概念
WGCNA?(Weighted gene correlation network analysis, 加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析)是描述不同樣品之間基因關(guān)聯(lián)模式的系統(tǒng)生物學(xué)方法,于2008年提出。WGCNA可用來鑒定高度協(xié)同變化的基因集,并根據(jù)基因集的內(nèi)連性和基因集與表型之間的關(guān)聯(lián)性鑒定潛在的生物標(biāo)記基因或治療靶點(diǎn)。WGCNA利用數(shù)千或近萬個(gè)變化最大或全部基因的信息識(shí)別感興趣的基因集(即模塊, Module),并利用這些模塊和表型數(shù)據(jù)進(jìn)行聚類,找到這個(gè)模塊中的核心基因(即權(quán)重較高的基因),也就是Hub gene。適用于復(fù)雜的數(shù)據(jù)模式,推薦5組(或者15個(gè)樣品)以上的數(shù)據(jù)。
p?WGCNA關(guān)鍵術(shù)語
n?Co-expression network, 共表達(dá)網(wǎng)絡(luò):在共表達(dá)網(wǎng)絡(luò)圖中,點(diǎn)代表基因,邊代表表達(dá)相關(guān)性。
n?加權(quán):要理解加權(quán),首先應(yīng)知道什么是權(quán),權(quán)是由測(cè)量值精度的不同在平差計(jì)算中所取的權(quán)重不同。精度越高,權(quán)越大?!凹訖?quán)”的意思就是“乘以權(quán)重”,即“乘以系數(shù)”的意思。WGCNA的加權(quán)是指對(duì)相關(guān)性值進(jìn)行冥次運(yùn)算。
n?Power,軟閾值:大家在做WGCNA分析中肯定能遇到這個(gè)術(shù)語,它是根據(jù) pick Soft Threshold函數(shù)計(jì)算出來的。在統(tǒng)計(jì)中它是一個(gè)檢驗(yàn)研究工作有效性的指標(biāo),Power越大,研究結(jié)果越可靠。在WGCNA中是反應(yīng)相關(guān)性數(shù)值是否或者接近無標(biāo)度網(wǎng)絡(luò)特征,具有重要意義。
n?Module,模塊:本質(zhì)是高度內(nèi)連的基因集。在無向網(wǎng)絡(luò)中,模塊內(nèi)是高度相關(guān)的基因。在有向網(wǎng)絡(luò)中,模塊內(nèi)是高度正相關(guān)的基因。在WGCNA分析中把基因聚類成模塊后,對(duì)每個(gè)模塊進(jìn)行了功能富集分析、模塊與性狀進(jìn)行關(guān)聯(lián)分析和模塊與樣本進(jìn)行關(guān)聯(lián)分析,分別可以去查找基因的功能特征,篩選出表型與性狀關(guān)聯(lián)較高的的模塊和查找樣本中特異表達(dá)基因。
n?Module eigengene,模塊特征基因:定義為相應(yīng)模塊的表達(dá)矩陣的第一主成分。
n?Module membership(MM),模塊成員:將某基因的表達(dá)量與module的第一主成分,即module eigengene進(jìn)行相關(guān)性分析就可以得到MM值,所以MM值本質(zhì)上是一個(gè)相關(guān)系數(shù)。如果基因和某個(gè)module的MM值為0,說明二者根本不相關(guān),該基因不屬于這個(gè)module;如果MM的絕對(duì)值接近1,說明基因與該module相關(guān)性很高。
n?Gene Significance(GS),基因重要性:將某基因的表達(dá)量與對(duì)應(yīng)的表型數(shù)值進(jìn)行相關(guān)性分析,最終的相關(guān)系數(shù)的值就是GS, GS反映出基因表達(dá)量與表型數(shù)據(jù)的相關(guān)性。
n?Hub gene,關(guān)鍵基因:連接度最多或連接最多模塊的基因。
n?Adjacency matrix,鄰接矩陣:基因和基因之間的加權(quán)相關(guān)性值構(gòu)成的矩陣。
n?Topological overlap matrix (TOM),拓?fù)渲丿B矩陣:把鄰接矩陣轉(zhuǎn)換為拓?fù)渲丿B矩陣,以降低噪音和假相關(guān),獲得新的距離矩陣,用于構(gòu)建網(wǎng)絡(luò)或繪制TOM圖。
p?分析流程

圖1?分析流程圖
1.?構(gòu)建基因共表達(dá)網(wǎng)絡(luò):先構(gòu)建基因共表達(dá)網(wǎng)絡(luò),通常利用兩兩基因之間的表達(dá)模式來計(jì)算它們之間的一個(gè)相關(guān)系數(shù),然后基于相關(guān)系數(shù)來構(gòu)建基因的網(wǎng)絡(luò);
2.?識(shí)別module:構(gòu)建好基因的關(guān)系后,通過閾值來劃定那些基因關(guān)系比較緊密,我們就把關(guān)系緊密的劃分為一個(gè)module;
3.?將module與外部信息相關(guān)聯(lián):對(duì)module來做一些特征分析,包括給它賦予特征值,對(duì)module內(nèi)的基因進(jìn)行GO富集來探索其功能;
4.?研究module之間的關(guān)系:通過module的表達(dá)模式和模塊的功能來篩選和生物學(xué)問題比較相關(guān)的關(guān)鍵module;
5.?在關(guān)鍵module中識(shí)別調(diào)控基因:對(duì)關(guān)鍵module的內(nèi)部基因進(jìn)行分析,包括看內(nèi)部注釋基因的功能以及它們調(diào)控層次的一個(gè)關(guān)系等來鑒定module中比較關(guān)鍵的一些調(diào)控基因
p?結(jié)果展示
在生信文章中最常見到的WGCNA分析結(jié)果圖主要是四種,分別是Power圖(圖2)、cluster dendrogram(聚類樹狀圖,圖3)、module-trait-relationship(模塊與表型特征關(guān)聯(lián)圖譜,圖4)和MM-GS相關(guān)性散點(diǎn)圖(圖5)。(ps:本期文章只展示了4種類型的WGCNA分析結(jié)果圖,具體每個(gè)圖怎么看我們留到下期文章解讀,敬請(qǐng)期待喲)




小云之聲
如果您的時(shí)間和精力有限或者缺乏相關(guān)經(jīng)驗(yàn),并且對(duì)生信分析和思路設(shè)計(jì)有所需要的話,“小云”非常樂意為您提供如下服務(wù):免費(fèi)思路評(píng)估、付費(fèi)生信分析和方案設(shè)計(jì)以及實(shí)驗(yàn)項(xiàng)目實(shí)施等,有意向的小伙伴歡迎咨詢布小谷哦!
