WGCNA學(xué)習(xí):WGCNA分析原理
本篇主要講原理,接下來兩篇將應(yīng)用與實(shí)戰(zhàn)
1.WGCNA簡介
WGCNA(Weighted Gene Co-Expression Network Analysis, 加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析),鑒定表達(dá)模式相似的基因集合(module)。解析基因集合與樣品表型之間的聯(lián)系,繪制基因集合中基因之間的調(diào)控網(wǎng)絡(luò)并鑒定關(guān)鍵調(diào)控基因。
WGCNA適合于復(fù)雜的轉(zhuǎn)錄組數(shù)據(jù)
研究不同器官/組織類型和不同階段的發(fā)育調(diào)控、生物和非生物脅迫的不同時間點(diǎn)響應(yīng)機(jī)制

2.主要內(nèi)容
一、WGCNA原理
1.構(gòu)建基因關(guān)系網(wǎng)絡(luò)
2.構(gòu)建基因模塊
3.篩選關(guān)鍵基因
4.鑒定關(guān)鍵基因
二、WGCNA應(yīng)用
1.應(yīng)用場景-實(shí)驗(yàn)設(shè)計(jì)、經(jīng)典文獻(xiàn)
2.實(shí)例分析-單個材料、兩個材料
3.實(shí)例分析-結(jié)合表型
三、WGCNA實(shí)戰(zhàn)
3.WGCNA原理

4.構(gòu)建基因關(guān)系網(wǎng)絡(luò)

4.1 計(jì)算基因間相關(guān)關(guān)系
基因間相似性(similarity):根據(jù)基因在不同樣品中的表達(dá)情況,計(jì)算任意兩個基因間的相關(guān)關(guān)系。用Pearson相關(guān)系數(shù)
基因共表達(dá)矩陣: S=[Sij]
Sij 表示基因i和基因j的Pearson相關(guān)系數(shù)。
軟閾值:通過加權(quán)函數(shù)將相關(guān)系數(shù)變換,形成鄰接矩陣(Adjacency Matrix),矩陣中元素連續(xù)化。
鄰接函數(shù):power函數(shù)(冪指數(shù)函數(shù))
aij=power(Sij, β)=|Sij|β
需要確定鄰接函數(shù)的參數(shù)β,依據(jù)無尺度網(wǎng)絡(luò)原則,即基因表達(dá)網(wǎng)絡(luò)符合無尺度網(wǎng)絡(luò)的冪函數(shù)分布
4.2 無尺度網(wǎng)絡(luò)

網(wǎng)絡(luò)圖的點(diǎn)指圖中的每一個節(jié)點(diǎn),度指與該點(diǎn)的連接數(shù)
隨機(jī)網(wǎng)絡(luò)(Random network),每個節(jié)點(diǎn)的度相對平均
無尺度網(wǎng)絡(luò)(Scale-free network),少數(shù)節(jié)點(diǎn)具有明顯高于一般點(diǎn)的度,這些點(diǎn)被稱為hub,由少數(shù)hub與其他節(jié)點(diǎn)關(guān)聯(lián),最終構(gòu)成整個網(wǎng)絡(luò)
無尺度網(wǎng)絡(luò)的冪率分布:節(jié)點(diǎn)連接數(shù)為k的節(jié)點(diǎn)數(shù)h,k與h成反比,負(fù)相關(guān)
尺度:隨機(jī)網(wǎng)絡(luò)中每個節(jié)點(diǎn)的連接數(shù)符合泊松分布,大部分節(jié)點(diǎn)的連接數(shù)居中,中值稱為隨機(jī)網(wǎng)絡(luò)的尺度。
無尺度網(wǎng)絡(luò)符合冪率分布,大多數(shù)點(diǎn)只有很少的連接,少數(shù)點(diǎn)有很多的連接
基因相關(guān)關(guān)系,冪函數(shù)處理后,少數(shù)強(qiáng)相關(guān)性不受影響或者影響較小,而相關(guān)性弱的取n次冪后,相關(guān)性明顯下降。
4.3 確定關(guān)鍵參數(shù)β
尋找合適的β,使得基因表達(dá)關(guān)系符合無尺度網(wǎng)絡(luò),度數(shù)高的節(jié)點(diǎn)少,度數(shù)低的節(jié)點(diǎn)多。
節(jié)點(diǎn)度數(shù)k與具有該度數(shù)節(jié)點(diǎn)的個數(shù)h服從冪律分布
具體計(jì)算度數(shù)為k的節(jié)點(diǎn)個數(shù)的對數(shù)值log(k),與該節(jié)點(diǎn)出現(xiàn)的概率對數(shù)(log(p(k)))呈現(xiàn)負(fù)相關(guān),一般會設(shè)置相關(guān)系數(shù)大于0.8
為了檢測設(shè)置的參數(shù)β是否滿足無尺度網(wǎng)絡(luò),對log10(p(k))和log10(k)作圖,同時為更好評估,對兩者之間的相關(guān)系數(shù)做平方,即R2。如果模型R2接近1,則兩者之間為很好的線性關(guān)系。

4.4 計(jì)算基因間表達(dá)關(guān)系
評估基因間表達(dá)關(guān)系:直接關(guān)系
生物體內(nèi)基因間的關(guān)系:直接關(guān)系+間接關(guān)系
TOM:用拓?fù)渲丿B(topological overlap measure,TOM)來計(jì)算基因之間關(guān)聯(lián)程度,除了分析兩個基因之間的關(guān)系,還考慮這兩個基因與其他基因之間的連接。這樣更具有生物學(xué)意義。
建立TOM矩陣

TOM公式中,計(jì)算i與j之間的關(guān)系,不僅考慮了i和j的直接關(guān)系,還考慮了第三個基因μ的間接關(guān)系
5 構(gòu)建基因模塊
5.1 層次聚類樹
基因模塊的劃分基于基因間的連接稀疏性,將TOM矩陣(Similarity)轉(zhuǎn)化為相異度矩陣(Dissimilarity):

利用基于TOM值的相異度構(gòu)建層次聚類建樹
建樹方法:動態(tài)剪切樹和靜態(tài)剪切樹

5.2 動態(tài)混合剪切法
第一步:識別滿足設(shè)定條件的初級模塊
1.滿足模塊預(yù)定義的最低基因數(shù)目
2.距離集群過遠(yuǎn)的基因,即使與集群處于同一分支,也去除
3.每個集群與其他周圍的集群顯著不同
4.處在樹分支尖端的每個群集的核心基因緊密相連
第二步:測試步驟
將未分配的基因進(jìn)行測試,如果足夠接近某個初級群集,則分配進(jìn)去
通常WGCNA使用動態(tài)混合剪切法建樹

5.3 建樹過程的參數(shù)
模塊最少基因數(shù)目(minModuleSize)
合并模塊的最小距離(mincutHeight)計(jì)算模塊的特征值,利用模塊特征值建樹,合并距離很近的模塊(如Height小于0.2)
模塊特征值(Epigengene)
模塊內(nèi)所有基因進(jìn)行主成分分析(PCA),第一主成分的值即為Epigengene。它代表該模塊內(nèi)基因表達(dá)的整體水平
6 篩選基因模塊
主要介紹四種方法
6.1 表達(dá)模式分析
模塊表達(dá)模式分析:模塊在各個樣品中的豐度
模塊特征值(Epigengene):模塊內(nèi)所有基因進(jìn)行主成分分析(PCA),第一主成分的值即為Epigengene。它代表該模塊內(nèi)基因表達(dá)的整體水平。
如果某模塊在樣品中特征值正或負(fù)表達(dá)較高,說明模塊與這個樣品關(guān)系緊密

6.2 模塊與表型性狀關(guān)聯(lián)分析
模塊顯著性值(Module significance,MS):模塊內(nèi)所有基因的基因顯著性值的平均值。
基因顯著性值(Gene significance, GS):基因表達(dá)水平與因變量水平的相關(guān)系數(shù)。用T檢驗(yàn)計(jì)算每個基因在不同表型樣品組間的差異表達(dá)顯著性檢驗(yàn)P值(Pearson相關(guān)系數(shù)),通常將P值取以10底對數(shù)值定義為基因顯著性GS
計(jì)算各模塊與一表型性狀的MS值,如一個模塊的MS值顯著高于其他模塊,則這一模塊與該性狀存在關(guān)聯(lián)關(guān)系
模塊特征值顯著性(Epigengene significance, ES):模塊特征值與某一性狀的相關(guān)系數(shù),篩選與性狀關(guān)聯(lián)度最高的模塊

6.3 富集分析
對各個模塊都進(jìn)行GO和KEGG富集分析,找出與我們研究性狀相關(guān)通路相關(guān)性最強(qiáng)的模塊進(jìn)行深入挖掘

6.4 依據(jù)目標(biāo)基因篩選模塊
依據(jù)研究目的、前期研究結(jié)果和已發(fā)表文獻(xiàn),有重點(diǎn)關(guān)注的目標(biāo)基因,可直接篩選目標(biāo)基因所在的基因模塊重點(diǎn)進(jìn)一步分析

7 鑒定關(guān)鍵基因
7.1 模塊內(nèi)部基因連接度分析
Connectivity(degree)-連接度:與某個基因連接的所有其他基因的總和,即描述一個基因與其他所有基因的關(guān)聯(lián)程度,一般用K值表示。
Intramodular connectivity KIM-模塊內(nèi)部連接度IC:某個模塊中的基因與該模塊中其他基因的關(guān)聯(lián)程度(共表達(dá)程度)??捎脕砗饬磕K身份(module membership,MM).
Module Membership MM,or Epigengene-based connectivity KME:模塊身份,用一個基因在所有樣本中的表達(dá)語與某個模塊特征值的表達(dá)譜的相關(guān)性,來衡量這個基因在這個模塊中的身份。
KME值接近0,說明這個基因不是該模塊的成員:KME接近1或者-1,說明這個基因與該模塊密切相關(guān)(正相關(guān)或者負(fù)相關(guān))。
可以對所有基因計(jì)算相對某個模塊的KME值,并不一定要是該模塊的成員。
KME與KIM高度相關(guān)。某個模塊中KIM值高的hub基因一定與該模塊的KME也很高。
KME與KIM的區(qū)別:IC衡量基因在特定模塊中的身份,MM衡量基因在全局網(wǎng)絡(luò)中的位置。
篩選關(guān)鍵基因:
TOM值(模塊調(diào)控系表中的weight值)大于閾值(默認(rèn)是0.15)的兩個基因才認(rèn)為是相關(guān)的,然后計(jì)算每個基因的連接度。即先篩選有足夠強(qiáng)度的關(guān)系,然后計(jì)算連接度。
模塊內(nèi)部高連接度的基因,模塊內(nèi)排名前30或者10%(KME或KIM).
篩選關(guān)鍵基因:將該基因模塊身份MM相對于基因顯著性GS做散點(diǎn)圖,選擇右上角MM和GS均高的基因進(jìn)一步分析。
基因顯著性值(Gene significance,GS)因變量水平的相關(guān)系數(shù)。衡量基因與表型性狀的關(guān)聯(lián)程度,GS越高,說明與表型越相關(guān),越具有生物學(xué)意義。GS可以為正值或負(fù)值(正相關(guān)或負(fù)相關(guān))
Cytoscape中一般用weight值(TOM值)來繪制網(wǎng)絡(luò)圖。
7.2 特定功能基因分析
高連通性的基因一般位于調(diào)控網(wǎng)絡(luò)的上游;低連通性的基因一般位于調(diào)控網(wǎng)絡(luò)的下游。
調(diào)控網(wǎng)絡(luò)上游一般是調(diào)控因子,如轉(zhuǎn)錄因子;下游一般是功能性的酶或蛋白分子
重點(diǎn)關(guān)注具有調(diào)控功能的基因,典型的為轉(zhuǎn)錄因子,這些基因往往是關(guān)鍵基因

7.3 目標(biāo)基因關(guān)聯(lián)分析
依據(jù)研究目的,選取跟目標(biāo)基因關(guān)系緊密的基因,如篩選與目標(biāo)基因的TOM值排名前10,或者TOM值大于0.2的基因
可準(zhǔn)確篩選與目標(biāo)基因存在上下游調(diào)控關(guān)系的候選基因
當(dāng)目標(biāo)基因連接度不高時,可篩選與目標(biāo)基因TOM值很高,且自身連接度也很高的基因

參考文獻(xiàn):
Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 9, 559 (2008). https://doi.org/10.1186/1471-2105-9-559
備注:你會發(fā)現(xiàn)本文與簡書的某文章一樣,沒錯,這是一個作者