在線計(jì)算lncRNA-mRNA共表達(dá)相關(guān)系數(shù),用cytoscape繪制共表達(dá)網(wǎng)絡(luò)圖
長鏈非編碼RNA(Long noncoding RNA)是一類長度大于200 nt,不編碼蛋白質(zhì)的RNA。LncRNA的功能多樣,如圖1所示,A:充當(dāng)?shù)鞍踪|(zhì)和染色質(zhì)的連接因子,引起染色質(zhì)重構(gòu)(chromatin remodeling);B:充當(dāng)miRNA海綿;C:充當(dāng)“scaffold”腳手架;D:與轉(zhuǎn)錄因子結(jié)合,引起轉(zhuǎn)錄激活;E:把轉(zhuǎn)錄因子拉走,引起轉(zhuǎn)錄抑制;FGH:與mRNA結(jié)合抑制翻譯、調(diào)節(jié)剪切,及降解mRNA等。
圖1. lncRNA功能
由于lncRNA發(fā)現(xiàn)較晚,功能研究不完善,因此,我們可以以mRNA為橋梁對(duì)lncRNA的功能進(jìn)行推斷和研究。通常將lncRNA的功能分成cis和trans兩種(圖2)。Cis作用的原理是lncRNA的功能與其臨近mRNA相關(guān),可以以lncRNA基因組坐標(biāo)上下游100 kb的mRNA作為lncRNA的靶基因進(jìn)行研究。而trans作用的原理是lncRNA與其共表達(dá)的mRNA相關(guān),可以根據(jù)表達(dá)量計(jì)算相關(guān)性以預(yù)測lncRNA的靶基因(一般要求樣品數(shù)超過6個(gè)),從而研究lncRNA的功能。
圖2. Cis vs trans
相關(guān)系數(shù)(correlation coefficient)
相關(guān)系數(shù)用來衡量兩個(gè)變量X和Y間的相關(guān)性。相關(guān)性包括:線性相關(guān)和非線性相關(guān)。
Pearson相關(guān)系數(shù)用來衡量兩個(gè)變量X和Y之間的線性相關(guān)關(guān)系。常用r表示,取值范圍為[-1,1]。其中負(fù)的表示負(fù)相關(guān),正的表示正相關(guān)。值越大相關(guān)性越強(qiáng)。
而spearman秩相關(guān)系數(shù)用來衡量兩個(gè)變量間的非線性相關(guān)關(guān)系。是一個(gè)非參數(shù)度量。常用rho(ρ)來表示。取值范圍也是[-1,1]。
常見的相關(guān)性標(biāo)準(zhǔn)為:不相關(guān):0-0.1 ;低相關(guān):0.1-0.3;中等相關(guān):0.3-0.5;顯著相關(guān)0.5-1.0。應(yīng)參考具體使用場景進(jìn)行判斷。
雖然pearson相關(guān)系數(shù)最常用,然而它受數(shù)據(jù)分布的影響,對(duì)異常值敏感,需要數(shù)據(jù)服從近似正態(tài)分布才能使用。然而,我們遇到的數(shù)據(jù)是非常復(fù)雜的,往往并不符合線性相關(guān),因此,越來越多的研究者使用spearman秩相關(guān)系數(shù)(Spearman’s rank correlation coefficient)計(jì)算兩個(gè)變量間的相關(guān)性。注意:相關(guān)性不隱含因果關(guān)系。
在lncRNA-mRNA共表達(dá)相關(guān)系數(shù)計(jì)算中,pearson相關(guān)系數(shù)和spearman相關(guān)系數(shù)都有使用。例如在《Genome-wide analysis of lncRNAs, miRNAs, and mRNAs forming a prognostic scoring system in esophageal squamous cell carcinoma》文章中,作者寫道“The correlation between prognostic lncRNA and mRNA expression profiles was analyzed by Spearman method, and the lncRNA-mRNAs pairs that the absolute value of correlation coefficients > =0.4 and p < 0.05 were selected to construct the co-expression network”,使用的是Spearman相關(guān)系數(shù),rho閾值0.4,pvalue閾值0.05。而在《Genome-wide analysis of differentially expressed lncRNAs and mRNAs in primary gonadotrophin adenomas by RNA-seq》文章中,作者寫道“The network is based on Pearson correlation coefficient (the absolute value of PCC ≥ 0.80, p-value < 0.001)”,使用的是pearson相關(guān)系數(shù),r閾值0.8,pvalue閾值0.001。
今天,我們來計(jì)算相關(guān)系數(shù),并使用cytoscape軟件繪制網(wǎng)絡(luò)圖。
1,打開相關(guān)系數(shù)計(jì)算頁面
首先,使用瀏覽器(推薦chrome或者edge)打開lncRNA-mRNA pearson、spearman相關(guān)系數(shù)計(jì)算頁面。左側(cè)為常見作圖導(dǎo)航,中間為數(shù)據(jù)輸入框和可選參數(shù),右側(cè)為描述和結(jié)果示例。
http://www.bioinformatics.com.cn/basic_lncrna_mrna_pearson_spearman_coexpression_analysis_t013
圖3.相關(guān)系數(shù)計(jì)算頁面
2,示例數(shù)據(jù)
點(diǎn)擊右側(cè)“示例數(shù)據(jù)”鏈接下載excel格式的示例數(shù)據(jù)。
示例數(shù)據(jù)(僅供參考)分兩部分,上半部分是lncRNA表達(dá)量,下半部分是mRNA表達(dá)量。其中行是基因,列是樣品名。LncRNA和mRNA的樣品名順序必需保持一致。
圖4.輸入數(shù)據(jù)
注意:需要參考示例數(shù)據(jù),在excel中將自己的數(shù)據(jù)整理成示例數(shù)據(jù)的樣式,每個(gè)cell都需要有數(shù)據(jù),不能有空的單元格。
3,粘貼示例數(shù)據(jù)
拷貝示例數(shù)據(jù)中上半部分的lncRNA數(shù)據(jù),粘貼到第一個(gè)輸入框??截愂纠龜?shù)據(jù)中下半部分的mRNA數(shù)據(jù),粘貼到第二個(gè)輸入框。
圖5. 將數(shù)據(jù)粘貼到輸入框
注意:不是拷貝excel文件,是拷貝excel文件里邊的數(shù)據(jù)。另外粘貼到輸入框后,格式亂了沒關(guān)系,只要在excel中是整齊的就行。并且數(shù)據(jù)矩陣中不能有空的單元格,中文字符等。
4,修改參數(shù),并提交
我們設(shè)置了數(shù)據(jù)是否轉(zhuǎn)化、相關(guān)系數(shù)算法等參數(shù)。由于示例數(shù)據(jù)來自芯片,因此這里不轉(zhuǎn)化。使用pearson相關(guān)系數(shù)進(jìn)行計(jì)算。
圖6. 可選參數(shù)
5,提交分析
粘貼好輸入數(shù)據(jù),調(diào)整好參數(shù)后,點(diǎn)擊提交按鈕,3秒鐘后,會(huì)在頁面右側(cè)出現(xiàn)結(jié)果。
圖7.結(jié)果說明及下載
結(jié)果以excel存儲(chǔ)。
圖8. 相關(guān)系數(shù)結(jié)果
各列說明:
LncRNA:lncRNA名字
mRNA:mRNA名字
r:pearson相關(guān)系數(shù)
pvalue:p值
flag:+:正相關(guān),-:負(fù)相關(guān)
6. 過濾結(jié)果
下載結(jié)果后,使用excel的篩選功能進(jìn)行過濾,這里以p<0.05,|r|>=0.4的lncRNA-mRNA對(duì)繪制共表達(dá)網(wǎng)絡(luò)(帶header共28行)。
圖9. 相關(guān)系數(shù)過濾
圖10. P值過濾
7,導(dǎo)入cytoscape
拷貝這28行數(shù)據(jù),粘貼到一個(gè)txt文件中。然后打開cytoscape軟件,導(dǎo)入這個(gè)txt文件。在彈出的窗口中選擇source和target。
圖11.導(dǎo)入txt
圖12. 選擇source和target,其中l(wèi)ncRNA為source,mRNA為target
圖13. 默認(rèn)網(wǎng)絡(luò)圖
8. 網(wǎng)絡(luò)圖美化
經(jīng)過對(duì)顏色,節(jié)點(diǎn)形狀,線型,布局等的簡單美化后,獲得最終的lncRNA-mRNA共表達(dá)網(wǎng)絡(luò)圖(圖12)。由于每個(gè)人的審美不同,因此這里需要花費(fèi)大量的時(shí)間進(jìn)行美化,有些研究者還會(huì)使用AI等軟件給網(wǎng)絡(luò)圖添加背景色等進(jìn)行進(jìn)一步優(yōu)化。
圖14. 簡單美化后的網(wǎng)絡(luò)圖
微生信助力高分文章,用戶64000+,引用800+