「青蓮百奧干貨分享」不會(huì)編程怎么做生信分析(Excel篇)
利用R或Python進(jìn)行數(shù)據(jù)分析或數(shù)據(jù)可視化在生物數(shù)據(jù)的分析中已經(jīng)應(yīng)用得越來(lái)越廣泛,并為生物學(xué)研究解決了大量的問(wèn)題。但是術(shù)業(yè)有專攻,在生物學(xué)領(lǐng)域深耕的專家學(xué)者可能不太熟悉編程技巧,感覺(jué)對(duì)生信分析一籌莫展,只能找別人幫忙協(xié)助分析。那么,有沒(méi)有方法可以讓不熟悉編程技巧的專業(yè)研究人員也能自己很方便地進(jìn)行數(shù)據(jù)分析,并把數(shù)據(jù)按自己的思路進(jìn)行可視化展現(xiàn)出來(lái)呢?答案是肯定的,具體怎么操作,且聽(tīng)編者慢慢道來(lái)。
首先,本期給大家?guī)?lái)的是Excel協(xié)助的生物信息數(shù)據(jù)分析技巧。Excel是微軟Office的其中一個(gè)工具,收費(fèi)。不過(guò),沒(méi)關(guān)系,不想付錢(qián)我們可以用WPS的“表格”,和Excel完全兼容,部分功能還超過(guò)微軟的Excel。
下面我們就從蛋白質(zhì)組raw文件經(jīng)過(guò)MaxQuant搜庫(kù)后的結(jié)果出發(fā),向您展示如何進(jìn)行一系列處理后得到差異顯著結(jié)果。
數(shù)據(jù)清理
MaxQuant提供的蛋白定量表中包含了部分錯(cuò)誤的匹配數(shù)據(jù),需要預(yù)先去除。我們對(duì)結(jié)果文件的三列(Only identified by site、Reverse、Potential contaminant)進(jìn)行處理,即利用Excel的篩選功能,將這三列數(shù)據(jù)中含有“+”的行剔除。選中這幾列,按“Ctrl + Shift + L”(或【點(diǎn)擊數(shù)據(jù)】—【自動(dòng)篩選】)即可調(diào)出篩選功能。

歸一化處理
由于上樣量等的差異,每組樣本的定量結(jié)果可能不能直接比較,需要先進(jìn)行歸一化處理。目前文獻(xiàn)報(bào)道的歸一化方法很多,下面的演示我們采取中值歸一化的方法。
(1)數(shù)據(jù)清理
定量表中的0值,一般是指沒(méi)鑒定到,但在實(shí)際樣本中是不存在還是定量值太低,不好說(shuō),直接都當(dāng)0看待會(huì)導(dǎo)致不必要的偏差。為了在后續(xù)尋找中值時(shí)不受0值干擾,在進(jìn)行歸一化之前,要先將0替換為空值。操作方法:查找內(nèi)容為0,替換為空值(不是空格,需要?jiǎng)h除格子中所有東西),點(diǎn)擊“選項(xiàng)”,選擇“單元格匹配”,點(diǎn)擊全部替換,即把表格中所有0的單元格替換成空值。如下圖:

(2)計(jì)算各樣本的中值
接下來(lái)我們需要找到各列的中值,可以用MEDIAN公式尋找中值(如果需要采用總和或最大值歸一化,可以用SUM、MAX計(jì)算總和或最大值),進(jìn)行歸一化。
在一個(gè)樣本列的末尾輸入“=MEDIAN(該列數(shù)據(jù)的單元格范圍)”,計(jì)算出該樣本的中位數(shù)。然后,鼠標(biāo)按住該單元格的右下方向右拖動(dòng)到合適的范圍,批量計(jì)算出所有樣本的中位數(shù)。

(3)歸一化
在新的列中,用公式“=單元格/中位數(shù)所在的單元格”進(jìn)行歸一化。由于中位數(shù)所在的單元格的行數(shù)是固定不變的。所以我們?cè)谛袛?shù)前加上一個(gè)“$”符號(hào),該符號(hào)表示的是鎖定的意思。然后,鼠標(biāo)按住該單元格的右下方向右拖動(dòng)到合適的范圍,批量進(jìn)行歸一化。對(duì)同一列的批量操作可以在選中單元格后,將鼠標(biāo)放置在單元格的右下角變成實(shí)心“十”后,雙擊即可對(duì)整個(gè)列進(jìn)行操作。

補(bǔ)值
補(bǔ)值是對(duì)缺失值的一種估算。在無(wú)標(biāo)定量的MaxQuant結(jié)果中,由于我們?cè)谒褞?kù)時(shí)采取了Match between run的方式用一級(jí)數(shù)據(jù)進(jìn)行定量值的估算,以此依然缺失的數(shù)據(jù)基本上為定量值很低的結(jié)果,我們可以用很低的值進(jìn)行補(bǔ)值。在此,我們演示用最小值的1/2進(jìn)行補(bǔ)值。
首先,將歸一化后定量結(jié)果依然為0的單元格(在歸一化的公式操作中,空值經(jīng)公式計(jì)算后得到0值)替換成空值后,找到最小值??梢酝ㄟ^(guò)“=MIN(單元格范圍)”公式計(jì)算最小值,或者選中全部定量列,在下方狀態(tài)欄中顯示最小值。

然后取最小值的1/2進(jìn)行補(bǔ)值,操作步驟如下:
按“Ctrl + G”調(diào)出”定位”,選擇“空值”,點(diǎn)擊“定位”,則把所有空值的單元格都定位上,直接輸入要補(bǔ)的值,填入到當(dāng)前選中的單元格中,然后按“Ctrl+Enter”即可對(duì)所有空值進(jìn)行補(bǔ)值。

注釋信息的匹配
在某些情況下,我們的定量表里可能只有“Accession”信息,但在實(shí)際分析中還需要Gene Symbol的信息。我們可以從數(shù)據(jù)庫(kù)中提取所有蛋白對(duì)應(yīng)的Gene Symbol信息表,但需要提取我們的鑒定列表的Gene Symbol則需要用Excel?的VLOOKUP函數(shù)進(jìn)行匹配。

如圖,左側(cè)是所有蛋白的Accession和Gene Symbol(也稱Gene Name)的對(duì)應(yīng)關(guān)系,右側(cè)是我們想要匹配的蛋白列表。用“=VLOOKUP(查找值,數(shù)據(jù)表,列序數(shù),匹配條件)”。在這里,查找值是D列的第二行(D2);數(shù)據(jù)表的范圍是A列到B列(A:B);列序數(shù),我們想要匹配的是A,B兩列的第二個(gè)(2);匹配條件,我們選擇精確匹配(FALSE),如果希望忽略大小寫(xiě)可以模糊匹配(TRUE)。完成后,將鼠標(biāo)放在該單元格右下角,變成實(shí)心“十”字后雙擊補(bǔ)全,即可獲得所有蛋白Accession對(duì)應(yīng)的Gene Symbol。
統(tǒng)計(jì)檢驗(yàn)
完成了前面的歸一化、補(bǔ)值后,我們需要進(jìn)行不同分組數(shù)據(jù)的分析以便獲得差異表達(dá)結(jié)果。在此,我們采用生物學(xué)研究中常用的T-test進(jìn)行統(tǒng)計(jì)檢驗(yàn),并計(jì)算差異倍數(shù)(Fold change,F(xiàn)C)。
(1)統(tǒng)計(jì)檢驗(yàn)(t-test)
采用Excel的公式“=TTEST(第一組數(shù)值,第二組數(shù)值,尾數(shù),類型)”,計(jì)算出pValue。本演示數(shù)據(jù)是2組3重復(fù),所以第一組數(shù)據(jù)是B2:D2,第二組數(shù)數(shù)據(jù)是E2:G2;尾數(shù)選擇2,代表雙尾;類型選擇2,代表雙樣本等方差假設(shè)。隨后對(duì)整列進(jìn)行補(bǔ)全操作,即可得到所有蛋白的差異的pValue。

(2)計(jì)算差異倍數(shù)(FC)
計(jì)算差異倍數(shù)FC(即2組數(shù)據(jù)平均值的差)。通過(guò)函數(shù)“=AVERAGE(第一組單元格范圍)/AVERAGE(第二組單元格范圍)”,獲得FC值,并補(bǔ)全列,即可得到所有蛋白的FC。

為上下調(diào)蛋白著色
Excel還給我們提供了一種很直觀的可視化方式,即可在設(shè)定條件后,自動(dòng)以不同顏色展示不同的結(jié)果。在這里我們卡pValue<0.05和log2(FC)>1為上調(diào),pValue<0.05和log2(FC)<-1為下調(diào)。log2的計(jì)算可以通過(guò)公式“=LOG(數(shù)值單元格,底數(shù))”計(jì)算。
(1)篩選pValue
通過(guò)Excel的篩選功能,篩選出pValue小于0.05的數(shù)據(jù)。
(2)自動(dòng)著色


選中“l(fā)og2(FC)”這列,點(diǎn)擊【開(kāi)始】--【條件格式】--【突出顯示單元格規(guī)則】,選擇大于,數(shù)值選擇1,設(shè)置為“淺紅填充色深紅色文本”;同樣的操作步驟選擇小于,數(shù)值選擇-1,設(shè)置為“綠填充色深綠色文本”。
效果如下圖所示:

至此,我們用Excel完成了從MaxQuant搜索的原始搜庫(kù)結(jié)果,經(jīng)過(guò)數(shù)據(jù)清理、歸一化、補(bǔ)值,最終進(jìn)行差異篩選和不同顏色展示的整個(gè)過(guò)程。怎么樣,是不是很簡(jiǎn)單。生信分析,我們不用編程也可以辦到的。
當(dāng)然,我們只是演示了一種最基礎(chǔ)的數(shù)據(jù)處理策略,如果需要更復(fù)雜的方法,還需要發(fā)掘Excel的其它功能,或者采用其它軟件輔助的方法實(shí)現(xiàn)。