PCA繪圖,從原理到繪圖
爾云間? 一個(gè)專(zhuān)門(mén)做科研的團(tuán)隊(duì)
歡迎點(diǎn)贊+收藏+關(guān)注

生信人R語(yǔ)言學(xué)習(xí)必備
立刻擁有一個(gè)Rstudio賬號(hào)
開(kāi)啟升級(jí)模式吧
(56線程,256G內(nèi)存,個(gè)人存儲(chǔ)1T)
PCA分析是降緯分析中常用的手段,往往大量的數(shù)據(jù)集不能直觀的體現(xiàn)出問(wèn)題,因此我們需要對(duì)數(shù)據(jù)進(jìn)行降維處理,分析起到主要作用的指數(shù)PCA1、PCA2、PCA3......,因此稱(chēng)為主成分分析。
使用PCA分析的過(guò)程中我們需要了解其中的原理,才能更好的理解生物學(xué)意義,現(xiàn)在的R包以及一些軟件都能做到一鍵分析的程度,但是我們也要了解背后的原理。本文提供兩種做出PCA的方法,一種是理解原理式進(jìn)行一步步分析,一種為打包好的prcomp()函數(shù)、princomp()函數(shù)來(lái)分析。
一步步做出PCA圖
1、數(shù)據(jù)標(biāo)準(zhǔn)化
為了統(tǒng)一數(shù)據(jù)的量綱并對(duì)數(shù)據(jù)進(jìn)行中心化,在主成分分析之間需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
2、計(jì)算相關(guān)系數(shù)矩陣
主成分即找出解釋變量方差最大的主成分,所以需要計(jì)算變量之間協(xié)方差。用cor()進(jìn)行計(jì)算相關(guān)系數(shù)矩陣
3、特征值特征向量
4、計(jì)算主成分得分
5、繪制圖
p1

使用現(xiàn)在封裝好的函數(shù)進(jìn)行PCA分析
prcomp()函數(shù)、princomp()函數(shù)可以對(duì)上述步驟進(jìn)行一次性分析
#使用prcomp()函數(shù)進(jìn)行直接PCA的計(jì)算
com1?<- prcomp(data[,1:4], center = TRUE,scale. = TRUE)
summary(com1)
?

后續(xù)的需要合并鳶尾花屬的列(地5列),最后做出實(shí)現(xiàn)PCA可視化即可。
PCA通俗易懂的理解
Principal Component Analysis(PCA)主成分分析它本質(zhì)是把數(shù)據(jù)視為一個(gè)多維度的存在,但是每個(gè)緯度對(duì)整個(gè)數(shù)據(jù)集的貢獻(xiàn)度是不一樣的,為了方便觀察,我們會(huì)對(duì)貢獻(xiàn)率低的緯度進(jìn)行忽略,保留2維或者3維的內(nèi)容,那留下的三個(gè)緯度都是起到重要作用的,因此稱(chēng)為主成分,但是他對(duì)于整個(gè)數(shù)據(jù)集的貢獻(xiàn)并不是1,所以我們看到橫縱坐標(biāo)并不是1,而是<1的數(shù)。
?
如果我們對(duì)于R代碼不熟悉的,現(xiàn)在也會(huì)有很多網(wǎng)上的小工具一鍵可以出圖http://www.biocloudservice.com/794/794.php
?
總而言之,我們是要做出圖來(lái)支撐我們的論文觀點(diǎn),但是對(duì)于一些統(tǒng)計(jì)學(xué)的知識(shí)也應(yīng)該有一定的了解和掌握,才能更好的分析數(shù)據(jù)、理解圖的含義等。

今天的分享就到這里了,小伙伴們?nèi)绻惺裁磫?wèn)題就和小果討論吧。

“生信果”,生信入門(mén)、R語(yǔ)言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識(shí)技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見(jiàn)證小白和大佬的成長(zhǎng)。