【中字】主成分分析法(PCA)| 分步步驟解析 看完你就懂了!

PCA 1. PCA是什么:就是降維。
降維的同時(shí)不可避免會(huì)有數(shù)據(jù)損失,所以需要選出最好的坐標(biāo)系/降維方式/PCA算法——“建立的新維度按照方差大小排序,前幾個(gè)維度包含了原始數(shù)據(jù)中大部分的方差信息,方差/特征值越大則該主成分(PC)擬合越好。這樣,PCA可以將高維數(shù)據(jù)集中的復(fù)雜結(jié)構(gòu)轉(zhuǎn)化為低維空間中的簡(jiǎn)單結(jié)構(gòu),從而方便后續(xù)的數(shù)據(jù)分析和可視化。”
基因=變量
維度=主成分PC=通過某算法得到的變量組合
數(shù)據(jù)點(diǎn)=樣本=each老鼠/細(xì)胞
2.降維好處:簡(jiǎn)化特征的復(fù)雜程度,減少訓(xùn)練模型計(jì)算量;
3. PCA降維缺點(diǎn):離群點(diǎn)的影響較大。
4. 降維的衡量指標(biāo)-降維后,在各保留維度中的方差(特征值)要最大:因?yàn)榉讲钤酱髷?shù)據(jù)越散,防止了數(shù)據(jù)重疊導(dǎo)致信息失真。
5. 如何找到方差最大/最優(yōu)擬合維度:理解即可







1.降維--方便繪圖(可視化)

2.聚類cluster及其重要維度/基因

e.g.基因3(維度3)在分類上起到重要作用

3.繪圖準(zhǔn)確性

HOW- 去中心化




HOW-擬合-最優(yōu)擬合



HOW-判定擬合度






從勾股定理開始,通俗理解如何判定擬合度









最大方差平方和SS=主成分1





PC1向量=基因1+基因2 的線性組合






PC1的奇異SV/特征向量EV(個(gè)人覺得理解PCA的最重要的點(diǎn)是特征向量那塊,聽不懂的建議復(fù)習(xí)特征向量知識(shí))

載荷得分LS

PC1的特征值=SS;奇異值



用縮放來求得以上術(shù)語(yǔ)







碎石圖A SCREE PLOT:用PC的特征值(方差 平方和),來評(píng)估每個(gè)主成分PC所占差異率/代表性(對(duì)總差異的貢獻(xiàn)占比)



尋找PC2:與PC1垂直的平面內(nèi),讓距離平方和最大的那條線作為PC2 line。找到最佳擬合的這個(gè)過程,即各個(gè)樣本投影點(diǎn)到原點(diǎn)(中心點(diǎn))的方差最大化的過程









