主成分分析-PCA(中英文字幕)

將五列數(shù)據(jù)總結(jié)為兩列:

計(jì)算一維數(shù)軸上數(shù)據(jù)的方差→計(jì)算二維平面上數(shù)據(jù)的方差:將數(shù)據(jù)點(diǎn)分別投影到x軸和y軸,再分別用一維數(shù)軸上數(shù)據(jù)方差的計(jì)算方式得到x軸和y軸上的方差,最后求和,得到二維平面上數(shù)據(jù)的方差。
但是用這樣的方法得到的方差,無(wú)法對(duì)以下兩種情況作出區(qū)分(因?yàn)檫@兩種情況數(shù)據(jù)點(diǎn)分布背后的含義完全不同):

因此需要引入第三個(gè)指標(biāo),來(lái)區(qū)分這兩種情況。這第三個(gè)指標(biāo)就是“協(xié)方差”。

之前我們計(jì)算數(shù)據(jù)方差用的是各數(shù)據(jù)點(diǎn)坐標(biāo)的平方和,而協(xié)方差是各數(shù)據(jù)點(diǎn)坐標(biāo)乘積的和。

由上述計(jì)算結(jié)果可知,左右兩邊的協(xié)方差絕對(duì)值相等,但左邊的協(xié)方差為負(fù),右邊的協(xié)方差為正。因此,兩種數(shù)據(jù)分布情況成功被區(qū)分開(kāi)來(lái)。
根據(jù)以上經(jīng)驗(yàn),我們可以發(fā)現(xiàn)其實(shí)從數(shù)據(jù)大致的分布形狀就能估計(jì)協(xié)方差的正負(fù):

“協(xié)方差矩陣”左上角到右下角的對(duì)角線(xiàn)上是各個(gè)軸上數(shù)據(jù)的方差,其余位置是不同軸兩兩之間的數(shù)據(jù)的協(xié)方差:


上圖中的11和1其實(shí)是特征值,它們的特征向量分別是(2,1)和(-1,2)。
特征值和特征向量的含義是:(9,4;4,3)這個(gè)矩陣讓左圖中的大部分向量在轉(zhuǎn)換后都改變了方向,但(2,1)和(-1,2)這兩個(gè)特殊向量被轉(zhuǎn)換后依然分別指向原來(lái)的方向,只是長(zhǎng)度發(fā)生了變化。則稱(chēng)(2,1)和(-1,2)這兩個(gè)特殊向量為“特征向量”。而長(zhǎng)度變化的倍數(shù)λ1和λ2就是這兩個(gè)特征向量對(duì)應(yīng)的特征值。

特征向量和特征值的計(jì)算方法有很多。比如將轉(zhuǎn)換矩陣輸入“Wolfram Alpha”這個(gè)網(wǎng)站,會(huì)直接輸出該矩陣對(duì)應(yīng)的兩個(gè)特征向量和特征值:

還有一種方式是自己計(jì)算。特征值的計(jì)算過(guò)程如下所示:

得到特征值后,代入Ax=λx(x為特征向量,λ為特征值,目前A和λ均已知)這個(gè)方程后,就可得到x的解,即兩個(gè)特征值分別對(duì)應(yīng)的特征向量。

如果轉(zhuǎn)換矩陣是對(duì)稱(chēng)的,那么對(duì)應(yīng)的兩個(gè)特征向量是垂直或正交的。因?yàn)閰f(xié)方差矩陣本身構(gòu)造的時(shí)候就是對(duì)稱(chēng)的,所以其對(duì)應(yīng)的兩個(gè)特征向量就是垂直或正交的。
決定好要保留哪些向量后,把不要的都刪掉,并把數(shù)據(jù)投影到保留下來(lái)的向量所在的直線(xiàn)上:


選擇前兩個(gè)向量,并把所有數(shù)據(jù)點(diǎn)投影到這兩個(gè)向量組成的平面上:


投影到該平面后的數(shù)據(jù)點(diǎn)在x軸和y軸上的值,就是降維后的w1列和w2列的值。