拓端tecdat|R語(yǔ)言 PCA(主成分分析),CA(對(duì)應(yīng)分析)夫妻職業(yè)差異和馬賽克圖可視化
原文鏈接:http://tecdat.cn/?p=22762?
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
主成分分析法是數(shù)據(jù)挖掘中常用的一種降維算法,是Pearson在1901年提出的,再后來(lái)由hotelling在1933年加以發(fā)展提出的一種多變量的統(tǒng)計(jì)方法,其最主要的用途在于“降維”,通過(guò)析取主成分顯出的最大的個(gè)別差異,也可以用來(lái)削減回歸分析和聚類分析中變量的數(shù)目,與因子分析類似。
所謂降維,就是把具有相關(guān)性的變量數(shù)目減少,用較少的變量來(lái)取代原先變量。如果原始變量互相正交,即沒(méi)有相關(guān)性,則主成分分析沒(méi)有效果。
對(duì)應(yīng)分析(CA)是適用于分析由兩個(gè)定性變量(或分類數(shù)據(jù))形成的大型應(yīng)變表的主成分分析的擴(kuò)展。本文通過(guò)析取主成分來(lái)分析夫妻職業(yè)的個(gè)別差異。
夫妻職業(yè)數(shù)據(jù)
考慮以下數(shù)據(jù),對(duì)應(yīng)于一對(duì)夫妻中的職業(yè)。我們有以下的頻數(shù)表
read.table(data.csv",header=TRUE)
傳統(tǒng)上,對(duì)于這種數(shù)據(jù),我們習(xí)慣于使用卡方檢驗(yàn),卡方距離,以及卡方貢獻(xiàn)來(lái)查看數(shù)據(jù)的差異性
chisq.test(M)
馬賽克圖
Mosaic plot常常用來(lái)展示Categorical data(分類數(shù)據(jù))(關(guān)于不同的數(shù)據(jù)類別,mosaic plot 強(qiáng)大的地方在于它能夠很好的展示出2個(gè)或者多個(gè)分類型變量(categorical variable)的關(guān)系. 它也可以定義為用圖像的方式展示分類型數(shù)據(jù)。
當(dāng)變量是類別變量時(shí),且數(shù)目多于三個(gè)的時(shí)候,可使用馬賽克圖。馬賽克圖中,嵌套矩陣面積正比于單元格頻率,其中該頻率即多維列聯(lián)表中的頻率。顏色和陰影可表示擬合模型的殘差值。
我們可以將其結(jié)果用馬賽克圖來(lái)形象化。
plot(tM)
丈夫在行中,妻子在列中。重要的聯(lián)系是藍(lán)色或紅色,這兩種顏色分別對(duì)應(yīng)于 "正 "聯(lián)系(比獨(dú)立情況下的聯(lián)合概率高)或 "負(fù) "聯(lián)系(比獨(dú)立情況下的聯(lián)合概率低)。
在另一個(gè)方向
plot(M)
但結(jié)論與之前一樣:對(duì)角線上有很強(qiáng)的藍(lán)色數(shù)值。
換句話說(shuō),這些夫妻在職業(yè)方面是相對(duì)相似和單一的。
主成分分析和對(duì)應(yīng)分析
在對(duì)應(yīng)分析中,我們查看概率表,在行或列中。例如,我們可以定義行,它是概率向量
N/apply(N,1,sum)
注意到?
,我們可以寫出
我們的線向量的重心在這里
同樣,注意到?
, 我們可以用矩陣的方式來(lái)寫,?
.
L0=(t(L)-Lbar)
對(duì)于每一個(gè)點(diǎn),我們都將(相對(duì))頻率作為權(quán)重進(jìn)行關(guān)聯(lián),
這相當(dāng)于使用矩陣 。為了測(cè)量?jī)牲c(diǎn)之間的距離
,我們將通過(guò)概率的倒數(shù)對(duì)歐氏距離進(jìn)行加權(quán),
?。兩條線之間的距離是
然后我們將用這些不同的權(quán)重做主成分分析。從矩陣的角度來(lái)看
我們注意到特征向量
,我們定義了主成分
對(duì)線條的前兩個(gè)成分的投影,在此給出了
PCA(L0,scal=FALSE
我們的想法是將對(duì)應(yīng)于行的個(gè)體進(jìn)行可視化。在第二步中,我們做相同的事情,在列中
N/apply(N,2,sum))
中心:
C0=C-Cbar
主成分分析
然后我們可以做一個(gè)主成分分析
PCA(matC0
看個(gè)人的可視化。
對(duì)應(yīng)分析
對(duì)應(yīng)分析的奇妙之處在于,我們 "可以 "在同一平面上表示個(gè)人的兩個(gè)投影。
> plot(C[,1:2])
結(jié)果如下
> afc=CA(N)
最受歡迎的見(jiàn)解
1.matlab偏最小二乘回歸(PLSR)和主成分回歸(PCR)
2.R語(yǔ)言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析
3.主成分分析(PCA)基本原理及分析實(shí)例
4.基于R語(yǔ)言實(shí)現(xiàn)LASSO回歸分析
5.使用LASSO回歸預(yù)測(cè)股票收益數(shù)據(jù)分析
6.r語(yǔ)言中對(duì)lasso回歸,ridge嶺回歸和elastic-net模型
7.r語(yǔ)言中的偏最小二乘回歸pls-da數(shù)據(jù)分析
8.r語(yǔ)言中的偏最小二乘pls回歸算法
9.R語(yǔ)言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)