最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

拓端tecdat|R語(yǔ)言 PCA(主成分分析),CA(對(duì)應(yīng)分析)夫妻職業(yè)差異和馬賽克圖可視化

2021-07-31 23:53 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=22762?

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

主成分分析法是數(shù)據(jù)挖掘中常用的一種降維算法,是Pearson在1901年提出的,再后來(lái)由hotelling在1933年加以發(fā)展提出的一種多變量的統(tǒng)計(jì)方法,其最主要的用途在于“降維”,通過(guò)析取主成分顯出的最大的個(gè)別差異,也可以用來(lái)削減回歸分析和聚類分析中變量的數(shù)目,與因子分析類似。

所謂降維,就是把具有相關(guān)性的變量數(shù)目減少,用較少的變量來(lái)取代原先變量。如果原始變量互相正交,即沒(méi)有相關(guān)性,則主成分分析沒(méi)有效果。

對(duì)應(yīng)分析(CA)是適用于分析由兩個(gè)定性變量(或分類數(shù)據(jù))形成的大型應(yīng)變表的主成分分析的擴(kuò)展。本文通過(guò)析取主成分來(lái)分析夫妻職業(yè)的個(gè)別差異。

夫妻職業(yè)數(shù)據(jù)

考慮以下數(shù)據(jù),對(duì)應(yīng)于一對(duì)夫妻中的職業(yè)。我們有以下的頻數(shù)表

read.table(data.csv",header=TRUE)

傳統(tǒng)上,對(duì)于這種數(shù)據(jù),我們習(xí)慣于使用卡方檢驗(yàn),卡方距離,以及卡方貢獻(xiàn)來(lái)查看數(shù)據(jù)的差異性

chisq.test(M)

馬賽克圖

Mosaic plot常常用來(lái)展示Categorical data(分類數(shù)據(jù))(關(guān)于不同的數(shù)據(jù)類別,mosaic plot 強(qiáng)大的地方在于它能夠很好的展示出2個(gè)或者多個(gè)分類型變量(categorical variable)的關(guān)系. 它也可以定義為用圖像的方式展示分類型數(shù)據(jù)。

當(dāng)變量是類別變量時(shí),且數(shù)目多于三個(gè)的時(shí)候,可使用馬賽克圖。馬賽克圖中,嵌套矩陣面積正比于單元格頻率,其中該頻率即多維列聯(lián)表中的頻率。顏色和陰影可表示擬合模型的殘差值。

我們可以將其結(jié)果用馬賽克圖來(lái)形象化。

plot(tM)

丈夫在行中,妻子在列中。重要的聯(lián)系是藍(lán)色或紅色,這兩種顏色分別對(duì)應(yīng)于 "正 "聯(lián)系(比獨(dú)立情況下的聯(lián)合概率高)或 "負(fù) "聯(lián)系(比獨(dú)立情況下的聯(lián)合概率低)。

在另一個(gè)方向

plot(M)

但結(jié)論與之前一樣:對(duì)角線上有很強(qiáng)的藍(lán)色數(shù)值。

換句話說(shuō),這些夫妻在職業(yè)方面是相對(duì)相似和單一的。

主成分分析和對(duì)應(yīng)分析

在對(duì)應(yīng)分析中,我們查看概率表,在行或列中。例如,我們可以定義行,它是概率向量

N/apply(N,1,sum)

注意到?

,我們可以寫出

我們的線向量的重心在這里

同樣,注意到?

, 我們可以用矩陣的方式來(lái)寫,?

.

L0=(t(L)-Lbar)

對(duì)于每一個(gè)點(diǎn),我們都將(相對(duì))頻率作為權(quán)重進(jìn)行關(guān)聯(lián),

這相當(dāng)于使用矩陣 。為了測(cè)量?jī)牲c(diǎn)之間的距離

,我們將通過(guò)概率的倒數(shù)對(duì)歐氏距離進(jìn)行加權(quán),

?。兩條線之間的距離是

然后我們將用這些不同的權(quán)重做主成分分析。從矩陣的角度來(lái)看

我們注意到特征向量

,我們定義了主成分

對(duì)線條的前兩個(gè)成分的投影,在此給出了

PCA(L0,scal=FALSE


我們的想法是將對(duì)應(yīng)于行的個(gè)體進(jìn)行可視化。在第二步中,我們做相同的事情,在列中

N/apply(N,2,sum))

中心:

C0=C-Cbar

主成分分析

然后我們可以做一個(gè)主成分分析

PCA(matC0

看個(gè)人的可視化。


對(duì)應(yīng)分析

對(duì)應(yīng)分析的奇妙之處在于,我們 "可以 "在同一平面上表示個(gè)人的兩個(gè)投影。


  1. > plot(C[,1:2])

結(jié)果如下

> afc=CA(N)


最受歡迎的見(jiàn)解

1.matlab偏最小二乘回歸(PLSR)和主成分回歸(PCR)

2.R語(yǔ)言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析

3.主成分分析(PCA)基本原理及分析實(shí)例

4.基于R語(yǔ)言實(shí)現(xiàn)LASSO回歸分析

5.使用LASSO回歸預(yù)測(cè)股票收益數(shù)據(jù)分析

6.r語(yǔ)言中對(duì)lasso回歸,ridge嶺回歸和elastic-net模型

7.r語(yǔ)言中的偏最小二乘回歸pls-da數(shù)據(jù)分析

8.r語(yǔ)言中的偏最小二乘pls回歸算法

9.R語(yǔ)言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)


拓端tecdat|R語(yǔ)言 PCA(主成分分析),CA(對(duì)應(yīng)分析)夫妻職業(yè)差異和馬賽克圖可視化的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
林甸县| 奈曼旗| 新津县| 肃宁县| 广灵县| 彰武县| 台安县| 榕江县| 甘肃省| 林芝县| 江城| 漠河县| 玛沁县| 永泰县| 临猗县| 和顺县| 武川县| 潮州市| 安平县| 佛坪县| 红河县| 施秉县| 三明市| 淮安市| 海阳市| 密山市| 榆中县| 文化| 德保县| 眉山市| 兴安盟| 夏邑县| 睢宁县| 财经| 米易县| 福清市| 米脂县| 涡阳县| 镇巴县| 贵港市| 开封县|