R語(yǔ)言k-prototype聚類新能源汽車行業(yè)上市公司分析混合型數(shù)據(jù)集
本文的研究目的是基于R語(yǔ)言的k-prototype算法,幫助客戶對(duì)新能源汽車行業(yè)上市公司進(jìn)行混合型數(shù)據(jù)集的聚類分析。
通過(guò)對(duì)公司的財(cái)務(wù)數(shù)據(jù)、市場(chǎng)表現(xiàn)和發(fā)展戰(zhàn)略等多個(gè)方面的變量進(jìn)行聚類分析,我們可以將這些公司劃分為不同的類別,并分析不同類別的特點(diǎn)和發(fā)展趨勢(shì)。
這樣的研究結(jié)果對(duì)于投資者、政策制定者和行業(yè)從業(yè)者都具有重要的參考價(jià)值,可以幫助他們更好地了解新能源汽車行業(yè)上市公司的發(fā)展?fàn)顩r和市場(chǎng)表現(xiàn),從而做出更明智的決策。
分析目標(biāo)
本項(xiàng)目旨在使用聚類算法對(duì)不同城市的新能源汽車行業(yè)上市公司進(jìn)行分類與排序,以尋找客觀真實(shí)的城市分層方法、支持業(yè)務(wù)運(yùn)營(yíng)與決策。
方法論
首先,由于數(shù)據(jù)集呈現(xiàn)分類變量與數(shù)值變量混合的特點(diǎn),本次數(shù)據(jù)分析將采用K-prototype算法:
K-prototype算法:無(wú)需創(chuàng)建啞變量,將分別為分類變量計(jì)算漢明距離、為數(shù)值型變量計(jì)算歐幾里得距離然后得出聚類結(jié)果。算法運(yùn)行結(jié)束后將使用成本函數(shù)評(píng)價(jià)聚類效果。 其次,數(shù)值型變量b、c、d的量綱明顯不等,為避免量綱影響距離計(jì)算中不同變量的權(quán)重,需要對(duì)變量b、c、d進(jìn)行處理。由于不知道是否符合正態(tài)分布,在這里使用歸一化而非標(biāo)準(zhǔn)化。
查看數(shù)據(jù)
在進(jìn)行聚類分析之前,首先需要查看數(shù)據(jù)集,了解數(shù)據(jù)的結(jié)構(gòu)和特征。通過(guò)使用R語(yǔ)言中的相關(guān)函數(shù)和包,我們可以讀取數(shù)據(jù)集,并使用函數(shù)如summary()和head()來(lái)查看數(shù)據(jù)的概要和前幾行。

data=read.csv("新能源汽車 匯總.csv")

求出相關(guān)系數(shù)
求出相關(guān)系數(shù) 在進(jìn)行聚類分析之前,我們需要了解數(shù)據(jù)中各個(gè)變量之間的相關(guān)性。通過(guò)計(jì)算相關(guān)系數(shù),我們可以得到一個(gè)關(guān)于變量之間關(guān)聯(lián)程度的度量。R語(yǔ)言中的cor()函數(shù)可以用來(lái)計(jì)算相關(guān)系數(shù)矩陣,并通過(guò)可視化工具如熱圖來(lái)展示相關(guān)系數(shù)的模式。




對(duì)數(shù)據(jù)進(jìn)行kp聚類(k=3)
對(duì)數(shù)據(jù)進(jìn)行聚類 在進(jìn)行聚類分析之前,我們需要選擇適當(dāng)?shù)木垲愃惴ā?duì)于混合型數(shù)據(jù)集,我們可以使用R語(yǔ)言中的k-prototype算法。該算法可以同時(shí)處理數(shù)值型和分類型變量,并根據(jù)變量之間的相似性將樣本劃分為不同的聚類。
x=data[,-c(1:2)] ?d <- dist(x) ?pclust=function(k){ ?? n=nrow(data) ?cut <- tocut(hc, k=k) ??h <- hc$height[n - k]clust(3)


lust(4)


st(5)


ust(6)


將數(shù)據(jù)使用算法分成4個(gè)類別后可以看到 每個(gè)類別之間分布呈不同的簇,交集較少 ,因此可以認(rèn)為得到的聚類結(jié)果較好。
刪除相關(guān)性變量
刪除相關(guān)性變量 在進(jìn)行聚類分析之前,我們需要?jiǎng)h除相關(guān)性較高的變量。高相關(guān)性的變量可能會(huì)導(dǎo)致冗余的信息,并且可能會(huì)對(duì)聚類結(jié)果產(chǎn)生負(fù)面影響。通過(guò)計(jì)算變量之間的相關(guān)系數(shù),并選擇相關(guān)系數(shù)較低的變量進(jìn)行保留,我們可以減少變量的維度,從而提高聚類的效果。
cor(data[,-c(1:2)])
找到高相關(guān)性變量(相關(guān)系數(shù)大于0.8)
找到高相關(guān)性變量 除了刪除高相關(guān)性的變量外,我們還可以找出相關(guān)系數(shù)較高的變量對(duì)。這些變量對(duì)可能包含一些重要的信息,可以幫助我們更好地理解數(shù)據(jù)。通過(guò)計(jì)算變量之間的相關(guān)系數(shù),并選擇相關(guān)系數(shù)較高的變量對(duì),我們可以得到一組關(guān)鍵的變量對(duì),用于進(jìn)一步的分析和解釋。
highcor=which(abs(cor(data[,-c(1:2)]))>0.85,arr.ind = T)clust(2)
lust(3)
lust(4)
ust(5)
lust(6)
將數(shù)據(jù)使用算法分成4個(gè)類別后可以看到 每個(gè)類別之間分布呈不同的簇,交集較少 ,因此可以認(rèn)為得到的聚類結(jié)果較好。
數(shù)據(jù)標(biāo)準(zhǔn)化
在進(jìn)行聚類分析之前,我們需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化可以將不同變量之間的尺度差異進(jìn)行統(tǒng)一,從而避免某些變量對(duì)聚類結(jié)果的影響過(guò)大。通過(guò)使用R語(yǔ)言中的scale()函數(shù),我們可以對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
x=scale(data2[,-c(1:2)]) ?d <- dist(x) ?hc <- prolust(d)lust(2)
st(3)
ust(4)
ust(5)
ust(6)
將數(shù)據(jù)使用算法分成4個(gè)類別后可以看到 每個(gè)類別之間分布呈不同的簇,交集較少 ,因此可以認(rèn)為得到的聚類結(jié)果較好。
通過(guò)以上步驟,我們可以使用R語(yǔ)言中的k-prototype算法對(duì)混合型數(shù)據(jù)集進(jìn)行聚類分析,從而幫助我們更好地理解和解釋新能源汽車行業(yè)上市公司的特征和模式。這對(duì)于業(yè)界和學(xué)術(shù)界的研究人員來(lái)說(shuō),具有重要的實(shí)際和理論意義。
最受歡迎的見(jiàn)解
1.R語(yǔ)言k-Shape算法股票價(jià)格時(shí)間序列聚類
2.R語(yǔ)言基于溫度對(duì)城市層次聚類、kmean聚類、主成分分析和Voronoi圖
3.R語(yǔ)言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語(yǔ)言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實(shí)戰(zhàn)
6.用R進(jìn)行網(wǎng)站評(píng)論文本挖掘聚類
7.R語(yǔ)言KMEANS均值聚類和層次聚類:亞洲國(guó)家地區(qū)生活幸福質(zhì)量異同可視化
8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹(shù)、支持向量機(jī)、樸素貝葉斯模型和KMEANS聚類用戶畫(huà)像
9.R語(yǔ)言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類