R語言使用K-Means聚類可視化WiFi訪問
原文鏈接:http://tecdat.cn/?p=6715
?
可視化已成為數(shù)據(jù)科學(xué)在電信行業(yè)中的關(guān)鍵應(yīng)用。具體而言,電信分析高度依賴于地理空間數(shù)據(jù)的使用。
這是因?yàn)殡娦啪W(wǎng)絡(luò)本身在地理上是分散的,并且對這種分散的分析可以產(chǎn)生關(guān)于網(wǎng)絡(luò)結(jié)構(gòu),消費(fèi)者需求和可用性的有價(jià)值的見解。
數(shù)據(jù)
為了說明這一點(diǎn),使用k均值聚類算法來分析免費(fèi)公共WiFi的地理數(shù)據(jù)。?
具體地,k均值聚類算法用于基于與特定提供商相關(guān)聯(lián)的緯度和經(jīng)度數(shù)據(jù)來形成WiFi使用的集群。
從數(shù)據(jù)集本身,使用R提取緯度和經(jīng)度數(shù)據(jù):
#1
newyorkdf <-data.frame(紐約$ LAT,紐約$ LON)
這是一個(gè)數(shù)據(jù)片段:

確定群集的數(shù)量
現(xiàn)在,需要使用scree圖確定簇的數(shù)量。
#2。確定群集的數(shù)量

從上面可以看出,曲線在大約11個(gè)星團(tuán)處平穩(wěn)。因此,這是將在k-means模型中使用的聚類數(shù)。
K均值分析
K-Means分析本身是:
ggplot(newyorkdf,aes(x = newyork.LON,y = newyork.LAT,color = newyorkdf $ fit.cluster))+ geom_point()
在數(shù)據(jù)框newyorkdf中,顯示緯度和經(jīng)度數(shù)據(jù)以及群集標(biāo)簽:
> newyorkdf
newyork.LAT newyork.LON fit.cluster
1 40.75573 -73.94458 1
2 40.75533 -73.94413 1
3 40.75575 -73.94517 1
4 40.75575 -73.94517 1
5 40.75575 -73.94517 1
6 40.75575 -73.94517 1
.....
80 40.84832 -73.82075 11
81 40.84923 -73.82105 11
82 40.84920 -73.82106 11
83 40.85021 -73.82175 11
84 40.85023 -73.82178 11
85 40.86444 -73.89455 11

這個(gè)例子很有用,但理想的情況是將這些集群附加到紐約市本身的地圖上。
地圖可視化
為了生成紐約市的地圖 ,如下所示。
gg +
geom_point(data = newyorkdf,aes(x = newyork.LON,y = newyork.LAT),
color = newyorkdf $ fit.cluster,alpha = .5)+ ggtitle(“紐約公共WiFi”)
運(yùn)行上述內(nèi)容后,將生成NYC地圖以及相關(guān)群集:
這種類型的聚類可以深入了解城市中WiFi網(wǎng)絡(luò)的結(jié)構(gòu)。例如,群集1中有650個(gè)單獨(dú)的點(diǎn),而群集6中存在100個(gè)點(diǎn)。
這表明由集群1標(biāo)記的地理區(qū)域顯示了大量的WiFi流量。另一方面,群集6中較低數(shù)量的連接指示低WiFi流量。
K-Means聚類本身并不能告訴我們?yōu)槭裁刺囟旱牧髁扛呋虻汀5?,此聚類算法為進(jìn)一步分析提供了一個(gè)很好的起點(diǎn),并且可以更輕松地收集其他信息,以確定一個(gè)地理集群的流量密度可能高于另一個(gè)地理集群的原因。
結(jié)論
此示例演示了k-means聚類如何與地理數(shù)據(jù)一起使用,以便可視化整個(gè)WiFi接入點(diǎn)。此外,我們還看到了k-means聚類如何指示用于WiFi接入的高密度區(qū)域和低密度區(qū)域,以及可以從中提取關(guān)于人口,WiFi速度以及其他因素的潛在見解。
?
非常感謝您閱讀本文,有任何問題請?jiān)谙旅媪粞裕?/h1>?
請選中你要保存的內(nèi)容,粘貼到此文本框