R語言主成分pca、因子分析、聚類對地區(qū)經(jīng)濟(jì)研究分析重慶市經(jīng)濟(jì)指標(biāo)
全文鏈接:http://tecdat.cn/?p=27515?
原文出處:拓端數(shù)據(jù)部落公眾號
建立重慶市經(jīng)濟(jì)指標(biāo)發(fā)展體系,以重慶市一小時(shí)經(jīng)濟(jì)圈作為樣本,運(yùn)用因子分析方法進(jìn)行實(shí)證分析,在借鑒了相關(guān)評價(jià)理論和評價(jià)方法的基礎(chǔ)上,本文提取出經(jīng)濟(jì)規(guī)模、人均發(fā)展水平、經(jīng)濟(jì)發(fā)展?jié)摿Α?個主因子,從2重慶市統(tǒng)計(jì)年鑒選取8個如下指標(biāo)構(gòu)成的指標(biāo)體系對重慶市38個區(qū)縣經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)進(jìn)行分析,并基于主因子得分矩陣對重慶市38個區(qū)縣進(jìn)行聚類分析。結(jié)果表明:根據(jù)綜合得分,可以看出各區(qū)縣社會經(jīng)濟(jì)發(fā)展水平排前三的是渝中區(qū)、渝北區(qū)、九龍坡區(qū),得分最低的三個是巫山縣、巫溪縣、城口縣,結(jié)合總體的分析可以看出渝中區(qū)、九龍坡區(qū)在經(jīng)濟(jì)總體規(guī)模和建筑業(yè)方面較好,而重慶周邊的地區(qū)經(jīng)濟(jì)實(shí)力較差,投資環(huán)境不好,特別是在建筑方面的缺乏,以至于經(jīng)濟(jì)發(fā)展相對而言薄弱的地區(qū),不論從哪方面來說重慶各區(qū)縣中渝中區(qū)的經(jīng)濟(jì)實(shí)力是最好的。
評價(jià)指標(biāo)的建立
評價(jià)地區(qū)的之間的經(jīng)濟(jì)發(fā)展水平,必須建立適當(dāng)?shù)闹笜?biāo)體系。考慮到地區(qū)經(jīng)濟(jì)指標(biāo)的復(fù)雜性、多樣性和可操作性,本文在此基礎(chǔ)上建立了一套較為完整的易于定量分析的地區(qū)經(jīng)濟(jì)評價(jià)指標(biāo)體系,分別從不同的角度反映地區(qū)經(jīng)濟(jì)發(fā)展特征。
本文所建立的指標(biāo)體系共包括8個指標(biāo),分別從經(jīng)濟(jì)規(guī)模、人均發(fā)展水平、經(jīng)濟(jì)發(fā)展?jié)摿Φ确矫鎭矸从车貐^(qū)經(jīng)濟(jì)發(fā)展特征。具體指標(biāo)如下:
地區(qū)生產(chǎn)總值(萬元)(X1) ?????????????
社會消費(fèi)品零售總額(萬元)(X2)
工業(yè)總產(chǎn)值(萬元)(X3)
建筑業(yè)總產(chǎn)值(萬元)(X4)
高技術(shù)生產(chǎn)總值(萬元)(X5)
全社會固定資產(chǎn)投資(萬元)(X6)
人均可支配收入(元)(X7)
人均地區(qū)生產(chǎn)總值(元)(X8)
因子分析在地區(qū)經(jīng)濟(jì)研究中的應(yīng)用
因子分析模型及其步驟
因子分析是一種數(shù)據(jù)簡化的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。設(shè)p個變量,則因子分析的數(shù)學(xué)模型可表示為:
?

稱

為公共因子,是不可觀測的變量,他們的系數(shù)稱為因子載荷。是特殊因子,是不能被前m個公共因子包含的部分。因子分析步驟如下:
(1)將原始數(shù)據(jù)標(biāo)準(zhǔn)化,仍記為X;(2)建立相關(guān)系數(shù)矩陣R;(3)解特征方程,計(jì)算特征值和特征向量,當(dāng)累計(jì)貢獻(xiàn)率不低于85%時(shí),提取k個主成分代替原來的m個指標(biāo),計(jì)算因子載荷矩陣A;(4)對A進(jìn)行最大正交旋轉(zhuǎn)交換;(5)對主因子進(jìn)行命名和解釋。如需進(jìn)行排序,則計(jì)算各個主因子的得分,以貢獻(xiàn)率為權(quán)重,對加權(quán)計(jì)算綜合因子得分。
樣本選取及數(shù)據(jù)來源
本文選取了重慶市38個區(qū)縣作為樣本進(jìn)行分析,目的在于探索如何基于R統(tǒng)計(jì)軟件的因子分析和聚類分析方法研究地區(qū)經(jīng)濟(jì)發(fā)展。具體數(shù)據(jù)如下:


數(shù)據(jù)分析過程
將原始數(shù)據(jù)錄入R軟件中,選取地區(qū)生產(chǎn)總值(萬元)(X1)、社會消費(fèi)品零售總額(萬元)(X2)、工業(yè)總產(chǎn)值(萬元)(X3)、建筑業(yè)總產(chǎn)值(萬元)(X4)、高技術(shù)生產(chǎn)總值(萬元)(X5)、全社會固定資產(chǎn)投資(萬元)(X6)、人均可支配收入(元)(X7)、人均地區(qū)生產(chǎn)總值(元)(X8)。
在進(jìn)行因子分析之前,我們通過觀察相關(guān)系數(shù)矩陣,并用KMO and Bartlett’s Test檢驗(yàn)一下數(shù)據(jù)是否適合作因子分析。再做描述性分析Analysis-factor-description得到初始公因子方差、因子、特征值以及由每個因子解釋的百分比和累計(jì)百分比。分析結(jié)果如下:
coebaltt(COR,)#Bartlett球形檢
?

Bartlett 的球形度檢驗(yàn)的p值(顯著性概率值sig)<0.05,表明通過檢驗(yàn),分布可以近似為正態(tài)分布,由此則可以進(jìn)行因子分析。
sreeot(PCA,type="lines")

?


從表可以得出,提取3個因子的累計(jì)方差貢獻(xiàn)率已經(jīng)達(dá)到89.854%>86%,信息損失僅為10.146%,從第4個因子開始方差貢獻(xiàn)率都低于5%,因此選取3個公因子進(jìn)行因子分析效果較為理想;從圖的碎石圖可以看出從第4個因子開始,特征值差異變化很小,綜上所述:在特征值大于0.5的條件下,所提取的三個因子能通過檢驗(yàn)并能很好的描述8個指標(biāo),所以提取前3個特征值建立因子載荷矩陣。?

表中為初始因子載荷矩陣表, F1、F2、F3分別作為第一、第二、第三公共因子。建立了因子分析數(shù)學(xué)目的不僅僅要找出公共因子以及對變量進(jìn)行分組,更重要的要知道每個公共因子的意義,以便進(jìn)行進(jìn)一步的分析,如果每個公共因子的含義不清,則不便于進(jìn)行實(shí)際背景的解釋。由于因子載荷陣是不唯一的,所以應(yīng)該對因子載荷陣進(jìn)行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉(zhuǎn)法。四次方最大法、方差最大法和等量最大法。
因此需求進(jìn)行因子旋轉(zhuǎn),使得因子對變量的貢獻(xiàn)達(dá)到極化的效果。為此采用方差最大化的正交旋轉(zhuǎn)方式,使各變量在某個因子上產(chǎn)生較高載荷,而其余因子上載荷較小,從而得到旋轉(zhuǎn)后的因子載荷矩陣,如下表所示:

????由表和旋轉(zhuǎn)后的因子圖可以看出,通過旋轉(zhuǎn)后的公共因子的解釋原始數(shù)據(jù)的能力提高了,表現(xiàn)為公共因子F1在X1(地區(qū)生產(chǎn)總值),X6(全社會固定資產(chǎn)投資)和X8(人均地區(qū)生產(chǎn)總值)上的載荷值都很大。因此我們可以把第一公共因子確立為綜合經(jīng)濟(jì)實(shí)力因子,宏觀上反映了地區(qū)經(jīng)濟(jì)發(fā)展規(guī)模的總體情況,在這個因子上的得分越高,說明城市經(jīng)濟(jì)發(fā)展的總體情況越好。
利用各公共因子方差貢獻(xiàn)率計(jì)算綜合得分,并計(jì)算綜合得分=因子1的方差貢獻(xiàn)率*因子1的得分+因子2的方差貢獻(xiàn)率*因子2的得分+因子3的方差貢獻(xiàn)率*因子3的得分。將數(shù)據(jù)按綜合得分降序排列,得到部分因子得分和綜合得分情況如下圖所示:



結(jié)果討論
基于上述因子得分,可以得出2012年重慶38個區(qū)縣的經(jīng)濟(jì)發(fā)展?fàn)顩r如下:
1、根據(jù)經(jīng)濟(jì)實(shí)力因子F1得分大于1的依次有渝中區(qū)、渝北區(qū)、九龍坡區(qū)、江北區(qū)和萬州區(qū),分?jǐn)?shù)分別為4.4211、1.8967、1.7808、1.201、1.2804。說明在經(jīng)濟(jì)總體規(guī)模和建筑業(yè)方面,渝中區(qū)、渝北區(qū)、九龍坡、江北區(qū)和萬州區(qū)在重慶市的38個區(qū)縣中是最好的,規(guī)模較大,經(jīng)濟(jì)實(shí)力最強(qiáng),發(fā)展前景很好,經(jīng)濟(jì)發(fā)展實(shí)力雄厚的地區(qū)。
2、根據(jù)經(jīng)濟(jì)發(fā)展?jié)摿σ蜃覨2得分大于1的有沙坪壩區(qū)和渝北區(qū),分?jǐn)?shù)分別為3.7052、3.4396。說明在高技術(shù)科技和工業(yè)方面比較發(fā)達(dá),固定資產(chǎn)投資最大,這兩個地區(qū)都在主城,對外開放程度高,科技創(chuàng)新方面比較好,有自己的工業(yè)發(fā)展,已基本形成了自己的產(chǎn)業(yè)結(jié)構(gòu),充分發(fā)揮了自己的地理優(yōu)勢和資源環(huán)境優(yōu)勢,發(fā)展?jié)摿^大。
基于主因子得分的聚類分析
系統(tǒng)聚類分析?
聚類分析又稱群分析,就是將數(shù)據(jù)分組成為多個類。在同一個類內(nèi)對象之間具有較高的相似度,不同類之間的對象差別較大。在社會經(jīng)濟(jì)領(lǐng)域中存在著大量分類問題,比如若對某些大城市的物價(jià)指數(shù)進(jìn)行考察,而物價(jià)指數(shù)很多,有農(nóng)用生產(chǎn)物價(jià)指數(shù)、服務(wù)項(xiàng)目價(jià)指數(shù)、食品消費(fèi)物價(jià)指數(shù)、建材零售價(jià)格指數(shù)等等。由于要考察的物價(jià)指數(shù)很多,通常先對這些物價(jià)指數(shù)進(jìn)行分類。總之,需要分類的問題很多,因此聚類分析這個有用的工具越來越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。?
聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等;最常用最成功的聚類分析為系統(tǒng)聚類法,系統(tǒng)聚類法的基本思想為先將n個樣品各自看成一類,然后規(guī)定樣品之間的“距離”和類與類之間的距離。選擇距離最近的兩類合并成一個新類,計(jì)算新類和其他類(各當(dāng)前類)的距離,再將距離最近的兩類合并。這樣,每次合并減少一類,直至所有的樣品都?xì)w成一類為止。?
系統(tǒng)聚類法的基本步驟:?
1、計(jì)算n個樣品兩兩間的距離。?
2、構(gòu)造n個類,每個類只包含一個樣品。?
3、合并距離最近的兩類為一新類。?
4、計(jì)算新類與各當(dāng)前類的距離。?
5、重復(fù)步驟3、4,合并距離最近的兩類為新類,直到所有的類并為一類為止。?
6、畫聚類譜系圖。?
7、決定類的個數(shù)和類。?
系統(tǒng)聚類方法:1、最短距離法;2、最長距離法;3、中間距離法;4、重心法;5、類平均法;6、離差平方和法(Ward法)。?
基于主因子得分對重慶市38個區(qū)縣經(jīng)濟(jì)發(fā)展分析,采用聚類方法選擇組間鏈接法,計(jì)算距離選擇平方歐式距離,標(biāo)準(zhǔn)化數(shù)據(jù)才用標(biāo)準(zhǔn)正太數(shù)據(jù)化處理。得到如下結(jié)果:
rct.st(hc,k = 6, border = "red")

由樹狀圖可知,可以將重慶各區(qū)縣按經(jīng)濟(jì)中和實(shí)力實(shí)際情況分為六類:
第一類只包括渝中區(qū),渝中區(qū)是重慶市的中心城市,是重慶市的政治經(jīng)濟(jì)文化中心、基礎(chǔ)教育高地、具有特殊的區(qū)位優(yōu)勢和突出的戰(zhàn)略地位。產(chǎn)業(yè)結(jié)構(gòu)的現(xiàn)狀特征是第三產(chǎn)業(yè)占絕對優(yōu)勢,其中金融業(yè)、商貿(mào)業(yè)以及中介服務(wù)業(yè)為主導(dǎo)行業(yè),屬于經(jīng)濟(jì)發(fā)展實(shí)力雄厚的地區(qū)。
第二類只包括渝北區(qū),渝北區(qū)先后啟動了總體規(guī)劃近65平方公里的重慶科技產(chǎn)業(yè)園、重慶現(xiàn)代農(nóng)業(yè)園區(qū)、渝東開發(fā)區(qū)等項(xiàng)目,被市政府命名為"重慶農(nóng)業(yè)科技園區(qū)",所以該地區(qū)在高技術(shù)生產(chǎn)總值貢獻(xiàn)很大,而且投資環(huán)境優(yōu)越,且大部分地區(qū)有個自己中心商業(yè)地帶,對外開放程度高,區(qū)位優(yōu)勢很明顯,產(chǎn)業(yè)結(jié)構(gòu)合理,屬于經(jīng)濟(jì)發(fā)展較強(qiáng)的地區(qū)。

最受歡迎的見解
1.matlab偏最小二乘回歸(PLSR)和主成分回歸(PCR)
2.R語言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析
3.主成分分析(PCA)基本原理及分析實(shí)例
4.R語言實(shí)現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸
5.使用LASSO回歸預(yù)測股票收益數(shù)據(jù)分析
6.r語言中對lasso回歸,ridge嶺回歸和elastic-net模型
7.r語言中的偏最小二乘回歸pls-da數(shù)據(jù)分析
8.R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
9.R語言主成分分析(PCA)葡萄酒可視化:主成分得分散點(diǎn)圖和載荷圖