R語言改進(jìn)Apriori關(guān)聯(lián)規(guī)則挖掘研究西安PM2.5含量與天氣因素關(guān)系數(shù)據(jù)可視化
全文鏈接:http://tecdat.cn/?p=32284
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
隨著社會(huì)的發(fā)展,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。而大數(shù)據(jù)的意義并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。對(duì)于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是成為贏得競(jìng)爭(zhēng)的關(guān)鍵。
關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。或者說,關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項(xiàng))之間的聯(lián)系。關(guān)聯(lián)分析是一個(gè)很有用的數(shù)據(jù)挖掘模型,能夠幫助企業(yè)、政府做很多有用的決策,而“基于大數(shù)據(jù)的天氣狀況研究”目的是通過使用數(shù)據(jù)挖掘方法對(duì)某區(qū)域某段時(shí)間的天氣情況和細(xì)顆粒物污染狀況進(jìn)行了分析,研究了細(xì)顆粒物污染程度與天氣狀況的關(guān)系,可視化呈現(xiàn)了地區(qū)天氣溫度等的變化趨勢(shì),最后得出對(duì)民眾生活具有參考價(jià)值的結(jié)論。
大數(shù)據(jù)時(shí)代,氣象服務(wù)在不斷地拓寬領(lǐng)域,2012 年 12 月,綠色和平與北京大學(xué)公共衛(wèi)生學(xué)院共同發(fā)布的 《 PM2.5 的健康危害和經(jīng)濟(jì)損失評(píng)估研究》指出:PM2.5污染對(duì)公眾健康有致命危害。中國(guó)對(duì) PM2.5 的濃度監(jiān)測(cè)剛剛起步,對(duì)于 PM2.5 的來源、如何治理 PM2.5 的討論也剛剛開始,PM2.5 作為在大氣中存在著的污染物,它的含量與天氣因素有關(guān)系,因此通過分析天氣因素與 PM2.5 值的相關(guān)性,可以更好的了解以及控制 PM2.5 污染狀況。
在這些美好藍(lán)圖的背后,數(shù)據(jù)分析、數(shù)據(jù)挖掘技術(shù)得到了充分的關(guān)注和研究。但在如今的大數(shù)據(jù)背景下,海量數(shù)據(jù)只有在被合理采集、解讀與表達(dá)之后才能完美展現(xiàn)它們的瑰麗與深?yuàn)W,而可視化則無疑是讓數(shù)據(jù)變的親切和便于理解的最有效的途徑。只有在理解了數(shù)據(jù)可視化概念的本質(zhì)之后,才能通過對(duì)其原理和方法進(jìn)行研究和合理運(yùn)用,獲取數(shù)據(jù)背后隱含的價(jià)值。
在天氣狀況情況研究?的應(yīng)用和研究現(xiàn)狀
隨著全球工業(yè)化進(jìn)程的不斷加速,工業(yè)污染日趨嚴(yán)重,各地氣象災(zāi)害頻發(fā),因此迫切需要對(duì)各類氣象數(shù)據(jù)進(jìn)行采集、處理和分析,對(duì)氣象災(zāi)害進(jìn)行預(yù)測(cè)和預(yù)警,減少經(jīng)濟(jì)損失。大數(shù)據(jù)技術(shù)的發(fā)展,使得處理海量、分布式的氣象數(shù)據(jù)成為可能。國(guó)內(nèi)碩士博士都進(jìn)行著相關(guān)理論研究。
任務(wù)概述
目標(biāo)
PM2.5 作為在大氣中存在著的污染物,它的含量與天氣因素有關(guān)系,因此通過分析天氣與PM2.5值的相關(guān)性,可以更好的了解 PM2.5污染狀況。
在研究 PM2.5 含量與天氣因素關(guān)系時(shí)采用了西安PM值與天氣狀況作為樣本,通過使用數(shù)據(jù)挖掘軟件R對(duì)上述獲得的數(shù)據(jù)進(jìn)行預(yù)處理、可視化分析,從而得到關(guān)于天氣狀況和PM2.5值的關(guān)系分析。
用戶特點(diǎn)
該平臺(tái)應(yīng)用西安地區(qū)天氣狀況數(shù)據(jù),尤其是PM值與天氣因素的相關(guān)性,因此其主要用戶為普通市民群眾。PM2.5是指大氣中直徑小于或等于2.5微米的顆粒物,PM2.5被吸入人體后易引發(fā)包括哮喘、支氣管炎和心血管病等方面的疾病。因此利用大數(shù)據(jù)來研究天氣因素與PM2.5值的相關(guān)性以及溫度走向,可以更好的服務(wù)普通群眾,給群眾的生活和出行帶來方便。
?
假定和約束
為了得出PM2.5與天氣狀況(氣溫、風(fēng)力風(fēng)向等)的相關(guān)性分析結(jié)果。首先要獲得西安地區(qū)六個(gè)月的PM2.5數(shù)值與天氣狀況(氣溫、風(fēng)力風(fēng)向等)的數(shù)據(jù).在得到數(shù)據(jù)之后,將數(shù)據(jù)導(dǎo)入到 R軟件中,完成數(shù)據(jù)的預(yù)處理和可視化后,采用?Apriori 算法對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析。為了將問題進(jìn)一步簡(jiǎn)化,現(xiàn)作如下假設(shè):
1、所查的數(shù)據(jù)均真實(shí)有效;
2、檢測(cè)到的數(shù)據(jù)均為天氣預(yù)報(bào)數(shù)據(jù),忽略當(dāng)天天氣的變化;
關(guān)聯(lián)分析
在研究PM2.5含量與天氣因素關(guān)系時(shí)采用了西安的PM值與天氣因素作為樣本。通過使用數(shù)據(jù)挖掘軟件 R?對(duì)上述獲得的數(shù)據(jù)進(jìn)行處理從而得到關(guān)于天氣狀況和 PM2.5 值的關(guān)系分析。在本次研究中,釆用了氣溫、天氣情況( 晴天,多云,陰天,霧天,小雪,雪天,霧霾,小雨,雨天)和風(fēng)向 ( 東風(fēng),西風(fēng),南風(fēng),北風(fēng),微風(fēng))作為選取的天氣因素,將其與 PM2.5(以空氣污染指數(shù)替代,分為優(yōu)秀,良好,輕微污染,輕度污染,中度污染,重度污染)一起作為數(shù)據(jù)挖掘?qū)ο蟆?/p>
原始數(shù)據(jù)

讀取數(shù)據(jù)
x=**read.xlsx**("西安近6個(gè)月天氣情況數(shù)據(jù)源.xlsx"?)
查看數(shù)據(jù)
**head**(x)

查看數(shù)據(jù)概述
**summary**(x)

改進(jìn)算法CRApriori
CRApriori=function(support,confidence){ ?
for(i in 1:2){ ?
(minlen=i,support=saxlen=i)) ?
**inspect**(frequentsets) *#查看i項(xiàng)頻繁項(xiàng)集* ?*#這里如果支持度選的比較大,也許沒有10這么多,這里就不能寫[1:10].* ?**inspect**(**sort**(frequentsets,by="support")[1:10]) *#排序后查看* ?*#多選幾次支持度閾值,更好的發(fā)現(xiàn)頻繁模式。* ?fqout=**capture.output**(**inspect**(frequentsets)) *#獲得i項(xiàng)頻繁項(xiàng)集* ?for(ii in 1:**length**(data)){ ?
??data[[ii]]=**intersect**(data[[ii]],fq3) *#運(yùn)用改進(jìn)算法CRApriori刪除事務(wù)集中不包括候選項(xiàng)集Ci即頻繁i-1項(xiàng)集L(i-1),* ?}parameter =?**list**(sup, ?
??????????????????????????????????target =?"rules") )
查看模型結(jié)果關(guān)聯(lián)規(guī)則概述
**summary**(rles)


按支持度查看前6條規(guī)則
**inspect**(**sort**(rusupport")[1:6])

按置信度查看前6條規(guī)則
**inspect**(**sort**(rules,bence")[1:6])

? ?FrequencyPlot**ex.names =0.8) ? *#數(shù)據(jù)畫頻繁項(xiàng)的圖

#繪制不同規(guī)則圖形來表示支持度,置信度和提升度* ?**plot**(rules,

通過該圖可以看到 規(guī)則前項(xiàng)和規(guī)則后項(xiàng)分別有哪些天氣情況 以及每個(gè)天氣情況 的支持度大小,支持度越大則圓圈越大。

從該圖可以看到支持度和置信度的關(guān)系,置信度越高提升度也越高。

從該圖可以看到支持度和置信度的關(guān)系,提升度越高置信度也越高。
**plot**(rules, method=




參考資料
?危蓉.基于大數(shù)據(jù)的天氣狀況研究[A].湖北警官學(xué)院信息技術(shù)系,2015.
?李觀松.城市環(huán)境空氣質(zhì)量數(shù)據(jù)挖掘與可視化的研究[D].山東大學(xué)計(jì)算機(jī)軟件與理論,2007.
?曾悠.大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)可視化概念研究[D].浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2014.

最受歡迎的見解
1.Python中的Apriori關(guān)聯(lián)算法-市場(chǎng)購物籃分析
2.R語言繪制生存曲線估計(jì)|生存分析|如何R作生存曲線圖
3.用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘探索藥物配伍中的規(guī)律
4.通過Python中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘
5.用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘探索藥物配伍中的規(guī)律
6.采用SPSS Modeler的Web復(fù)雜網(wǎng)絡(luò)對(duì)所有腧穴進(jìn)行分析
7.R語言如何在生存分析與COX回歸中計(jì)算IDI,NRI指標(biāo)
8.R語言如何找到患者數(shù)據(jù)中具有差異的指標(biāo)?(PLS—DA分析)
9.R語言中的生存分析Survival analysis晚期肺癌患者4例