拓端tecdat|R語言空氣污染數(shù)據(jù)的地理空間可視化和分析:顆粒物2.5(PM2.5)和空氣質(zhì)量
原文鏈接:http://tecdat.cn/?p=23800
原文出處:拓端數(shù)據(jù)部落公眾號
介紹
由于空氣污染對公眾健康的不利影響,人們一直非常關(guān)注。世界各國的環(huán)境部門都通過各種方法(例如地面觀測網(wǎng)絡(luò))來監(jiān)測和評估空氣污染問題。全球的地面站及時(shí)測量了許多空氣污染物,例如臭氧、一氧化碳、顆粒物。EPA(環(huán)境保護(hù)署)提供了空氣污染數(shù)據(jù),本文選擇了顆粒物2.5(PM2.5)和空氣質(zhì)量指數(shù)(AQI)這兩個(gè)關(guān)鍵變量,以可視化和分析空氣污染的趨勢和模式。PM2.5代表直徑小于2.5微米的顆粒物濃度,AQI是綜合考慮所有主要污染物的空氣污染狀況的整體指標(biāo)。具體來說,此工作的數(shù)據(jù)源列出如下:
監(jiān)測人員每天的PM 2.5濃度水平和AQI指數(shù)數(shù)據(jù);
縣一級的AQI年度摘要。
數(shù)據(jù)預(yù)處理
每日站點(diǎn)數(shù)據(jù)包含每個(gè)地面站與PM2.5相關(guān)的各種屬性。有關(guān)站信息,污染物的關(guān)鍵變量通過以下代碼從原始數(shù)據(jù)中過濾掉。重命名過濾后的數(shù)據(jù)框的列名,以方便以下分析。
#導(dǎo)入數(shù)據(jù)
aqi <- read_csv("aqi.csv")

daily<- read_csv("daily.csv")

names(data) <- c( "date",
"pm25", "aqi", ?"long", "lat")
統(tǒng)計(jì)摘要
對點(diǎn)級PM2.5濃度和縣級AQI指數(shù)的基本統(tǒng)計(jì)描述可以幫助更好地理解這兩個(gè)變量。在這里,直方圖和箱形圖用于可視化PM2.5濃度和AQI的分布特征。每日AQI指數(shù)可衡量空氣污染的嚴(yán)重程度,可用于根據(jù)AQI的值將天數(shù)分為不同的類別。就空氣污染水平而言,通??梢詫⑻鞖夥譃樗念?,包括良好,中度,不健康和危險(xiǎn)。
本報(bào)告中使用的縣級AQI數(shù)據(jù)包括四個(gè)類別變量,代表每個(gè)類別的天數(shù)。下面的代碼直觀地顯示了四個(gè)類別變量的分布。根據(jù)直方圖,大多數(shù)縣在整年總體空氣質(zhì)量良好,這可以通過``良好''分布的偏斜來表示,``不健康''和``危險(xiǎn)''的0天左右的分布間隔非常窄。此外,``良好''和``中等''的分布顯示出相反的偏斜,這表明空氣質(zhì)量中等的日子在全年并不典型,因?yàn)閌`中等''的分布集中在50天以下,而``良好''的分布在250天以上。
## 縣域內(nèi)aqi的直方圖
vi <-
aqi %>%
select(`好', `中等', `不健康', `危險(xiǎn)') %>%
ggplot(data = vi )

縣級數(shù)據(jù)代表空氣污染的平均水平。來自地面站的PM2.5和AQI的點(diǎn)級測量描述了空氣污染的詳細(xì)情況和當(dāng)?shù)厍闆r。站級的PM2.5和AQI的分布如下所示。兩種分布都顯示出正偏度,AQI聚集在50附近,而PM2.5低于25。在這一年中,很少出現(xiàn)兩個(gè)變量都具有高值的站點(diǎn)。
## ##AQI和PM2.5的直方圖
pmaqi ?%>%
ggplot(data) +
geom_histogram(aes(x = value), bins = 35) +

ggplot(data) +
geom_boxplot(aes(x =class, ?y = value))

時(shí)間變化
每日數(shù)據(jù)記錄了2018年監(jiān)測站點(diǎn)每天的觀測時(shí)間序列,可用于探索PM2.5和AQI的趨勢。首先,針對每種數(shù)據(jù)對每種狀態(tài)下站點(diǎn)的測量值求平均。選擇了七個(gè)州的時(shí)間序列以顯示其一年中的變化,如下所示。從該圖可以看出,南部和西部各州在年初就經(jīng)歷了嚴(yán)重的空氣污染問題。趨勢曲線的高峰表明,下半年的空氣質(zhì)量均較差。
##按州和日排列
vis <-
select(state, date, pm25, aqi) %>%
group_by(state, date) %>%
summarise(pm25 = mean(pm25), aqi = mean(aqi)) %>%
ggplot(data = vis)

為了顯示總體變化,每天匯總來自所有監(jiān)視的測量值。一年中的總體變化繪制如下。我們可以看到,AQI和PM2.5的變化趨勢顯示出相似的模式,而夏季和冬季的空氣污染更為嚴(yán)重。
##按天數(shù)計(jì)算
select(date, pm25, aqi) %>%
group_by(date) %>%
summarise( mean(pm25), mean(aqi)) %>%
ggplot(data = vis) +

空間分布
匯總了針對不同州的縣級AQI指數(shù),以探索每個(gè)州的空氣質(zhì)量的空間變化。下圖通過漸變顏色繪制了變量良好天氣的不同平均值。該地圖顯示了各州空氣質(zhì)量良好的日子。從地圖上可以看出,北部和東部地區(qū)的空氣條件比其他州更好。
##按州匯總aqi(區(qū)域水平)。
vis <-
aqi %>%
group_by(State) %>%
ggplot() +
geom_polygon(aes(x = long, y = lat, group = group, fill = good)

下面還繪制了不健康天數(shù)變量的平均值,這證實(shí)了以前的觀察結(jié)果,即東部各州的空氣條件較好。
ggplot() +
geom_polygon(aes(x = long, y = lat, group , ?fill ),
scale_fill_distiller

每個(gè)站點(diǎn)的站點(diǎn)級別測量值匯總為年平均值。下圖顯示了美國年平均PM2.5濃度的空間分布。綠色點(diǎn)表示較低的PM2.5濃度。西部的測站測得的PM2.5濃度較高。
## 數(shù)據(jù)的匯總
###用于pm2.5
pmaqi %>%
summarise(pm25 = mean(pm25), aqi = mean(aqi), long = mean(long), lat = mean(lat)) %>%
ggplot() +
geom_polygon(aes(x = long, y = lat, group = group)
?

AQI可以提供更全面的空氣狀況度量。站點(diǎn)上的點(diǎn)級AQI映射如下。由于AQI考慮了許多典型污染物,因此與PM2.5的模式相比,AQI的分布顯示出不同的模式。
###aqi指數(shù)
vi<- vi[class == "aqi", ]
ggplot(vi) +
geom_polygon(aes(x = long, y = lat, group = group)

結(jié)論
本報(bào)告利用了空氣污染數(shù)據(jù)和R的可視化,從時(shí)空維度探討了空氣污染的分布和格局。從數(shù)據(jù)中可以識別出PM2.5和AQI的時(shí)空變化。夏季和冬季均遇到空氣污染問題。西部和南部的州比北部和東部的州更容易遭受空氣污染問題。

最受歡迎的見解
1.R語言動態(tài)圖可視化:如何、創(chuàng)建具有精美動畫的圖
2.TABLEAU的騎行路線地理數(shù)據(jù)可視化
3.用數(shù)據(jù)告訴你出租車資源配置是否合理
4.R語言GGMAP空間可視化機(jī)動車交通事故地圖
5.用R語言制作交互式圖表和地圖
6.基于出租車GPS軌跡數(shù)據(jù)的研究:出租車行程的數(shù)據(jù)分析
7.R語言動態(tài)可視化:制作歷史全球平均溫度的累積動態(tài)折線圖動畫gif視頻圖
8.把握出租車的數(shù)據(jù)脈搏
9.共享單車大數(shù)據(jù)報(bào)告