R語言探索BRFSS數(shù)據(jù)可視化
原文鏈接:http://tecdat.cn/?p=9266
?
設定
加載包
在本實驗中,我們將使用dplyr軟件包探索數(shù)據(jù),并使用ggplot2軟件包對其進行可視化以進行數(shù)據(jù)可視化
library(ggplot2)
library(dplyr)
載入資料
load("brfss2013.RData")
dim(brfss2013)
## [1] 491775 ? ?330
我們可以看到數(shù)據(jù)集的維度。我們的數(shù)據(jù)集包含491775個觀測值(行)和330個變量(列)
第1部分:數(shù)據(jù)
關于BRFSS
行為風險因素監(jiān)視系統(tǒng)(BRFSS)是每年對美國超過40萬人進行的電話調查。該系統(tǒng)收集有關美國居民與健康相關的危險行為,長期健康狀況,以及使用預防服務。顧名思義,BRFSS旨在識別成年人口中的危險因素并報告新出現(xiàn)的健康趨勢。?
數(shù)據(jù)收集方法
通過與家庭居民進行電話采訪,從美國各州,哥倫比亞特區(qū)和參與的美國領土收集了數(shù)據(jù)。2011年進行了超過50萬次此類采訪,使用隨機抽樣收集了電話采訪和手機訪問的樣本,從一個州根據(jù)密度按分層抽樣方法獲得了電話樣本,而手機樣本則是從一個隨機抽樣中抽取的。??
為了保持各州之間的一致性,BRFSS遵循標準的數(shù)據(jù)收集協(xié)議,其中包括對符合條件的家庭進行隨機抽樣,構建調查表,進行手機采訪,維護程序以保護受訪者的機密性并確保采訪過程的質量。一個月的樣本電話采訪在同一個月內進行。?
關于數(shù)據(jù)收集對推斷范圍的影響的評論
BRFSS的調查涵蓋了50個州和美國領土,其中包括對隨機收集的家庭數(shù)據(jù)進行的超過500,000次電話采訪,這些數(shù)據(jù)僅是隨機樣本,并且在數(shù)據(jù)收集中建立了嚴格的程序以確保代表性人口樣本。?
由于這是一項觀察性研究,而不是具有隨機控制的蹤跡和目標樣品的隨機分配的實驗性研究,因此無法推斷變量之間的因果關系。
第2部分:研究問題
研究問題1:
身心健康與睡眠之間有關聯(lián)嗎??
這個問題涉及對人的健全健康影響睡眠的年齡 的問題。 這將是從該數(shù)據(jù)集中探索的有趣相關性。正在考慮的變量有:
physhlth:天數(shù)身體健康不好
menthlth:心理健康的天數(shù)不好
sleptim1:您睡多少時間
性別:受訪者性別
研究問題2:
收入水平和就業(yè)狀況是否會改善健康狀況?
?因為收入水平和就業(yè)狀況對個人的自我價值和心理狀態(tài)具有巨大影響。金融不安全會給個人造成巨大的精神傷害,因此我們希望這些人具有不利的健康狀況。
考慮的變量有:
genhlth:一般健康
受雇1:就業(yè)狀況
收入2:收入水平
研究問題3:
肥胖(高BMI)會加劇心臟病發(fā)作和高膽固醇水平的風險嗎?
這個問題試圖回答肥胖對加重心臟病發(fā)作健康風險的影響。心臟驟停是影響所有背景人群的最常見疾病之一。我們將嘗試尋找高膽固醇水平,BMI升高與心臟病風險之間的關系。
正在考慮的變量有:
_bmi5cat:計算體重指數(shù)類別
tellhi2:高膽固醇血癥
cvdinfr4:曾經(jīng)被診斷出患有心臟病
第3部分:探索性數(shù)據(jù)分析
研究問題1:
V1<-brfss2013%>%
filter(!is.na(physhlth),!is.na(sleptim1),!is.na(menthlth),!is.na(sex))%>%
select(physhlth,sleptim1,menthlth,sex)
我們創(chuàng)建了一個新的數(shù)據(jù)框V1,其中包含4個連續(xù)變量。在刪除了包含NA輸入的行之后,我們對數(shù)據(jù)進行了分類。
ggplot(data=V1,aes(x=sleptim1,y=physhlth,color=sex))+
geom_point()+scale_fill_manual(values =c("red","seagreen3"))


?
研究問題2:
清理目標變量的數(shù)據(jù)集并將結果存儲在新的V2中


研究問題3:
新的變量V3存儲由3個目標變量組成的數(shù)據(jù)幀。
count(V3,cvdinfr4)
## # A tibble: 2 x 2
## ? cvdinfr4 ? ? ?n
## ? ? <fctr> ?<int>
## 1 ? ? ?Yes ?26935
## 2 ? ? ? No 370021
ggplot(data=V3,aes(x=cvdinfr4,fill=X_bmi5cat))+
geom_bar()

?超重和肥胖的人似乎最容易受到心臟病的影響。

高膽固醇血癥最嚴重的原因是超重或肥胖。