R語言對BRFSS數(shù)據(jù)探索回歸數(shù)據(jù)分析
原文鏈接:http://tecdat.cn/?p=9153
?
執(zhí)行摘要
?該項目包括探索一個現(xiàn)實世界的數(shù)據(jù)集-CDC的2013年??行為風(fēng)險因素監(jiān)視系統(tǒng)??-并針對三個 選擇的研究問題創(chuàng)建報告。
選擇的研究問題及其各自的結(jié)果是:
被訪者對其健康狀況的看法是否與他們的體重指數(shù)(BMI)有關(guān)?性別之間有什么區(qū)別嗎?
是的,健康觀念和BMI之間存在明顯的關(guān)系,并且存在性別差異。
身為幼兒的父母如何影響所報告的睡眠時間?這在性別上有何不同?
作為幼兒的父母,據(jù)報道睡眠較少,包括性別差異。
對一般健康感的回答是否與調(diào)查的時間有關(guān)?各州之間如何顯示差異?
在國家一級,冬季和非冬季反應(yīng)之間沒有顯著差異,但有跡象表明各州的反應(yīng)有所不同。
?
加載包
library(ggplot2)
library(dplyr)
載入資料
數(shù)據(jù)是從文件的本地副本加載的。
load("brfss2013.RData")
dim(brfss2013)
## [1] 491775 ? ?330
從上面可以看出,該數(shù)據(jù)集包含近500,000個觀察值以及330個可能的變量。
第1部分:數(shù)據(jù)
BRFSS的背景
根據(jù)CDC?網(wǎng)站的說法??,“行為風(fēng)險因素監(jiān)視系統(tǒng)(BRFSS)是美國首屈一指的健康相關(guān)電話調(diào)查系統(tǒng),該系統(tǒng)收集有關(guān)美國居民有關(guān)健康相關(guān)風(fēng)險行為,慢性健康狀況以及預(yù)防措施使用情況的狀態(tài)數(shù)據(jù)服務(wù)。
方法
根據(jù)疾病預(yù)防控制中心的說法,“ BRFSS是一項橫斷面電話調(diào)查,州衛(wèi)生部門每月通過座機電話和蜂窩電話進行電話調(diào)查,并獲得標準化的問卷調(diào)查以及疾病預(yù)防控制中心的技術(shù)和方法支持。
此外,考慮到BRFSS的方法,還有一些關(guān)于偏差的擔憂:
通過使用電話調(diào)查,可能會漏報幾種類型的個人:
那些無法使用座機或手機的人。
那些原則上不回應(yīng)電話調(diào)查的人。
進行調(diào)查時無法進行調(diào)查的項目。
由于訪談問題的答案尚未得到驗證,因此受訪者可能會以多種方式改變他們的回答:
過度報告理想的行為和特質(zhì),同時低估不良行為。
系統(tǒng)地夸大身高或收入等特征。
由于要求您記住30天內(nèi)或更長時間的詳細信息,所以記錯了關(guān)鍵信息。
最后,參與的國家機構(gòu)之間的面試做法和問題集可能存在不一致之處。
為了將來參考,如果數(shù)據(jù)集包含有關(guān)每個采訪的詳細信息,那么該收集是關(guān)于一天中的什么時間以及花費了多長時間的信息。
第2部分:研究問題
研究問題1:
被訪者對其健康狀況的看法是否與他們的體重指數(shù)(BMI)有關(guān)?性別之間有什么區(qū)別嗎?
這是一個有趣的問題,因為它尋求人們對自己健康狀況的看法與總體健康狀況的較為客觀的衡量指標之間的聯(lián)系。它已得到廣泛認可。性別之間的差異也很有趣,因為人們可以挑出社會中不同的觀念和壓力。
使用以下變量進行了分析:
genhlth-對應(yīng)于一般健康
X_bmi5cat-將BMI分為4類的計算變量。BMI來自報告的身高和體重。
性別-報告的性別
研究問題2:
身為幼兒的父母如何影響所報告的睡眠時間?這在性別上有何不同?
這是一個有趣的問題,可以估算作為年幼子女的父母可能會對受訪者產(chǎn)生的影響。了解男性和女性之間的這種影響是否顯著不同也很有用。
使用以下變量進行了分析:
sleptim1-報告的每晚睡眠時間
rcsrltn2-受訪者與同一家庭中隨機孩子的關(guān)系
X_impcage-估算變量,將孩子年齡分為4種可能的類別。
性別-報告的性別
研究問題3:
對一般健康感的回答是否與調(diào)查的時間有關(guān)?各州之間如何顯示差異?
這個問題著眼于可能的季節(jié)性因素如何影響響應(yīng)。在這種情況下,關(guān)注的是冬季對整體健康反應(yīng)的潛在影響。作為后續(xù),它考察了美國各州的樣本,以考慮可能的地區(qū)差異。
使用以下變量進行了分析:
genhlth-對應(yīng)于一般健康
imonth-進行采訪的月份
X_state-受訪者的居住狀態(tài)
第3部分:探索性數(shù)據(jù)分析
研究問題1:
被訪者對其健康狀況的看法是否與他們的體重指數(shù)(BMI)有關(guān)?性別之間有什么區(qū)別嗎?
# Select appropriate variables from dataset and omit NAs
q1 <- select(brfss2013,genhlth,sex,X_bmi5cat) %>% na.omit()
dim(q1)
## [1] 463274 ? ? ?3
prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##
## ? ? ? ? ? ? Underweight Normal weight Overweight ? ? ?Obese
## ? Excellent ?0.19990243 ? ?0.26019496 0.17373887 0.07933813
## ? Very good ?0.26393463 ? ?0.35069868 0.35401238 0.26824837
## ? Good ? ? ? 0.26149530 ? ?0.24667514 0.30698451 0.37088006
## ? Fair ? ? ? 0.15831199 ? ?0.09751640 0.11943759 0.19913468
## ? Poor ? ? ? 0.11635565 ? ?0.04491484 0.04582665 0.08239876
初始加載數(shù)據(jù)(超過460,000次觀察)后,我們可以初步查看頻率,然后考慮它們的比例。
解釋上表的方式是,對于每一列(“體重不足”,“正常體重”,……),表示健康狀況為“優(yōu)秀”,“非常好”,……的受訪者比例是多少?列總和為1。
可以在下面看到更簡單的圖形表示:
g <- ggplot(q1) + aes(x=X_bmi5cat,fill=genhlth) + geom_bar(position = "fill")
g <- g + xlab("BMI category") + ylab("Proportion") + scale_fill_discrete(name="Reported Health")
g

有一些有趣的趨勢需要觀察:
從“體重不足”到“正常體重”的報告,“健康”狀況良好的報告比例增加,但從“正常體重”到肥胖的報告比例顯著下降。這表明可能對整體健康狀況有所了解。
在報告“健康”狀況差的人中,“顯著”下降的幅度似乎大于增長趨勢。這可能表明缺乏對什么構(gòu)成健康的意識/教育。
性別的影響如何?

在這種情況下,我們可以觀察到以下內(nèi)容:
當BMI分類為“體重不足”或“正常體重”時,女性報告的“良好”健康狀況比例高于男性。這可能表明健康與苗條之間的聯(lián)系更加緊密,反映出更廣泛的社會觀點。
當女性的BMI分類為“超重”或“肥胖”時,女性報告的“良好”健康狀況比例低于男性。這可能表明對體重過度敏感是整體健康的一個組成部分。
總而言之,健康感知與BMI之間存在明顯的關(guān)系,并且存在性別差異。
但是,在進行了分析的情況下,這些關(guān)系不能用來推斷因果關(guān)系。
研究問題2:
身為幼兒的父母如何影響所報告的睡眠時間?這在性別上有何不同?
##
## ? ? ?0 ? ? ?1 ? ? ?2 ? ? ?3 ? ? ?4 ? ? ?5 ? ? ?6 ? ? ?7 ? ? ?8 ? ? ?9
## ? ? ?1 ? ?228 ? 1076 ? 3496 ?14261 ?33436 106197 142469 141102 ?23800
## ? ? 10 ? ? 11 ? ? 12 ? ? 13 ? ? 14 ? ? 15 ? ? 16 ? ? 17 ? ? 18 ? ? 19
## ?12102 ? ?833 ? 3675 ? ?199 ? ?447 ? ?367 ? ?369 ? ? 35 ? ?164 ? ? 13
## ? ? 20 ? ? 21 ? ? 22 ? ? 23 ? ? 24 ? ?103 ? ?450
## ? ? 64 ? ? ?3 ? ? 10 ? ? ?4 ? ? 35 ? ? ?1 ? ? ?1
初始數(shù)據(jù)加載表明數(shù)據(jù)中存在編碼錯誤。清理工作涉及刪除每天超過16小時的睡眠時間。
## [1] 484056 ? ? ?2
## [1] 57857 ? ? 5
此數(shù)據(jù)加載執(zhí)行兩個數(shù)據(jù)選擇操作:
首先,它從原始數(shù)據(jù)集中選擇合適的列進入q2數(shù)據(jù)框。
然后,它創(chuàng)建兩個單獨的數(shù)據(jù)框進行分析:
q2_pop:針對更廣泛的人群,省略了錯誤編碼的值。
q2_parent:利用來自BRFSS的“隨機子選擇”問題集,并選擇那些將自己標識為“父母”的問題。此外,它還增加了一個列以識別10歲以下的兒童。
重要的是要注意,盡管總體人口約為480,000個樣本,但BRFSS的“隨機子選擇”模塊產(chǎn)生的樣本數(shù)略少于60,000。
對于一般人群,我們有以下報告的睡眠分布(紅線對應(yīng)于平均值):
## ? ? ? ?avg ? ? ? sd
## 1 7.042784 1.431061

對于父母群體,分布的特征是:
## ? ? ? ?avg ? ? ? sd
## 1 6.854521 1.315791
對于小孩的父母,分布看起來像:
## ? ? ? ?avg ? ? ?sd
## 1 6.847745 1.31827
最后,看看有小孩的父母的性別差異:
## # A tibble: 2 x 3
## ? ? ?sex ? ? ?avg ? ? ? sd
## ? <fctr> ? ?<dbl> ? ?<dbl>
## 1 ? Male 6.755862 1.230122
## 2 Female 6.909699 1.371082
從分布的特征和最初的研究問題來看,似乎總的人口與作為小孩父母的兒童之間報告的睡眠小時數(shù)之間存在性別差異。期望進一步的統(tǒng)計技術(shù)將使我們能夠量化這種差異的重要性。
研究問題3:
對一般健康感的回答是否與調(diào)查的時間有關(guān)?各州之間如何顯示差異?
## [1] 489790 ? ? ?4
##
## ? ? ? ? ? ? ? ? ?FALSE ? ? ? TRUE
## ? Excellent 0.17393076 0.17643433
## ? Very good 0.32401281 0.32724673
## ? Good ? ? ?0.30769272 0.30641019
## ? Fair ? ? ?0.13705171 0.13362268
## ? Poor ? ? ?0.05731200 0.05628606
此問題的初始數(shù)據(jù)加載產(chǎn)生了大約490,000個樣本。根據(jù)研究問題,提取的變量是報告的總體健康狀況,訪問的月份以及受訪者的居住狀態(tài)。
為了進行此分析,增加了一個額外的列,指示采訪是否在通常與冬季相關(guān)的月份進行。
查看比例表(向下查看FALSE和TRUE列),也可以在下圖中可視化:

有趣的是,當我們查看特定于州的數(shù)據(jù)時,會出現(xiàn)稍微不同的情況。選擇了美國各州的樣本進行進一步分析:
## [1] 43608 ? ? 4
## Source: local data frame [10 x 3]
## Groups: X_state [?]
##
## ? ? ? ? ?X_state winter count
## ? ? ? ? ? <fctr> ?<lgl> <int>
## 1 ? ? ? ? Alaska ?FALSE ?3432
## 2 ? ? ? ? Alaska ? TRUE ?1129
## 3 ? ? California ?FALSE 11105
## 4 ? ? California ? TRUE ? 403
## 5 ?Massachusetts ?FALSE 10631
## 6 ?Massachusetts ? TRUE ?4411
## 7 ?New Hampshire ?FALSE ?4525
## 8 ?New Hampshire ? TRUE ?1539
## 9 ? ? ? ?Wyoming ?FALSE ?5685
## 10 ? ? ? Wyoming ? TRUE ? 748

在這種情況下,該圖顯示出表明冬季健康狀況良好的受訪者比例存在明顯差異。這可能歸因于不同的因素,例如:
冬季的心情(與全國其他地方相比,氣溫較低或氣溫較高)
各州數(shù)據(jù)收集的差異-以加利福尼亞州為例,冬季的病例數(shù)量很少
其他因素。