最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言數(shù)據(jù)可視化分析案例:探索BRFSS數(shù)據(jù)

2021-02-26 23:58 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=9284

?

加載包?

  1. library(ggplot2)

  2. ## Warning: package 'ggplot2' was built under R version 3.5.1

  3. library(dplyr)

  4. ## Warning: package 'dplyr' was built under R version 3.5.1

  5. library(colorspace)

  6. library(tidyr)

  7. library(knitr)

  8. opts_chunk$set(echo = TRUE, fig.align = "center")

?

載入資料

load("brfss2013.RData")

第1部分:數(shù)據(jù)

描述如何收集樣本中的觀測值,以及此數(shù)據(jù)收集方法對推斷范圍(可概括性/因果關(guān)系)的影響。http://www.cdc.gov/brfss/,以及下面的“有關(guān)數(shù)據(jù)的更多信息”部分。

“ BRFSS是一項(xiàng)橫斷面電話調(diào)查,州衛(wèi)生部門每月通過座機(jī)和蜂窩電話進(jìn)行電話調(diào)查,并獲得標(biāo)準(zhǔn)化問卷和CDC的技術(shù)和方法支持。在進(jìn)行BRFSS座機(jī)電話調(diào)查時(shí),訪問員從一個家庭中隨機(jī)選擇的成年人那里收集數(shù)據(jù)。在進(jìn)行BRFSS問卷的蜂窩電話版本時(shí),訪問員從成年人中收集數(shù)據(jù),該成年人通過使用蜂窩電話參與并居住在私人住宅或大學(xué)住宅中。”

推論范圍(普遍性/因果關(guān)系):

普遍性:調(diào)查數(shù)據(jù)是從50個州和美國領(lǐng)土收集的,這使得數(shù)據(jù)看起來足夠隨機(jī)樣本,從而可以將其推廣到整個美國人口。

因果關(guān)系:由于所有參與者均未接受指定的治療和對照組的治療-無法假設(shè)因果關(guān)系-只能測量相關(guān)性。

方法論,偏見和需要改進(jìn)的方面的問題:通過電話調(diào)查,有可能低估了幾種類型的個人:

1.沒有座機(jī)或手機(jī)的個人

2.拒絕回答或參加電話調(diào)查的個人。

3.在進(jìn)行調(diào)查時(shí)無法通過電話聯(lián)系/無法聯(lián)系到調(diào)查的個人。

采訪問題的答案尚未通過驗(yàn)證,這意味著受訪者可以通過以下方式修改其回答:

1.過度報(bào)告理想的行為和/或特征。

2.漏報(bào)不良行為。

3.夸大或歪曲某些特征,例如身高,學(xué)歷或收入。

4.錯誤地提供關(guān)鍵信息(由于要求受訪者記住30天內(nèi)或更長時(shí)間的詳細(xì)信息,因此他們的記憶可能不正確)。

5.參與的國家機(jī)構(gòu)之間的面試做法和問題集可能不一致。有關(guān)更多詳細(xì)信息,請?jiān)L問CDC網(wǎng)站。

供以后參考,如果數(shù)據(jù)集包含有關(guān)每個訪談的詳細(xì)信息,例如收集數(shù)據(jù)的時(shí)間和訪談的持續(xù)時(shí)間,將很有用。這些其他信息將提供有關(guān)可能參加或可能未參加調(diào)查的人員的進(jìn)一步見解。

?

第2部分:研究問題

研究問題1:體重指數(shù)(BMI)是否與受訪者自己的健康看法相關(guān)/相關(guān)?

這個問題探討了BMI“正?!钡娜耸欠駥ψ约旱慕】禒顩r有更好的認(rèn)識。雖然BMI并不是完美的健康指標(biāo),但仍被公認(rèn)為健康和健康的初始指標(biāo)。

使用的總變量:2

genhlth-一般健康

X_bmi5cat-將BMI分為4類(體重過輕,正常,超重,肥胖)的計(jì)算變量

————-

研究問題2:一個人的夜間睡眠時(shí)間與他們的能量水平之間是否存在相關(guān)性?性別之間有區(qū)別嗎?

這是一個有趣的問題,因?yàn)榻?jīng)常吹噓睡眠是維持良好總體健康的重要組成部分。研究表明,那些睡眠時(shí)間少于5小時(shí)的人甚至更容易患慢性或嚴(yán)重疾病。

使用的總變量:3

sleptim1-報(bào)告的睡眠時(shí)間

qlhlth2-在過去30天中,有幾天被報(bào)告為“全力以赴”

性別-報(bào)告的生物性別

————-

研究問題3:總體生活滿意度與受教育程度之間是否存在相關(guān)性?性別之間有什么區(qū)別嗎?

這個問題將試圖看看總體生活滿意度和個人受教育程度之間是否存在任何關(guān)聯(lián)。一些研究表明,與受教育程度較低的人相比,受教育程度較高的人較少出現(xiàn)婚姻問題,并且可能享有更好的健康狀況。它將進(jìn)一步探討男性和女性之間是否存在任何差異。

使用的總變量:3

滿意-整體生活滿意度

教育-教育水平

性別-個人的生物性別

?

?

第3部分:探索性數(shù)據(jù)分析

研究問題1:體重指數(shù)(BMI)是否與受訪者自身健康的看法相關(guān)/相關(guān)?

  1. load("brfss2013.RData")

  2. dim(brfss2013)

## [1] 491775 ? ?330
  1. q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit()

  2. dim(q1)

## [1] 463275 ? ? ?2

擁有460,000多個觀察值,通過表格進(jìn)行觀察更容易,如下所示:

prop.table(table(q1$genhlth,q1$X_bmi5cat),2)

  1. ##

  2. ## ? ? ? ? ? ? Underweight Normal weight Overweight ? ? ?Obese

  3. ## ? Excellent ?0.19987805 ? ?0.26019496 0.17373887 0.07933813

  4. ## ? Very good ?0.26402439 ? ?0.35069868 0.35401238 0.26824837

  5. ## ? Good ? ? ? 0.26146341 ? ?0.24667514 0.30698451 0.37088006

  6. ## ? Fair ? ? ? 0.15829268 ? ?0.09751640 0.11943759 0.19913468

  7. ## ? Poor ? ? ? 0.11634146 ? ?0.04491484 0.04582665 0.08239876

?表中 有大量的數(shù)據(jù)。?

  1. g1 <- ggplot(q1) + aes(x=X_bmi5cat,fill=genhlth) + geom_bar(position = "fill")

  2. g1

每列代表4種BMI類別(體重過輕,正常,超重,肥胖)和描述自己健康狀況的受訪者比例。

可以得出結(jié)論,在一定程度上,對這一問題的回答是“是”。個體的BMI與他或她自己對健康的看法之間似乎存在關(guān)聯(lián)。

?研究問題2:一個人的夜間睡眠時(shí)間與他們的能量水平之間是否存在相關(guān)性?性別之間有區(qū)別嗎?

  1. ## ? ? qlhlth2 ? ? ? ? ?sex ? ? ? ? sleptim1

  2. ## ?Min. ? : 0.00 ? Male ?:162 ? Min. ? : 2.000

  3. ## ?1st Qu.: 2.00 ? Female:287 ? 1st Qu.: 6.000

  4. ## ?Median :15.00 ? ? ? ? ? ? ? ?Median : 7.000

  5. ## ?Mean ? :15.56 ? ? ? ? ? ? ? ?Mean ? : 7.013

  6. ## ?3rd Qu.:28.00 ? ? ? ? ? ? ? ?3rd Qu.: 8.000

  7. ## ?Max. ? :30.00 ? ? ? ? ? ? ? ?Max. ? :12.000

## Warning: Removed 12 rows containing non-finite values (stat_smooth).## Warning: Removed 12 rows containing missing values (geom_point).

睡眠時(shí)間和充滿能量的天數(shù)之間似乎總體上呈正相關(guān)。女性的相關(guān)性似乎比男性略強(qiáng),因?yàn)槟行缘臄?shù)據(jù)分布更廣泛。

++++++++++++++++++++++++

研究問題3:總體生活滿意度與受教育程度之間是否存在相關(guān)性?性別之間有什么區(qū)別嗎?

  1. ## # A tibble: 4 x 2

  2. ## ? lsatisfy ? ? ? ? ?count

  3. ## ? <fct> ? ? ? ? ? ? <int>

  4. ## 1 Very satisfied ? ? 5378

  5. ## 2 Satisfied ? ? ? ? ?5506

  6. ## 3 Dissatisfied ? ? ? ?598

  7. ## 4 Very dissatisfied ? 161

q3 %>% group_by(educa) %>% ? summarise(count=n())
  1. ## # A tibble: 6 x 2

  2. ## ? educa ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?count

  3. ## ? <fct> ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?<int>

  4. ## 1 Never attended school or only kindergarten ? ? ? ? ? ? ? ? ? ? ?10

  5. ## 2 Grades 1 through 8 (Elementary) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?496

  6. ## 3 Grades 9 though 11 (Some high school) ? ? ? ? ? ? ? ? ? ? ? ? 1078

  7. ## 4 Grade 12 or GED (High school graduate) ? ? ? ? ? ? ? ? ? ? ? ?3708

  8. ## 5 College 1 year to 3 years (Some college or technical school) ?3055

  9. ## 6 College 4 years or more (College graduate) ? ? ? ? ? ? ? ? ? ?3296

q3 %>% group_by(sex) %>% ? summarise(count=n())
  1. ## # A tibble: 2 x 2

  2. ## ? sex ? ?count

  3. ## ? <fct> ?<int>

  4. ## 1 Male ? ?4078

  5. ## 2 Female ?7565

男性和女性的教育水平和總體生活滿意度之間似乎總體上呈正相關(guān)。至少完成了高中(或同等學(xué)歷)的人的滿意度似乎更高。數(shù)據(jù)中還存在某些異常值,其中一些響應(yīng)者在沒有受過教育的情況下會“滿意”或“非常滿意”。由于大多數(shù)美國人口至少已從高中畢業(yè),因此該數(shù)據(jù)似乎準(zhǔn)確地代表了受訪者的分布。

?

?

最受歡迎的見解

1.R語言動態(tài)圖可視化:如何、創(chuàng)建具有精美動畫的圖

2.R語言生存分析可視化分析

3.Python數(shù)據(jù)可視化-seaborn Iris鳶尾花數(shù)據(jù)

4.r語言對布豐投針(蒲豐投針)實(shí)驗(yàn)進(jìn)行模擬和動態(tài)

5.R語言生存分析數(shù)據(jù)分析可視化案例

6.r語言數(shù)據(jù)可視化分析案例:探索brfss數(shù)據(jù)數(shù)據(jù)分析

7.R語言動態(tài)可視化:制作歷史全球平均溫度的累積動態(tài)折線圖動畫gif視頻圖

8.R語言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析案例報(bào)告

9.python主題LDA建模和t-SNE可視化


R語言數(shù)據(jù)可視化分析案例:探索BRFSS數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
连江县| 安龙县| 武强县| 资阳市| 肥东县| 巴东县| 洛宁县| 水富县| 礼泉县| 盐津县| 商洛市| 长泰县| 监利县| 香港 | 安阳县| 南城县| 洪雅县| 井研县| 临湘市| 长武县| 茌平县| 乌恰县| 宁波市| 都安| 南澳县| 繁昌县| 红桥区| 揭东县| 荃湾区| 普定县| 闽侯县| 新宾| 姜堰市| 新疆| 兰坪| 昌乐县| 托里县| 隆昌县| 乡城县| 林甸县| 马边|