最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

R語言在BRFSS數(shù)據(jù)中可視化分析探索糖尿病的影響因素

2021-02-26 23:58 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=9227

?

數(shù)據(jù)集:行為危險(xiǎn)因素監(jiān)視系統(tǒng)數(shù)據(jù)

摘要:該數(shù)據(jù)集是來自全美約40萬份與健康相關(guān)主題的問卷調(diào)查。BRFSS始于1980年代,并已通過問卷調(diào)查在美國用于監(jiān)測普遍的疾病。該研究是追溯性的,而不是設(shè)計(jì)性的實(shí)驗(yàn),因此盡管可以推斷出相關(guān)性,但不能因果關(guān)系。

數(shù)據(jù)集中的特征既是連續(xù)的又是分類的。

目標(biāo):探索性別,體重和年齡之間的相關(guān)性
?

第0部分:設(shè)置

  1. library(ggplot2)

  2. library(dplyr)

  3. library(Rgraphviz)

  4. library(knitr)

  5. library(grid)

  6. library(gridExtra)

load("brfss2013.RData")
  1. # group and count a feature with discrete values

  2. feature_vcounts <- function(df, f) {

  3. df %>%

  4. group_by_at(f) %>%

  5. count()}


  6. # method for binning values

  7. bin_min_sample <- function(p) {

  8. n = 10

  9. a = 10/p

  10. b = 10/(1-p)

  11. max(c(a,b))}


  12. # create a new df for simulating binom probability distribution

  13. binom_prob_df <- function(df, f, target) {

  14. new_df <- feature_vcounts(df,f)

  15. new_df$n[new_df[f] == target]/sum(new_df$n)}


  16. # filtering df with subgroup value

  17. subgroup_df <- function(df,f, group) {

  18. filter(df,df[f]==group)}


  19. # calc the vector probability

  20. binom_prob_vec <- function(v, target) {

  21. sum(v == target)/length(v)}


  22. # sample from df

  23. binom_sample <- function(s,v)

  24. sample(v, size=s, replace=TRUE)


  25. # create the binomial sample distribution

  26. binom_sample_dist <- function(df,f,target) {

  27. sample_dist <- c()

  28. for (i in 1:10001) {

  29. prob <- binom_prob_vec(binom_sample(100,df[,f]),target)

  30. sample_dist <- append(sample_dist,prob)}

  31. return(sample_dist)}


  32. # convert decimal to percent

  33. to_percent <- function(pvalue) {

  34. paste(round(pvalue*100,digits= 2),"%",sep="")}

第1部分:數(shù)據(jù)

導(dǎo)入和過濾數(shù)據(jù)以僅包括與糖尿病,性別,體重和年齡有關(guān)的重要特征。

  1. # Import original file:

  2. orig_dim <- dim(brfss2013)


  3. # Select only relevant features:

  4. weight_diabetes <- brfss2013 %>%

  5. select(sex, X_ageg5yr, weight2,diabete3)


  6. # ------------------Cleaning data------------------

  7. # 1.Weight strings -> numeric

  8. weight_diabetes$weight2 <- as.numeric(as.character(weight_diabetes$weight2))

  9. new_dim <- dim(weight_diabetes)


  10. # 2. Remove Null Weights and Weights over 400

  11. weight_diabetes <- na.omit(weight_diabetes)

  12. weight_diabetes <- filter(weight_diabetes, weight2 <= 400)


  13. # 3. Remove Diabetes Responses

  14. target <- c("Yes", "No")

  15. weight_diabetes <- filter(weight_diabetes, diabete3 %in% target)


  16. # 4. Add index and reorder

  17. weight_diabetes$index <- seq.int(nrow(weight_diabetes))

  18. weight_diabetes <- weight_diabetes[c(4,3,1,2)]

  19. clean_dim <- dim(weight_diabetes)


  20. # Show data:

  21. kable(head(weight_diabetes,n=5), caption="Diabetes Data Set",padding=0, format = "markdown",align="l")

糖尿病?重量?性別X_ageg5yr沒有250女60至64歲沒有127女50至54歲沒有160女55至59歲沒有128女60至64歲沒有265男65至69歲

數(shù)據(jù)看起來很簡單,僅包含該項(xiàng)目所需的功能。因?yàn)閿?shù)據(jù)需要匿名,所以年齡范圍是特定年齡的安全替代方案。年齡范圍將用作此數(shù)據(jù)集的分類信息。

?

?

第2部分:研究問題

研究問題1:

性別,體重和年齡之間有相關(guān)性嗎?(變量:性別,weight2,X_ageg5yr)

由于性別是生物識(shí)別技術(shù)中的關(guān)鍵變量,因此探討性別是否可能與其他變量相關(guān)很重要。在這種情況下,我們正在研究性別是否與體重相關(guān)。

研究問題2:

性別或年齡與糖尿病相關(guān)嗎?怎么樣?(變量:性別,X_ageg5yr,weight2,diabete3)

該探索性項(xiàng)目的目標(biāo)是檢查體重/性別/年齡是否與糖尿病相關(guān)。了解任何相關(guān)性可能有助于根據(jù)患者的性別和體重告知患者患糖尿病的可能性。

研究問題3:

年齡,體重和糖尿病之間有關(guān)系嗎?(變量:性別,X_ageg5yr,weight2,diabete3)

為了進(jìn)一步探討與糖尿病的可能相關(guān)性,我們還將研究四個(gè)變量之間的關(guān)系。

?

第3部分:探索性數(shù)據(jù)分析

研究問題1:

性別,體重和年齡之間有相關(guān)性嗎?(變量:性別,weight2,X_ageg5yr)

首先檢查數(shù)據(jù)的分布很重要。性別是二元分類的,因此我們將用條形圖形象化它的分布。

  1. centered <- theme(plot.title = element_text(hjust = 0.5))

  2. hist_weight <- ggplot(data=weight_diabetes,aes(weight2, ?fill=weight2))+

  3. geom_histogram(fill='salmon',color='white') + ggtitle("Histogram [Weight]") + centered

  4. weight_diabetes$log_weight <- log(weight_diabetes$weight2)

  5. hist_log_weight <- ggplot(data=weight_diabetes,aes(log_weight, fill=log_weight))+

  6. geom_histogram(fill='mediumturquoise',color='white') + ggtitle("Histogram [Log_Weight]") + centered

  7. grid.arrange(hist_weight, hist_log_weight, ncol = 2)


對(duì)于Weight2,分布右偏,而Weight2的對(duì)數(shù)接近正態(tài)。由于數(shù)據(jù)的對(duì)數(shù)規(guī)范版本幾乎是正常的單峰數(shù)據(jù),因此可以將權(quán)重用于推斷統(tǒng)計(jì)中的后續(xù)分析。

?
女性參加者比男性參加者更多,其幅度大大超過美國的總?cè)丝?。這可能表明抽樣方法在性別抽樣方面并非完全隨機(jī)。但是,數(shù)據(jù)樣本足夠大,可以繼續(xù)評(píng)估健康風(fēng)險(xiǎn)因素。

?

年齡范圍似乎在兩端都偏向極端。

在比較年齡和體重時(shí),性別的體重分布似乎確實(shí)存在明顯差異。男性似乎比女性重。

還應(yīng)注意,似乎還有一些成年患者體重不足50磅,許多患者體重約400磅。數(shù)據(jù)收集過程的未來分析應(yīng)探索這些高低異常值是否是錯(cuò)誤,或者它們是否反映出患有嚴(yán)重健康問題的患者。

研究問題2:

體重,年齡和/或性別與糖尿病相關(guān)嗎?怎么樣?(變量:性別,X_ageg5yr,weight2,diabete3)

?
當(dāng)觀察樣本中的女性和男性參與者時(shí),報(bào)告的糖尿病比率非常相似。

隨著年齡的增長,直到80歲及更高年齡,糖尿病的報(bào)告比例也似乎會(huì)增加。年齡可能與糖尿病有某種程度的相關(guān)性。

隨著體重增加,所報(bào)告的糖尿病比例也增加。體重似乎與報(bào)告的糖尿病有很強(qiáng)的相關(guān)性,應(yīng)進(jìn)一步探討。

研究問題3:

年齡,體重和糖尿病之間有關(guān)系嗎?(變量:性別,X_ageg5yr,weight2,diabete3)

?
報(bào)告患有糖尿病的男性和女性的體重分布均較高。男性的體重分布比女性重。

這些箱線圖描繪了一個(gè)更清晰的故事。報(bào)告患有糖尿病的患者似乎在每個(gè)年齡段都較重。報(bào)告患有糖尿病的年輕患者似乎比老年患者具有更大的體重范圍。雖然尚不清楚年齡與糖尿病和體重之間的關(guān)系,但應(yīng)進(jìn)一步探討這種關(guān)系。

第4部分:結(jié)論

從數(shù)據(jù)的初步探索中可以明顯看出,某些功能具有比其他功能更強(qiáng)的相關(guān)性。體重與性別有關(guān)。性別似乎與體重?zé)o關(guān)。但是,糖尿病似乎與年齡有關(guān),而與體重密切相關(guān)。


R語言在BRFSS數(shù)據(jù)中可視化分析探索糖尿病的影響因素的評(píng)論 (共 條)

分享到微博請遵守國家法律
祁连县| 长顺县| 内江市| 兴海县| 巴彦县| 大厂| 汝阳县| 商都县| 汉源县| 沂水县| 蒙城县| 南丰县| 梁山县| 勐海县| 黄龙县| 资兴市| 大埔县| 阿图什市| 吴桥县| 个旧市| 太和县| 兴安盟| 山东| 县级市| 理塘县| 徐州市| 阿坝县| 龙胜| 申扎县| 南开区| 延寿县| 普定县| 中山市| 大港区| 鄂托克前旗| 中山市| 松滋市| 武城县| 历史| 祁连县| 广东省|