機(jī)器學(xué)習(xí)建模Pima印第安人糖尿病數(shù)據(jù)集-論文_企業(yè)科研
Pima印第安人糖尿病數(shù)據(jù)集變量如下數(shù)據(jù)集變量如下:妊娠, 血糖,血壓,皮膚厚度,胰島素,BMI,糖尿病系統(tǒng)功能,年齡,是否為糖尿病患者。

糖尿病概述
糖尿病有一型和二型,是由于胰腺分泌胰島素紊亂或人體無法有效利用其產(chǎn)生的胰島素而發(fā)生的一種慢性疾病,是21世紀(jì)人類面臨的健康問題之一.糖尿病伴有彌漫性并發(fā)癥,其包括心血管病變、腎臟疾病、高血壓、中風(fēng)等、眼部疾病、下肢截肢上百種,由此增加了過早死亡的風(fēng)險(xiǎn).因此,糖尿病防治形勢十分嚴(yán)峻.
下右圖為糖尿病視網(wǎng)膜病變

2019年估算中國糖尿病患病率排名世界第二

中國糖尿病患者數(shù)量位居世界第一。中國是糖尿病最大藥物研發(fā)市場。越來越多年輕人也加入糖尿病市場,成為藥企搖錢樹。

下圖為中國糖尿病患病率歷史數(shù)據(jù)

糖尿病給經(jīng)濟(jì)帶來巨大負(fù)擔(dān)
糖尿病也給經(jīng)濟(jì)帶來了巨大的負(fù)擔(dān),每年診斷出的糖尿病成本約為 3270 億美元,而未確診的糖尿病和前驅(qū)糖尿病的總成本接近 4000 億美元。

糖尿病可預(yù)防
雖然糖尿病無法治愈,但減肥、健康飲食、積極運(yùn)動和接受藥物治療等策略可以減輕這種疾病對許多患者的危害。早期診斷可以改變生活方式和更有效的治療,使糖尿病風(fēng)險(xiǎn)預(yù)測模型成為公共和公共衛(wèi)生官員的重要工具。
糖尿病致病因子多樣化
雖然有不同類型的糖尿病,但 II 型糖尿病是最常見的形式,其患病率因年齡、教育程度、收入、地點(diǎn)、種族和其他健康的社會決定因素而異。這種疾病的大部分負(fù)擔(dān)也落在社會經(jīng)濟(jì)地位較低的人身上。
本實(shí)驗(yàn)就是通過建立人工智能機(jī)器學(xué)習(xí)模型,預(yù)測糖尿病概率和挖掘糖尿病重要致病因子。
糖尿病建模數(shù)據(jù)集介紹
糖尿病數(shù)據(jù)集來源Pima印第安人糖尿病數(shù)據(jù)集。數(shù)據(jù)集包含769條數(shù)據(jù),9個(gè)變量。變量如下:妊娠, 血糖,血壓,皮膚厚度,胰島素,BMI,糖尿病系統(tǒng)功能,年齡,是否為糖尿病患者。
本研究的實(shí)驗(yàn)數(shù)據(jù)來自 UniversityofCalifornia,UGI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的 PimaIndianDiabetes數(shù)據(jù)集,其研究對象是亞利桑那州鳳凰城附近的皮馬印第安人.該數(shù)據(jù)集共有768條數(shù)據(jù)項(xiàng),包含8個(gè)醫(yī)學(xué)預(yù)測變量和1個(gè)結(jié)果變量,其具體屬性包括:懷孕次數(shù)(Pregnancies)、血糖濃度(Glucose)、年齡(Age)、血壓(BloodPressure)、肱三頭肌皮脂厚度(SkinThickness)、胰島素含量(Insulin)、身體質(zhì)量指數(shù)(BMI)、糖尿病遺傳系數(shù)(DiabetesPedigreeFunction)和 結(jié) 果(Outcome,1代 表 患 糖 尿 病,0代 表 未 患 糖 尿 ?。冢校椋恚幔桑睿洌椋幔睿模椋幔猓澹簦澹髷?shù)據(jù)集中,Outcome為1的有268例,即為糖尿病患者人數(shù);Outcome為0的有500例,即為未患有糖尿病的人數(shù).
模型價(jià)值和意義
通過我們建立的人工智能機(jī)器學(xué)習(xí)預(yù)測模型,可實(shí)現(xiàn)以下一些研究問題:
1.模型能準(zhǔn)確預(yù)測個(gè)人是否患有糖尿病。
2.模型能挖掘哪些風(fēng)險(xiǎn)因素最能預(yù)測糖尿病風(fēng)險(xiǎn)。
3.我們能使用風(fēng)險(xiǎn)因素的一個(gè)子集來準(zhǔn)確預(yù)測一個(gè)人是否患有糖尿病。
4.我們可以使用篩選幾個(gè)重要糖尿病致病特征,然后組合創(chuàng)建為一個(gè)簡短的問題,以準(zhǔn)確預(yù)測某人是否可能患有糖尿病或是否有糖尿病的高風(fēng)險(xiǎn)。

傳統(tǒng)集成樹算法雖然比決策樹性能更優(yōu),但性能仍有改進(jìn)空間。

型采用新一代對稱樹算法,有效降低過度擬合,提高模型預(yù)測速度和預(yù)測能力。

糖尿病預(yù)測模型性能優(yōu)秀,ROC大于0.84。

通過描述性統(tǒng)計(jì),我們觀察匹馬印第安糖尿病數(shù)據(jù)集變量直方圖:BMI,血壓,血糖三個(gè)變量呈現(xiàn)明顯正態(tài)分布。

所有變量數(shù)據(jù)缺失率為0,是良好科研建模數(shù)據(jù)集。

變量相關(guān)性熱力圖顯示:血糖,BMI,年齡與糖尿病有高度相關(guān)性。

通過數(shù)據(jù)挖掘,我們得到匹馬印第安數(shù)據(jù)集中變量重要性排序。

模型啟示錄1
血糖-控制含糖量高的食品攝入,例如白糖,奶茶,糖果,零食。

模型啟示錄2
BMI-控制體重,適當(dāng)鍛煉

歡迎商務(wù)合作
如果您們對糖尿病模型項(xiàng)目感興趣,歡迎各大醫(yī)療機(jī)構(gòu),科研機(jī)構(gòu),生物醫(yī)藥企業(yè)聯(lián)系。

人工智能讓生活更美好!

更多內(nèi)容請點(diǎn)擊下面視頻?


版權(quán)聲明:文章來自公眾號(python生物信息學(xué)),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。