糖尿病數(shù)據(jù)獨家挖掘-基于上百萬臨床實驗數(shù)據(jù)
作者Toby,來源公眾號:python生物信息學,《糖尿病數(shù)據(jù)獨家挖掘-基于上百萬臨床實驗數(shù)據(jù)》
大家好,我是Toby老師,曾擔任國內最大醫(yī)藥數(shù)據(jù)中心數(shù)據(jù)挖掘負責人。10年以上數(shù)據(jù)科學經驗,和中科院,重科院,重慶中藥研究所,重慶兒科醫(yī)院教授有長期項目合作。現(xiàn)在成立了重慶未來之智信息技術咨詢服務有限公司。我們公司的宗旨是用人工智能,數(shù)據(jù)科學挖掘疾病致病因子,提供疾病家庭預防和干預措施降低疾病患病率。人工智能讓生活更美好!

今天Toby老師通過對上百萬大樣本臨床患者數(shù)據(jù)挖掘,發(fā)現(xiàn)糖尿病致病因子。為家庭疾病預防做出貢獻。這次數(shù)據(jù)挖掘整合了多個糖尿病數(shù)據(jù)庫,在國內也屬于罕見,Toby老師提供了非常震撼的數(shù)據(jù)挖掘結果,大家可以點擊收藏此文和分享給其他朋友,讓更多朋友受益。
糖尿病概述
糖尿病有一型和二型,是由于胰腺分泌胰島素紊亂或人體無法有效利用其產生的胰島素而發(fā)生的一種慢性疾病,是21世紀人類面臨的健康問題之一.糖尿病伴有彌漫性并發(fā)癥,其包括心血管病變、腎臟疾病、高血壓、中風等、眼部疾病、下肢截肢上百種,由此增加了過早死亡的風險.因此,糖尿病防治形勢十分嚴峻.
下右圖為糖尿病視網(wǎng)膜病變

2019年估算中國糖尿病患病率排名世界第二

中國糖尿病患者數(shù)量為1.2億,位居世界第一。中國是糖尿病最大藥物研發(fā)市場。越來越多年輕人屬于糖尿病后備軍,未來也將加入糖尿病市場,成為藥企搖錢樹。

下圖為中國糖尿病患病率歷史數(shù)據(jù)

糖尿病給經濟帶來巨大負擔
糖尿病也給經濟帶來了巨大的負擔,每年診斷出的糖尿病成本約為 3270 億美元,而未確診的糖尿病和前驅糖尿病的總成本接近 4000 億美元。

糖尿病可預防
雖然糖尿病無法治愈,但減肥、健康飲食、積極運動和接受藥物治療等策略可以減輕這種疾病對許多患者的危害。早期診斷可以改變生活方式和更有效的治療,使糖尿病風險預測模型成為公共和公共衛(wèi)生官員的重要工具。
糖尿病致病因子多樣化
雖然有不同類型的糖尿病,但 II 型糖尿病是最常見的形式,其患病率因年齡、教育程度、收入、地點、種族和其他健康的社會決定因素而異。這種疾病的大部分負擔也落在社會經濟地位較低的人身上。
本實驗就是通過建立人工智能機器學習模型,預測糖尿病概率和挖掘糖尿病重要致病因子。
模型價值和意義
通過我們建立的人工智能機器學習預測模型,可實現(xiàn)以下一些研究問題:
1.模型能準確預測個人是否患有糖尿病。
2.模型能挖掘哪些風險因素最能預測糖尿病風險。
3.我們能使用風險因素的一個子集來準確預測一個人是否患有糖尿病。
4.我們可以使用篩選幾個重要糖尿病致病特征,然后組合創(chuàng)建為一個簡短的問題,以準確預測某人是否可能患有糖尿病或是否有糖尿病的高風險。

糖尿病建模數(shù)據(jù)集介紹
此次臨床試驗數(shù)據(jù)總人數(shù)1045238,其中糖尿病患者124989人,占比12%,和真實糖尿病患病率幾乎一致。 ?

此次上百萬患者臨床試驗中重點檢測變量如下:
年齡
高血壓
肥胖
新冠病毒感染情況
插管的
肺炎
腎慢性
重癥監(jiān)護室
懷孕
是否免疫抑制
醫(yī)療單位等級
吸煙
慢性阻塞性肺病
其他疾病
心血管疾病
性別
哮喘
Toby老師模型采用新一代對稱樹算法,有效降低過度擬合,提高模型預測速度和預測能力。

模型AUC為0.86,預測區(qū)分性能非常優(yōu)秀。大家可以看到下圖ROC曲線非常光滑。
我們建模后發(fā)現(xiàn)年齡,高血壓,肥胖是糖尿病前三重要相關因子。

Toby老師用informative value方法來評估變量重要性,發(fā)現(xiàn)年齡
高血壓
插管的
重癥監(jiān)護室
肺炎
慢性腎炎
肥胖
新冠感染情況
心血管疾病
提供護理的國家衛(wèi)生系統(tǒng)的機構類型
慢性阻塞性肺病
這些變量都屬于糖尿病相關的有效因子,其中最重要因子還是年齡和高血壓。

在其他糖尿病數(shù)據(jù)集里,由于數(shù)據(jù)樣本量有限,往往得到性別是糖尿病重要因子。通過百萬患者臨床實驗,Toby老師再次驗證了性別變量不屬于糖尿病的顯著因子。大家不要有太多性別擔憂。
Toby老師把年齡分類0-33歲,34-40歲,41-49歲,50-54歲,54-58歲,59歲+,這6個階段。Toby老師觀察到隨著年齡階段上升,糖尿病概率隨之上升,非常顯著。

雖然我們不能控制年齡變量,但適當鍛煉,合理飲食,可以讓身體更年期,延緩衰老。

在12萬糖尿病患者中,53%患者有高血壓(66006人)。這個結論讓Toby老師也非常吃驚。

16萬高血壓患者中有41%同時患有糖尿。這雙向統(tǒng)計按時了我們高血壓和糖尿病的緊密聯(lián)系。

通過數(shù)據(jù)分析,Toby老師發(fā)現(xiàn)并非所有糖尿病患者都有肥胖,但糖尿病患者中有27%的人有肥胖。因此肥胖是糖尿病患者的一個顯著特征,也需要我們引起重視,嚴格控制BMI指數(shù)。

16萬肥胖人群中有21%人同時患有糖尿病。這雙向統(tǒng)計按時了我們肥胖和糖尿病的緊密聯(lián)系。

如何處理肥胖問題,Toby老師建議少吃,多運動。平時用餐不要太飽,八分飽即可。自助餐最好避免。少吃零食,奶茶,甜食。多在家里做飯吃,少去餐館吃,少點外賣。一周運動5次,每次30分鐘。
Toby老師統(tǒng)計發(fā)現(xiàn)12萬糖尿病患者中有33%肺炎患者??磥硖悄虿』颊呷菀赘腥痉窝?。

14萬肺炎患者中,30%同時患有糖尿病。

肺炎是一種常見但通常很嚴重的呼吸道感染。據(jù)美國胸科學會稱,僅在美國,每年就有約10o萬成年人因肺炎住院,約有5萬成年人死于該病。
糖尿病是一種慢性疾病,需要控制一系列癥狀。它還會削弱您的免疫系統(tǒng),使您更容易患上肺炎等嚴重感染。
糖尿病引起的高血糖還會使您的身體在患上肺炎后更難抵抗。這可能導致更嚴重的肺炎病例和并發(fā)癥增加,包括器官損傷、呼吸衰竭,甚至死亡。
這疾病控制與預防中心(CDC)“建議所有2歲以上患有糖尿病的人都接種肺炎疫苗以降低這種風險。
為什么糖尿病會增加患肺炎的風險?
患有糖尿病等慢性疾病的成年人風險增加“發(fā)展為肺炎。這是因為糖尿病會削弱您的免疫系統(tǒng)。當您患有糖尿病時,高血糖會使您的白細胞難以抵抗感染。
糖尿病還會損害您的血液循環(huán)和神經,從而對免疫系統(tǒng)產生負面影響。這會使您面臨更高的感染風險,包括肺炎。它還會使您的身體在出現(xiàn)感染時更難抵抗感染。
糖尿病還會增加患更嚴重肺炎的風險
除了患肺炎的風險增加外,糖尿病患者患嚴重甚至致命的肺炎的風險也增加。疾病預防控制中心報告說,糖尿病患者可能性增加3倍“死于流感或肺炎。
Toby老師統(tǒng)計中發(fā)現(xiàn)在12萬糖尿病患者中,8%患者有慢性腎炎(9816人)。因此糖尿病腎病是我們需要下一步關注疾病。Toby老師也有專門糖尿病腎病數(shù)據(jù)集,預測模型性能還不錯!

通過基于上百萬臨床實驗數(shù)據(jù)的糖尿病數(shù)據(jù)挖掘,Toby老師發(fā)現(xiàn)年齡,高血壓,肥胖是糖尿病前三重要相關因子。糖尿病肺炎和腎炎也要值得我們警惕和預防。
為什么糖尿病這么可怕?它就像一個潘多拉魔盒,一旦打開后可能釋放更多妖魔。我們想象一下,如果糖尿病患者發(fā)送繼發(fā)性肺炎,腎炎,視網(wǎng)膜病變,呼吸系統(tǒng),排毒系統(tǒng),視覺系統(tǒng)都會出現(xiàn)問題。那么糖尿病患者后期很可能喪失工作能力,在家修養(yǎng),生活質量越來越差。
Toby老師把之前多個糖尿病數(shù)據(jù)挖掘結果做一下關聯(lián)。在血常規(guī)檢測中,如果發(fā)現(xiàn)血糖,甘油三酯,r-谷氨酰基轉換酶,紅細胞體積分布寬度等指標異常,也要警惕糖尿病風險。
血糖升高
血糖正常值是指人空腹的時候血糖值在3.9~6.1毫摩爾/升,血糖值對于治療疾病和觀察疾病都有著指導意義??崭寡獫{血糖超過7.0毫摩爾/升有可能是糖尿病。因此血糖指標是糖尿病最直接定義指標。對糖尿病患者或BMI指數(shù)較高人群,血糖定期檢測非常重要。

甘油三酯升高,暗示糖尿病風險升高。

血清甘油三酯的正常參考值:0.45~1.69mmol/L。依據(jù)2007年《中國成人血脂異常防治指南》地劃分標準,空腹 (禁食12小時)甘油三酯在1.70mmol/L以下為適當水平;1.70-2.25mmol/L為邊緣升高;≥2.26mmol/L為升高。
甘油三酯超量壞處
當我們的飲食過好、過多,吃進去的甘油三酯無法消耗完,人就會逐漸地變胖,血脂就會升高。甘油三酯升高后會有以下壞處:
一、導致胰島素抵抗,誘發(fā)糖尿病。人體內甘油三酯積蓄過多,除了發(fā)胖之外,還會造成胰島素不敏感,出現(xiàn)胰島素抵抗,就會誘發(fā)糖尿病、冠心病、腦梗塞等。
二、誘發(fā)急性胰腺炎。如果體內的甘油三酯超過了5.6mmol/L時,非常容易誘發(fā)急性胰腺炎。
r-谷氨酰轉移酶升高,暗示糖尿病風險升高。

r-谷氨酰轉移酶主要臨床參考意義在肝臟。隨著建模和數(shù)據(jù)挖掘,我們發(fā)現(xiàn)r-谷氨酰轉移酶和血糖值也有一定聯(lián)系。

在參考論文:r-谷氨酰轉移酶VS 糖尿病,觀察性研究中,高水平的血清 γ-谷氨酰轉移酶 (GGT) 與前驅糖尿病和 2 型糖尿病的風險增加有關。

在美國NCBI發(fā)表文章顯示:測量 2 型糖尿病患者 FDR 中的 GGT 可能有助于評估糖尿病風險;長期高 GGT 的人應被視為糖尿病的高危人群。

BMI指數(shù)
BMI越大,糖尿病風險越大;BMI越小,糖尿病風險越小。左邊有少量紅色點,每個變量有少數(shù)例外,但大趨勢不變。

身體質量指數(shù),是BMI(Body Mass Index)指數(shù),簡稱體質指數(shù),是國際上常用的衡量人體胖瘦程度以及是否健康的一個標準。
計算公式為:BMI=體重÷身高**2。(體重單位:千克;身高單位:米。)

Toby老師提醒一下,BMI指數(shù)不僅和糖尿病關系緊密,還和其他諸多慢病關系緊密。過高BMI指數(shù)也像一個潘多拉魔盒,會釋放諸多疾病。
網(wǎng)上有很多BMI自動計算器,大家可以去看看自己BMI指數(shù)是否正常。
http://bmi.wjccx.com/

歡迎商務合作
如果您們對糖尿病模型項目感興趣,歡迎各大醫(yī)療機構,科研機構,生物醫(yī)藥企業(yè)聯(lián)系。


版權聲明:文章來自公眾號(python生物信息學),未經許可,不得抄襲。遵循CC 4.0 BY-SA版權協(xié)議,轉載請附上原文出處鏈接及本聲明。