《天池精準(zhǔn)醫(yī)療大賽-人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè)》模型復(fù)現(xiàn)和數(shù)據(jù)挖掘-論文_企業(yè)


大賽概況
進(jìn)入21世紀(jì),生命科學(xué)特別是基因科技已經(jīng)廣泛而且深刻影響到每個(gè)人的健康生活,于此同時(shí),科學(xué)家們借助基因科技史無(wú)前例的用一種全新的視角解讀生命和探究疾病本質(zhì)。人工智能(AI)能夠處理分析海量醫(yī)療健康數(shù)據(jù),通過(guò)認(rèn)知分析獲取洞察,服務(wù)于政府、健康醫(yī)療機(jī)構(gòu)、制藥企業(yè)及患者,實(shí)現(xiàn)個(gè)性化,可以循證的智慧醫(yī)療,推動(dòng)創(chuàng)新,實(shí)現(xiàn)價(jià)值。
心血管病、糖尿病等慢性疾病,每年導(dǎo)致的死亡人數(shù)占總死亡人數(shù)的80%,每年用于慢病醫(yī)療費(fèi)用占中國(guó)公共醫(yī)療衛(wèi)生支出的比例超過(guò)13%。作為一種常見(jiàn)慢性疾病,糖尿病目前無(wú)法根治,但卻能通過(guò)科學(xué)有效的干預(yù)、預(yù)防和治療,來(lái)降低發(fā)病率和提高患者的生活質(zhì)量。阿里云聯(lián)合青梧桐健康科技有限公司主辦天池精準(zhǔn)醫(yī)療大賽——人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè),希望用人工智能的方法和思想處理、分析、解讀和應(yīng)用糖尿病相關(guān)大數(shù)據(jù),讓參賽選手設(shè)計(jì)高精度,高效,且解釋性強(qiáng)的算法來(lái)挑戰(zhàn)糖尿病精準(zhǔn)預(yù)測(cè)這一科學(xué)難題,為學(xué)術(shù)界和精準(zhǔn)醫(yī)療提供有力的技術(shù)支撐,幫助我們攻克糖尿病。
糖尿病概述
我國(guó)有1.1億人患有糖尿病,是世界上糖尿病患者最多的國(guó)家,每年用于糖尿病的醫(yī)療費(fèi)用超過(guò)3000億。糖尿病有一型和二型,是由于胰腺分泌胰島素紊亂或人體無(wú)法有效利用其產(chǎn)生的胰島素而發(fā)生的一種慢性疾病,是21世紀(jì)人類面臨的健康問(wèn)題之一.糖尿病伴有彌漫性并發(fā)癥,其包括心血管病變、腎臟疾病、高血壓、中風(fēng)等、眼部疾病、下肢截肢上百種,由此增加了過(guò)早死亡的風(fēng)險(xiǎn).因此,糖尿病防治形勢(shì)十分嚴(yán)峻.
下右圖為糖尿病視網(wǎng)膜病變

2019年估算中國(guó)糖尿病患病率排名世界第二

中國(guó)糖尿病患者數(shù)量位居世界第一。中國(guó)是糖尿病最大藥物研發(fā)市場(chǎng)。越來(lái)越多年輕人也加入糖尿病市場(chǎng),成為藥企搖錢樹(shù)。

下圖為中國(guó)糖尿病患病率歷史數(shù)據(jù)

糖尿病給經(jīng)濟(jì)帶來(lái)巨大負(fù)擔(dān)
糖尿病也給經(jīng)濟(jì)帶來(lái)了巨大的負(fù)擔(dān),每年診斷出的糖尿病成本約為 3270 億美元,而未確診的糖尿病和前驅(qū)糖尿病的總成本接近 4000 億美元。

糖尿病可預(yù)防
雖然糖尿病無(wú)法治愈,但減肥、健康飲食、積極運(yùn)動(dòng)和接受藥物治療等策略可以減輕這種疾病對(duì)許多患者的危害。早期診斷可以改變生活方式和更有效的治療,使糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型成為公共和公共衛(wèi)生官員的重要工具。
糖尿病致病因子多樣化
雖然有不同類型的糖尿病,但 II 型糖尿病是最常見(jiàn)的形式,其患病率因年齡、教育程度、收入、地點(diǎn)、種族和其他健康的社會(huì)決定因素而異。這種疾病的大部分負(fù)擔(dān)也落在社會(huì)經(jīng)濟(jì)地位較低的人身上。
本實(shí)驗(yàn)就是通過(guò)建立人工智能機(jī)器學(xué)習(xí)模型,預(yù)測(cè)糖尿病概率和挖掘糖尿病重要致病因子。
糖尿病建模數(shù)據(jù)集介紹
糖尿病數(shù)據(jù)集來(lái)源《天池精準(zhǔn)醫(yī)療大賽——人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè)》的糖尿病數(shù)據(jù)集。數(shù)據(jù)集包含六千多條數(shù)據(jù),41個(gè)變量。變量包括:性別??
?年齡?? ?體檢日期??? 天門冬氨酸氨基轉(zhuǎn)換酶??? 丙氨酸氨基轉(zhuǎn)換酶??? 堿性磷酸酶??? r-谷氨?;D(zhuǎn)換酶??? 總蛋白??
?白蛋白??? 球蛋白?? ?白球比例?? ?甘油三酯?? ?總膽固醇?? ?高密度脂蛋白膽固醇?? ?低密度脂蛋白膽固醇?? ?尿素??
?肌酐?? ?尿酸?? ?乙肝表面抗原?? ?乙肝表面抗體?? ?乙肝e抗原?? ?乙肝e抗體?? ?乙肝核心抗體?? ?白細(xì)胞計(jì)數(shù)??
?紅細(xì)胞計(jì)數(shù)?? ?血紅蛋白?? ?紅細(xì)胞壓積?? ?紅細(xì)胞平均體積?? ?紅細(xì)胞平均血紅蛋白量?? ?紅細(xì)胞平均血紅蛋白濃度??
?紅細(xì)胞體積分布寬度?? ?血小板計(jì)數(shù)?? ?血小板平均體積?? ?血小板體積分布寬度?? ?血小板比積?? ?中性粒細(xì)胞%??
?淋巴細(xì)胞%?? ?單核細(xì)胞%?? ?嗜酸細(xì)胞%?? ?嗜堿細(xì)胞%。變量主要為血常規(guī)檢測(cè)指標(biāo)。
《天池精準(zhǔn)醫(yī)療大賽——人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè)》的糖尿病數(shù)據(jù)集一覽如下圖

通過(guò)對(duì)病人的臨床數(shù)據(jù)和體檢指標(biāo)來(lái)預(yù)測(cè)其血糖值。 大賽提供的訓(xùn)練數(shù)據(jù)包含病人的性別、體檢日期以及血常規(guī)、腎功能檢查等指標(biāo), 每個(gè)指標(biāo)分別作為一個(gè)字段儲(chǔ)存在數(shù)據(jù)表中。最后一列為我們要預(yù)測(cè)的血糖值。
模型價(jià)值和意義
通過(guò)我們建立的人工智能機(jī)器學(xué)習(xí)預(yù)測(cè)模型,可實(shí)現(xiàn)以下一些研究問(wèn)題:
1.模型能準(zhǔn)確預(yù)測(cè)個(gè)人血糖值高低。
2.模型能挖掘哪些風(fēng)險(xiǎn)因素最能預(yù)測(cè)糖尿病風(fēng)險(xiǎn)。
3.我們能使用風(fēng)險(xiǎn)因素的一個(gè)子集來(lái)準(zhǔn)確預(yù)測(cè)一個(gè)人血糖值高低。
4.我們可以使用篩選幾個(gè)重要糖尿病致病特征,然后組合創(chuàng)建為一個(gè)簡(jiǎn)短的問(wèn)題,以準(zhǔn)確預(yù)測(cè)某人是否可能患有糖尿病或是否有糖尿病的高風(fēng)險(xiǎn)。


老規(guī)矩,不要急著建模,先做描述性統(tǒng)計(jì),投石問(wèn)路。
變量相關(guān)性分析熱力圖如下,相關(guān)性高的變量有很多,例如血小板比積和血小板計(jì)數(shù)相關(guān)性高于0.9.

繪制變量的小提琴圖如下


來(lái)看看血糖變量的小提琴圖

變量散點(diǎn)圖如下


為了更好觀察變量分布,我們繪制變量的直方圖如下,年齡等多個(gè)變量呈現(xiàn)正態(tài)分布。


我方模型質(zhì)量較好,MAE 0.6863658764353456,非常低。MAE是評(píng)估機(jī)器學(xué)習(xí)回顧模型的主要指標(biāo),該值越低越好,反之亦然。
我方模型挖掘變量重要性排序如下,我們發(fā)現(xiàn)年齡,甘油三酯,r-谷氨酰基轉(zhuǎn)換酶,性別,紅細(xì)胞體積分布寬度為主要變量。

拔出蘿卜帶出泥,我們來(lái)觀察變量的定量分析。

年齡越大,糖尿病風(fēng)險(xiǎn)越高年齡越小,糖尿病風(fēng)險(xiǎn)越小。當(dāng)然會(huì)有例外,我們這里分析的是主要趨勢(shì),不是個(gè)例。人體器官是注定會(huì)不斷老化的,我們雖然不能阻止老化.但有養(yǎng)生之道延緩老化速度我經(jīng)常鍛煉身體的體育館看到一些老人80歲+,看起來(lái)肌肉仍有輪廓,外表像60-70歲。

甘油三酯越大,糖尿病風(fēng)險(xiǎn)越高,甘油三酯越小,糖尿病風(fēng)險(xiǎn)越小。

血清甘油三酯的正常參考值:0.45~1.69mmol/L。依據(jù)2007年《中國(guó)成人血脂異常防治指南》地劃分標(biāo)準(zhǔn),空腹 (禁食12小時(shí))甘油三酯在1.70mmol/L以下為適當(dāng)水平;1.70-2.25mmol/L為邊緣升高;≥2.26mmol/L為升高。
我們吃的食物中有很多東西就有甘油三酯,例如植物油,肉,含糖高飲品和食物。甘油三酯高不能喝酒,飲酒會(huì)加重甘油三酯進(jìn)一步升高或誘發(fā)急性胰腺炎。
Toby老師提醒一下甘油三酯并非完全負(fù)面,它也有許多作用,具體作用如下。
第一、儲(chǔ)存能量。它可以給人體提供熱量,脂肪被燃燒后形成二氧化碳和水,釋放熱量,它是人體供能的重要部分,是人體所需的基礎(chǔ)營(yíng)養(yǎng)物質(zhì),能夠被人體充分吸收代謝。
第二、增加各種營(yíng)養(yǎng)物質(zhì)的吸收能力。甘油三酯能夠促進(jìn)人體對(duì)于維生素、氨基酸等營(yíng)養(yǎng)物質(zhì)的吸收,維持人體的營(yíng)養(yǎng)平衡,各種脂溶性維生素的吸收,都需要甘油三酯的幫助。人體的神經(jīng)系統(tǒng),尤其是腦部的神經(jīng)敏感性,需要甘油三酯的幫助。
第三,保溫作用。我們?nèi)梭w皮膚下面沉積較厚的脂肪層,越是寒冷的冬天脂肪層越厚,有利于保溫御寒。
第四,保護(hù)重要器官。人體重要器官的表面都有厚厚的脂肪層覆蓋,這些油脂就是用來(lái)保護(hù)臟器,免受外力傷害,同時(shí)在劇烈運(yùn)動(dòng)或者撞擊中起到減震作用。

甘油三酯超量壞處
當(dāng)我們的飲食過(guò)好、過(guò)多,吃進(jìn)去的甘油三酯無(wú)法消耗完,人就會(huì)逐漸地變胖,血脂就會(huì)升高。甘油三酯升高后會(huì)有以下壞處:
一、導(dǎo)致胰島素抵抗,誘發(fā)糖尿病。人體內(nèi)甘油三酯積蓄過(guò)多,除了發(fā)胖之外,還會(huì)造成胰島素不敏感,出現(xiàn)胰島素抵抗,就會(huì)誘發(fā)糖尿病、冠心病、腦梗塞等。
二、誘發(fā)急性胰腺炎。如果體內(nèi)的甘油三酯超過(guò)了5.6mmol/L時(shí),非常容易誘發(fā)急性胰腺炎。
我們?cè)賮?lái)看看r-谷氨酰轉(zhuǎn)移酶和糖尿病關(guān)系
如下圖趨勢(shì):r-谷氨酰轉(zhuǎn)移酶越高,糖尿病風(fēng)險(xiǎn)越高。

r-谷氨酰轉(zhuǎn)移酶升高一般出于下面場(chǎng)景:
(1)膽道阻塞性疾病:原發(fā)性膽汁性肝硬化、硬化性膽管炎等所致的慢性膽汁淤積,肝癌時(shí)由于肝內(nèi)阻塞,誘使肝細(xì)胞產(chǎn)生多量GGT同時(shí)癌細(xì)胞也合成GGT均可使GGT明顯升高,可達(dá)參考值上限的10倍以上。此時(shí)GGT、ALP、5-核苷酸酶(5-NT)、亮氨酸氨基肽酶(LAP)及血清膽紅素呈平行增加。
(2)急、慢性病毒性肝炎、肝硬化:急性肝炎時(shí),GGT呈中等度升高;慢性肝炎、肝硬化的非潔動(dòng)期,酶活性正常,若GGT持續(xù)升高,提示病變潔動(dòng)或病情惡化。
(3)急、慢性酒精性肝炎、藥物性肝炎:GGT可呈明顯或中度以上升高(300~1000UL),ALT和AST僅輕度增高,甚至正常。酗酒者當(dāng)其戒酒后GGT可隨之下降。
(4)其他:脂肪肝、胰腺炎、胰腺腫瘤、前列腺腫瘤等GGT亦可輕度增高。
r-谷氨酰轉(zhuǎn)移酶主要臨床參考意義在肝臟。隨著建模和數(shù)據(jù)挖掘,我們發(fā)現(xiàn)r-谷氨酰轉(zhuǎn)移酶和血糖值也有一定聯(lián)系。

在參考論文:r-谷氨酰轉(zhuǎn)移酶VS 糖尿病,觀察性研究中,高水平的血清 γ-谷氨酰轉(zhuǎn)移酶 (GGT) 與前驅(qū)糖尿病和 2 型糖尿病的風(fēng)險(xiǎn)增加有關(guān)。

在美國(guó)NCBI發(fā)表文章顯示:測(cè)量 2 型糖尿病患者 FDR 中的 GGT 可能有助于評(píng)估糖尿病風(fēng)險(xiǎn);長(zhǎng)期高 GGT 的人應(yīng)被視為糖尿病的高危人群。

我們?cè)賮?lái)看看性別和糖尿病關(guān)系。我們把“男”替換為0,“女” 替換為1,缺失替換為0。從下圖分析中,我們觀察到男性患糖尿病風(fēng)險(xiǎn)更高。

According
to the Centers for Disease Control and Prevention (CDC) ,?men are more
likely to receive a diagnosis of diabetes than women. However, some
research suggests that women with diabetes may be more likely to develop
complications than men.
Toby老師從美國(guó)疾控中心查找一些輔助證明材料。美國(guó)疾病控制和預(yù)防中心 (CDC) 的數(shù)據(jù)顯示:男性比女性更容易被診斷為糖尿病。然而,一些研究表明,患有糖尿病的女性可能比男性更容易出現(xiàn)并發(fā)癥。
男性比女性更容易患上2 型糖尿病。一個(gè)原因是男性在他們的腹部?jī)?chǔ)存了更多的脂肪——這是一個(gè)已知的風(fēng)險(xiǎn)因素?;加形创_診糖尿病的男性多于女性

Toby老師在其他糖尿病數(shù)據(jù)集實(shí)驗(yàn)中,發(fā)現(xiàn)不同算法得到結(jié)論不一樣,有的算法認(rèn)為性別變量很重要,有的算法認(rèn)為不重要。Toby老師認(rèn)為性別變量還需要更多數(shù)據(jù)科學(xué)實(shí)驗(yàn)觀察和臨床觀察。此變量還有爭(zhēng)議,不要急著下結(jié)論。
通過(guò)對(duì)天池糖尿病建模和數(shù)據(jù)挖掘后,我們得到很多高價(jià)值信息。
糖尿病是潘多拉魔盒,血糖異常后,五臟六腑都可能受到影響。通過(guò)此次建模,我們挖掘出糖尿病相關(guān)重要因子:年齡,甘油三酯,r-谷氨酰轉(zhuǎn)移酶,性別等等。
不足的是此數(shù)據(jù)集變量有限,糖尿病其它重要相關(guān)變量還包括BMI指數(shù)。
Toby老師提醒一下,數(shù)據(jù)挖掘結(jié)果要和專業(yè)醫(yī)生臨床經(jīng)驗(yàn)交叉驗(yàn)證。我這次數(shù)據(jù)挖掘結(jié)果和諸多權(quán)威機(jī)構(gòu)發(fā)布數(shù)據(jù)結(jié)論是一致的,參考價(jià)值非常高。
模型啟示錄1-控制甘油三脂含量。
控制甘油三酯方法為多運(yùn)動(dòng),用餐八分飽,控制糖類食物攝入量。
模型啟示錄2
年齡-適當(dāng)鍛煉,讓身體更年期

模型啟示錄3-定期體檢,觀察r-谷氨酰轉(zhuǎn)移酶指標(biāo)
如果r-谷氨酰轉(zhuǎn)移酶指標(biāo)值過(guò)高,需要警惕和隨訪醫(yī)生。

糖尿病可防可控,從預(yù)防做起,可限制降低糖尿病患病概率,減少政府醫(yī)療開(kāi)支負(fù)擔(dān)。

歡迎商務(wù)合作
如果您們對(duì)糖尿病模型項(xiàng)目感興趣,歡迎各大醫(yī)療機(jī)構(gòu),科研機(jī)構(gòu),生物醫(yī)藥企業(yè)聯(lián)系。

人工智能讓生活更美好!

版權(quán)聲明:文章來(lái)自公眾號(hào)(python生物信息學(xué)),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。