python機器學習-糖尿病數(shù)據(jù)挖掘

作者介紹
Toby,持牌照金融公司擔任模型驗證專家,國內最大醫(yī)藥數(shù)據(jù)中心數(shù)據(jù)挖掘部門負責人!和重慶兒科醫(yī)院,中科院教授,賽柏藍保持慢病數(shù)據(jù)挖掘項目合作!管理過歐美日中印巴西等國外藥典數(shù)據(jù)庫,馬丁代爾數(shù)據(jù)庫,F(xiàn)DA溶解度數(shù)據(jù)庫,臨床試驗數(shù)據(jù)庫,WHO
課程概述
python機器學習實戰(zhàn)糖尿病數(shù)據(jù)挖掘,運用多種回歸算法在年齡,性別,體重指數(shù)BMI,血壓, 和六個血清指標中挖掘哪個因子是最重要致病因子。這些變量有何關聯(lián)。課程建立模型綜合表現(xiàn)顯著高于互聯(lián)網(wǎng)其他課程。
適用人群
?研究生,博士生畢業(yè)論文,NCBI/SCI/Nature論文發(fā)布,python愛好者,機器學習,生物信息學,糖尿病醫(yī)學科研機構
課程特點
平民價格,非純商業(yè)化價格,讓貧困學生也學的起國外最先進流行知識。不需要花費幾千上萬報天價學習班,自學也可成長。
?
學習計劃和方法
1.每天保證1-2個小時學習時間,預計7-14天可以學習完整門課程。
2.每節(jié)課的代碼實操要保證,建議不要直接復制粘貼代碼,自己實操一遍代碼對大腦記憶很重要,有利于鞏固知識。
3.第二次學習時要總結上一節(jié)課內容,必要時做好筆記,加深大腦理解。
4.不懂問題要羅列出來,先自己上網(wǎng)查詢,查不到的可以咨詢老師。
?
?課程目錄
課時1我的所有課程介紹
課時2講師介紹-二十個醫(yī)藥數(shù)據(jù)庫負責人
課時3糖尿病分類_特征_預防概述
課時4機器學習模型預測糖尿病患者血糖指標
章節(jié)2python編程環(huán)境搭建
課時5Anaconda快速入門指南
課時6Anaconda下載安裝
課時7python第三方包安裝(pip和conda install)
章節(jié)3糖尿病數(shù)據(jù)挖掘
課時8建立糖尿病預測線性回歸模型(linear regression)
課時9下載糖尿病數(shù)據(jù)方法(原始數(shù)據(jù)和清洗后數(shù)據(jù))
課時10線性回歸和誤差
課時11模型驗證:均方差和中值絕對誤差
課時12多算法比較,模型性能提高2倍
課時13原始數(shù)據(jù)和處理后數(shù)據(jù)建模性能對比
課時14糖尿病致病因子量化分析_性別,年齡,血壓,BMI指數(shù)
課時15變量相關性分析-原來s1和s2血清檢測呈現(xiàn)高相關性
課時16長壽之道-這課程是你一生財富
課時17BMI指數(shù)python自動化計算腳本
章節(jié)4附錄
課時18糖尿病中英單詞匯總
課時19糖尿病患者更容易感染新冠病毒嗎?
課時20最小角度回歸預測糖尿病論文LeastAngleRegression
?
有人說21世紀,我們的生活越來越便捷,電子通訊越來越發(fā)達,美食越來越多。這一點也不假。但現(xiàn)代生活方式也有不利一面,工作越來越忙,身體鍛煉越來越少,體重一天一天增加。有一種疾病叫做糖尿病,你們聽說過嗎?
餐飲行業(yè)為了增加銷售量,會增加食物食鹽量。這樣可以滿足顧客重口味。

飲料廠商為了增加銷售量,在飲料里添加不少糖分(碳水化合物)。糖可以刺激大腦,形成正反饋,越喝越想喝,形成對糖依耐性。

996對程序員并不陌生,一天工作太忙,下班后就葛優(yōu)躺,拿著手機或看電視。體重一天天增加,我想說的是糖尿病離你還遠嗎?

?
真相是中國糖尿病數(shù)據(jù)觸目驚心!下圖顯示2019年估算中國糖尿病患病率排名世界第二,我們不是世界第一,是不是很高興?

不幸的是,中國人口基數(shù)是美國4倍多,因此中國糖尿病患者數(shù)量位居世界第一。中國是糖尿病最大藥物研發(fā)市場。越來越多年輕人也加入糖尿病市場,成為藥企搖錢樹。

中國糖尿病患者數(shù)量逐年上升,呈現(xiàn)明顯上漲態(tài)勢。近年來糖尿病藥物是藥企一塊大蛋糕。糖尿病相關食品也非常昂貴,很多不懂醫(yī)學常識的患者付出了巨大代價。

?
糖尿病是一種富貴病,患上后無法徹底根治,只能每日用藥控制。且糖尿病相關并發(fā)癥多。每8秒就有1人死于糖尿病及其并發(fā)癥。如果未經治療,糖尿病可能引發(fā)許多并發(fā)癥。急性并發(fā)癥包括糖尿病酮酸血癥與高滲透壓高血糖非酮酸性昏迷;嚴重的長程并發(fā)癥則包括心血管疾病、中風、慢性腎臟病、糖尿病足、以及視網(wǎng)膜病變等。

醫(yī)生對于糖尿病患者的建議比較多,少吃含糖高食物,多鍛煉,多休息。。。。但哪一條建議特別重要,能否量化分析么?答案是肯定的,你給我數(shù)據(jù),我給你答案。
博主用python建立糖尿病血糖指標預測模型,根據(jù)用戶提供的年齡,性別,血壓,BMI等指標,可以預測你是否患有糖尿病。建模數(shù)據(jù)來自美國真實糖尿病臨床數(shù)據(jù),總計442條。對于模型來說,442條數(shù)據(jù)量有些偏少,如果能有1000條以上,就比較nice了。

研究此項目的美國團隊(Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani)模型性能一般,MAE約為41.9,r2為0.477。而博主建立模型MAE為13.82,r2為0.9388,遠遠高于美國團隊,模型性能非常優(yōu)秀,預測數(shù)據(jù)誤差小,更準確。

博主運用python語言建立糖尿病預測模型部分代碼截圖,代碼量少,效率高快速建模和量化分析致病因子。

?
程序對變量相關性分析后,自動把結果保存到excel,方便日后查閱數(shù)據(jù),我們發(fā)現(xiàn)S1和S2血清指標相關性非常高,模型僅選用s1或s2變量,性能下降不會太大。

好消息是絕大多數(shù)糖尿病屬于二類,是可防可控的。我們只要熟悉致病因子,建立良好生活習慣就可以顯著降低糖尿病患病概率。此課程對糖尿病致病因子一一分析,并量化排序,是價值含量非常高課程。

?
機器學習是一門充滿魅力學科,讓我們像甘道夫魔法師,可以預知未來。希望我的課程能夠幫助到糖尿病患者,相關研發(fā)機構,或正在寫此題材論文的學生。希望你們分享此課程到朋友圈,讓大家重視糖尿病防控,減少政府醫(yī)藥預算開支,讓更多人受益。

?
