拓端tecdat|基于機(jī)器學(xué)習(xí)的印度肝臟病診斷分析
原文鏈接:http://tecdat.cn/?p=23534
原文出處:拓端數(shù)據(jù)部落公眾號
作者:ShiChao Wu?
項(xiàng)目挑戰(zhàn)
肝臟病在早期可能沒有任何癥狀,不容易被察覺,或者癥狀是模糊的。肝臟病的癥狀和肝臟病的類型和程度高度相關(guān),肝臟病的一般是通過肝功能測試診斷。在常見的肝功能測試診斷中,一般主要包含三大類指標(biāo):血清酶、膽紅素和血清蛋白。其中,血清酶中的醫(yī)學(xué)指標(biāo)主要包括丙氨酸氨基轉(zhuǎn)移酶、天冬氨酸氨基轉(zhuǎn)移酶和堿性磷酸酶等,當(dāng)肝臟細(xì)胞被破壞時(shí),酶會被大量釋放到血液中,引起指標(biāo)上升。膽紅素指標(biāo)包括總膽紅素、直接膽紅素和間接膽紅素等,它們反映了膽紅素的代謝情況,當(dāng)肝細(xì)胞變性壞死,膽紅素代謝出現(xiàn)障礙時(shí),膽紅素指標(biāo)會升高。血清蛋白指標(biāo)反映了肝臟的合成功能,其包含白蛋白、球蛋白、總蛋白等,可用于檢測慢性肝損傷、機(jī)體免疫等情況。早期的診斷可以提高肝臟病患者的存活率,而通過血液中酶、膽紅素、血清蛋白的水平來診斷肝臟病是一個非常重要的手段。
解決方案
數(shù)據(jù)來源準(zhǔn)備
實(shí)驗(yàn)數(shù)據(jù)集(Indian Liver Patient Datset,,ILPD)來自美國加州大學(xué)的一個統(tǒng)計(jì)學(xué)習(xí)網(wǎng)站UCI。ILPD由三個印度教授收集自印度安得拉邦的東北部,數(shù)據(jù)集包含416位肝病患者記錄和167位非肝病患者記錄,包含了441位男性患者記錄和142位女性患者記錄,任何年齡超過89歲的患者都被列為90歲。
描述性統(tǒng)計(jì)分析
基于患者的生理指標(biāo)和醫(yī)療檢測指標(biāo)來對患者的情況進(jìn)行描述性分析(以下的圖中1均代表患病,2均代表不患病):

圖1?年齡和總蛋白的分布
從圖1中可以看出患有肝臟病的人群年齡的平均水平(中位數(shù))要比不患肝臟病的大,可能由于年齡大的人群的生活、工作壓力較大,就容易患肝臟病?;加懈闻K病的人群血液中的總蛋白含量與不患肝臟病的人群血液中總蛋白含量平均水平(中位數(shù))差異并不明顯,可能在判斷某人是否患有心臟病時(shí)血液中總蛋白這個指標(biāo)占的比重較小。

圖2?白蛋白和球蛋白比率分布
從圖2可以看出患有肝臟病的人群血液中白蛋白含量的平均水平(中位數(shù))明顯低于不患肝臟病的人群血液中白蛋白含量,血液中白蛋白的含量偏低可能對肝臟病的影響較大。血液中白蛋白與球蛋白的的比率表明含有肝臟病的人群的平均水平(中位數(shù))明顯低于不患肝臟病的人群,可能在判斷某人是否患有肝臟病白蛋白與球蛋白這個指標(biāo)比較重要。

圖3?患病與性別的分布
從圖3可以看出,患病人群的男性人數(shù)約為女性人數(shù)的三倍,這與現(xiàn)實(shí)中患有肝臟病人群的分布稍有差異,出現(xiàn)這種現(xiàn)象的原因是采集數(shù)據(jù)時(shí)男性數(shù)據(jù)占有多部分,女性采集的數(shù)據(jù)較少;其中男性中患有肝臟病與未患有肝臟病的比率約為3:7,女性中患肝病人數(shù)與未患肝病人數(shù)的比例約為4:6。性別對患病可能會有一定的影響。

圖4?醫(yī)療指標(biāo)的分布情況
從圖4觀察到患病人群的總膽紅素(TBIL),直接膽紅素(DBIL),堿性磷酸酶(ALP),谷丙轉(zhuǎn)氨酶(ALT),天冬氨酸氨基轉(zhuǎn)移酶(AST)5個特征呈現(xiàn)明顯的右偏分布,可能是由于患有肝臟病的人群的醫(yī)療指標(biāo)會高于常人。
部分實(shí)驗(yàn)數(shù)據(jù)

R語言建模
邏輯回歸
二項(xiàng)邏輯回歸模型(binomial logistic regression model)是一種基于邏輯斯諦分布(logistic distribution)的二分類模型,是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法?;舅枷胧潜容^條件概率

的大小,概率值大于0.5的屬于正類,概率值小于0.5的屬于負(fù)類。
隨機(jī)森林
用隨機(jī)的方式建立一個森林,森林由很多決策樹組成,隨機(jī)森林的每一棵決策樹之間是沒有關(guān)聯(lián)的。在得到森林之后,當(dāng)有一個新的輸入樣本進(jìn)入的時(shí)候,就讓森林中的每一棵決策樹分別進(jìn)行一下判斷,看看這個樣本應(yīng)該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預(yù)測這個樣本為那一類。
決策樹
決策樹(decision tree)是可以用于分類和回歸的一種有監(jiān)督機(jī)器學(xué)習(xí)方法,決策樹的模型以樹形結(jié)構(gòu)分布,可以在分類過程中對實(shí)例進(jìn)行特征選擇實(shí)現(xiàn)分類。分類決策樹模型描述的是對實(shí)例進(jìn)行分類的樹狀結(jié)構(gòu)模型,決策樹的結(jié)構(gòu)為節(jié)點(diǎn)(node)和有向邊(directed?edge),節(jié)點(diǎn)又可分為葉節(jié)點(diǎn)(leaf node)和內(nèi)部節(jié)點(diǎn)(internal node)。葉節(jié)點(diǎn)表示類,內(nèi)部節(jié)點(diǎn)表示特征。
支持向量回歸(SVR)
支持向量機(jī)(support vector machines,SVM)是Vapink在1979年發(fā)現(xiàn)的,1995年Vapink建議用支持向量機(jī)來進(jìn)行回歸和分類。支持向量機(jī)是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,它的目的是找到一個最優(yōu)的超平面,然后將數(shù)據(jù)劃分為不同的類別。
項(xiàng)目結(jié)果


?從模型結(jié)果可以看到,全模型似然比為0.4928,很多指標(biāo)并不顯著,所以考慮利用AIC和BIC做子集選擇,使得到的模型更加準(zhǔn)確,更有說服力。


最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測心臟病
8.python用線性回歸預(yù)測股票價(jià)格
9.R語言用邏輯回歸、決策樹和隨機(jī)森林對信貸數(shù)據(jù)集進(jìn)行分類預(yù)測
關(guān)于作者
ShiChao Wu 是拓端研究室(TRL)的研究員。
他作為一名211學(xué)校統(tǒng)計(jì)系碩士,十分明白數(shù)據(jù)分析在現(xiàn)代化的生產(chǎn)和運(yùn)維中的重要性。在大數(shù)據(jù)的時(shí)代,高新技術(shù)企業(yè)的技術(shù)骨干越來越年輕化,數(shù)據(jù)分析師的地位也越來越重要。