【齊魯工業(yè)大學畢業(yè)設計論文模板】基于機器學習的人體健康狀態(tài)評估方法

齊魯工業(yè)大學本科畢業(yè)設計(論文)原創(chuàng)性聲明
?
本人鄭重聲明:所呈交的畢業(yè)設計(論文),是本人在指導教師的指導下獨立研究、撰寫的成果。設計(論文)中引用他人的文獻、數據、圖件、資料,均已在設計(論文)中加以說明,除此之外,本設計(論文)不含任何其他個人或集體已經發(fā)表或撰寫的成果作品。對本文研究做出重要貢獻的個人和集體,均已在文中作了明確說明并表示了謝意。本聲明的法律結果由本人承擔。
?
齊魯工業(yè)大學關于畢業(yè)設計(論文)使用授權的說明
?
本畢業(yè)設計(論文)作者完全了解學校有關保留、使用畢業(yè)設計(論文)的規(guī)定,即:學校有權保留、送交設計(論文)的復印件,允許設計(論文)被查閱和借閱,學??梢怨荚O計(論文)的全部或部分內容,可以采用影印、掃描等復制手段保存本設計(論文)。
?
目 ???錄
?
摘 ?要
第一章 ?緒 論
1.1課題背景
1.2國內外研究背景
1.3本文主要設計內容
1.4研究方法
第二章 ?機器學習基礎理論
2.1機器學習
2.2機器學習工具
2.3 邏輯回歸模型
2.4決策樹模型
2.4.1決策樹的概念
2.4.2決策樹經典算法
2.4.3決策樹構造過程
2.5本章小結
第三章 ?算法研究
3.1數據集來源
3.2數據集預處理
3.3模型性能評估方法
3.4本章小結
第四章 ?系統(tǒng)設計
4.1實驗環(huán)境
4.2方案設計
4.3實驗結果與分析
4.3.1邏輯回歸模型
4.3.2決策樹模型
4.4本章總結
第五章 ?總結和展望
參考文獻
致 ?謝
摘 ?要
隨著我國醫(yī)療水平的不斷提高,居民對于自己的健康狀態(tài)愈加關心。而一般人體健康狀態(tài)的評估較為復雜,醫(yī)生也有主觀性判斷,因此一直缺乏有效的手段在疾病發(fā)生前來進行準確地評估人體的健康狀態(tài)。機器學習作為人工智能的重要領域,已經成為當今智能技術領域的重點發(fā)展對象,機器學習具有能夠快速準確處理數據、準確分析并提取有效關鍵信息的優(yōu)點,可以應用在人體健康分析領域。本文提出了一種基于機器學習的人體健康狀態(tài)評估方法,利用邏輯回歸算法以及決策樹模型來分析居民的健康狀態(tài)。同時也為后續(xù)找到更加適合搭建人體健康狀態(tài)預測的模型提供了一定的有效理論依據。
本文研究采用python語言,在Jupyter?Notebook平臺中讀入ISIC提供的數據集,以機器學習的理論知識為基礎,進行數據集的劃分、預處理等操作。在從sklearn庫中導入所需要使用的邏輯回歸模型和決策樹模型,并分別對本文的數據集進行一定的訓練與測試,再通過從sklearn庫中導入的混淆矩陣、分類準確率分數,來計算評估,得到邏輯回歸模型預測準確率為95.9%,決策樹模型預測準確率為94.7%。本文提出的人體健康狀態(tài)評估方法預測準確率較高,能夠為人體健康的檢測和預防提供一定的有效依據。
?
關鍵詞:機器學習 ?人體健康評估 ?邏輯回歸 ?決策樹 ?混淆矩陣
ABSTRACT
?
With the continuous improvement of China's medical level, residents are more and more concerned about their health. The evaluation of general human health status is more complex, so there has been a lack of effective means to accurately evaluate human health status before the emergence of illnesses. As a significant field of artificial intelligence, machine learning has become the focal point of present technology development. Machine learning has the merits of fast processing of large amounts of data, analysis and extraction of valid crucial information, and can be applied to the territory?of human health analysis. In this text, a human health state appraisal procedure?based on machine learning is recommended, which uses logical regression algorithm and decision tree model to analyze the health state of residents. At the same time, it also provides an effective theoretical basis for finding a more suitable model for human health prediction.
This paper uses Python language to read the data set provided by ISIC in the Jupyter Notebook platform. Based on the theoretical knowledge of machine learning, the data set is trained and tested by using logical regression model and decision tree model respectively. Through the classification accuracy score imported from sklearn database, the predicted?accuracy rate of logical regression pattern?is 95.9% ,and the predicted?accuracy rate of decision tree model is 94.7%. The prediction accuracy of the human health status evaluation method proposed in this text is above the average, which can provide a ?more than one kind?efficacious?foundation?for the examine?and guard against?of human health.
?
Keywords:?Machine Learning; Human Health Assessment; Logistic Regression; ?Decision Tree Classifier;Confusion Matrix
第一章 ?緒?論
1.1課題背景
現如今,居民的生活水平不斷提高,其對于如何根據體檢信息進行健康評估,如何預防疾病也更加關心,尤其是對于慢性病的早期診斷和預防[1]。一般慢性病的診斷較為復雜,醫(yī)生也有主觀性判斷,因此一直缺乏有效的疾病預防治療手段,那如何根據體檢者的體檢信息PEI,來為體檢者提供有關慢性病的健康狀況及疾病診斷的信息,在疾病發(fā)生前準確診斷疾病,成為當今醫(yī)療方面的一大重點問題。現因人工智能的不斷普及,機器學習作為人工智能方面的重要領域,已成為當前智能技術發(fā)展的重要對象。由于機器學習具有準確快速處理大量數據、正確分析并且可以提煉有效關鍵信息的優(yōu)點,為提早預防,減少因無法提早預防根治造成的慢性病死亡率,故來構建基于機器學習的較高精度的身體健康狀態(tài)的評估模型。
本文研究基于機器學習對人體健康狀態(tài)進行評估,通過收集體檢者的體檢信息PEI,分別通過邏輯回歸算法[1]和決策樹模型[2]兩種算法模型來以此分析體檢者的健康狀態(tài)。通過兩種算法建立的模型,來對人體健康狀態(tài)的預測結果進行健康、不健康的二分類,從而找到更加適合構建人體健康狀態(tài)評估模型的算法模型,為慢性病的檢測和預防提供一定的有效依據,為國家提倡的人體健康計劃貢獻一份力量。
1.2國內外研究背景?
機器學習作為一門專門研究計算機系統(tǒng)來提高其自身性能的新興學科。經歷了淺層學習和深度學習的發(fā)展浪潮后,機器學習已經在醫(yī)療圖像、語言等領域取得了顯著進展,特別是對基于臨床圖像診斷疾病的應用發(fā)展[3]。盡管AI在對于慢性病的早期診斷和預防方面可以節(jié)省成本并提高效率,但是由于對身體狀況下PEI的系統(tǒng)分析不足,因此目前尚未生成基于PEI的身體狀況預測的預測模型。
從2016年美國癌癥協會的公開統(tǒng)計數據來看, 在美國就慢性癌癥這一種疾病,診斷病例達到約76380例, 死亡人數已達到約10130例的驚人數字[4]。倘若一些慢性癌癥能在早期及時診斷并進行正確治療, 存活率是非常高,且可以達到一個樂觀的救治率[4]。從WHO國際癌癥研究中心公布的有關東南亞國家中患慢性癌癥的數據來看,韓國、日本的慢性癌癥發(fā)病率顯著高于其他東南亞國家,而因我國的人口基數大,患慢性癌癥的人數排行居于第一位,這表明雖然我國各年齡段的慢性癌癥發(fā)病率均低于韓國、日本,但仍需要注意預防慢性癌癥疾病的發(fā)生。目前,慢性病的初期臨床診斷,主要的診斷方法在于主治醫(yī)師的判斷,在診斷過程中,不僅容易受主治醫(yī)生的個人主觀性影響, 還會因需要做各類病理活檢延長檢查周期,錯過最佳治療周期。如何有效根據體檢者的體檢信息PEI來高精度的診斷體檢者的健康狀態(tài)仍是我們所需要急切研究的。
隨著人工智能在疾病預測方面的廣泛應用,我國從事疾病預測的研究人員開始開發(fā)醫(yī)療大數據應用程序,例如基于人工智能(AI)的大數據應用程序,進行基于臨床圖像診斷疾病的診斷識別, 從而獲得診斷性能的提升[5]。但由于仍存在對于慢性病預測的不足,缺乏對身體狀況下PEI的系統(tǒng)分析,故仍需通過預測模型結合疾病知識,找到更加適合判斷人體健康狀態(tài)的設計方法,來提高健康狀態(tài)評估的準確率。而logistic回歸模型、決策樹模型作為機器學習中的典型算法,可以基于這兩類模型來對體檢者的健康狀態(tài)進行評估[6]。
1.3本文主要設計內容?
設計基于機器學習的健康狀態(tài)評估方法模型。本文實現人體健康狀態(tài)評估的方法可以分成以下幾個部分:數據集的下載、預處理、數據分析分類;Logistic Regression邏輯回歸模型的訓練;Decision Tree Classifier決策樹模型的訓練幾個部分。在深入了解有關機器學習的原理后,通過python語言編寫代碼,分別搭建邏輯回歸模型和決策樹模型,來創(chuàng)建關于以機器學習為基礎的人體健康評估預測模型的框架,找到符合條件的試驗數據,并對相關數據進行訓練調試,最后得到實驗結果并進行分析評估。
本文共五章,如下文所示:
第一章是緒論,介紹了本論文經歷的研究背景以及該研究背景的社會現實意義,明確了本文在研究過程中使用的研究思路及設計方法,確定了主要研究設計內容和步驟,并完成論文的整體組織架構。
第二章主要介紹論文涉及到有關機器學習的基礎知識,就機器學習的概念,了解機器學習的分類,工具,同時講述了Logistic Regression邏輯回歸算法以及Decision Tree Classifier決策樹模型的基礎知識。
第三章介紹了設計所需要的數據集的有關內容,像數據集來源、下載過程、內容以及進行的數據預處理。并講述了邏輯回歸模型以及決策樹模型對于人體健康基于PEI預測的性能評估方法,并立足于通過算法模型來構建人體健康狀態(tài)預測評估的現實情景。
第四章介紹課題設計的搭建環(huán)境,設計具體步驟如模型的搭建過程及訓練測試過程等,并對邏輯回歸模型和決策樹模型的預測結果分別進行了具體分析。
第五章主要介紹了總結與展望,主要為工作總結,對邏輯回歸模型和決策樹模式對人體健康狀態(tài)評估的所得成果進行了闡述,且進一步展望未來。
1.4研究方法
(1)根據課題任務書查閱相關研究報告以及參考文獻,確定好本文要研究的具體方向,并以此為根據,在人體健康和機器學習結合領域的數據發(fā)布網站,下載設計所需要的數據集。在得到了對應類型的數據后,剔除掉數據集中對本文研究無作用的部分,然后進行歸一標準化、缺失值的插補等操作,從而處理好所獲得的有用數據。在完成上述處理后,根據我們實際的數據量和實驗情況,我們還需要將數據進行訓練集和測試集的區(qū)分。
(2) 首先學習機器學習框架下的基礎理論知識,進一步的掌握算法模型原理及使用方法,在完成以上的任務目標后,選取適合本文研究方向及內容的模型來建立基于機器學習框架的疾病預測模型并選擇合適的工具來處理所用模型,并且要配置好相關數據內容。
(3)在電腦上的Anaconda軟件配置好合適的編程實驗環(huán)境,使用Python語言在Jupyter Notebook中進行代碼的編寫,來建立我們預期的較高精度的人體健康狀態(tài)評估模型,在代碼和模型調試正確后,將研究方法一中的測試集和訓練集的實驗數據導入到模型,再進一步進行對應的訓練、測試,能夠得到良好的邏輯回歸模型和決策樹模型,預測準確率比較高,能夠實現本次畢業(yè)設計的目的。
第二章 ?機器學習基礎理論
2.1機器學習
機器學習(ML)是人工智能(AI)的一個重要子集,是一個涉及多應用方面的交叉學科,主要是由強化學習、監(jiān)督學習、無監(jiān)督學習三部分組成[7]。其實,機器學習的應用思想很簡單,它僅僅是一種模擬,是對人類生活的習慣、學習的過程來進行一個模擬。而在這一整個應用過程中,最關鍵的操作步驟就是對數據的處理,進而體現當今一些難題可以通過機器學習來解決或者可以進一步發(fā)展。
而機器學習中的深度學習,被稱為深度結構化學習或者稱作分層學習,也是基于人工神經網絡的一種機器學習方法[8]。無論是在硬件、軟件還是說數據的可用性方面,其中的一些進步都會使研究人員在醫(yī)學領域方面創(chuàng)建和測試比較復雜的深度學習模型。而且近二十年以來,機器學習(ML)和深度學習(DL)算法在醫(yī)學工程和圖像處理等不同的領域都有著很大進展,特別是在醫(yī)療診斷方面有著極大應用[8]。而且再根據ML和DL算法的結構,為了構建一種基于機器學習的健康評估模型,提供一個龐大的數據庫來滿足預期結果是必不可少的。
機器學習應用比較偏智能方向的是監(jiān)督學習,而監(jiān)督學習中的數據都是帶標記的。例如:數據特征點的位置、數據類別、數據屬性等,這些都是監(jiān)督學習中的典型標記。這些標記大部分作用是驗證實驗結果,來判斷模型應用的預期效果,并且通過不斷的改變參數來修正,來達到基于機器學習的預測結果。監(jiān)督學習[9]的具體實現過程主要是:首先,是通過大量含標記的數據來進行訓練機器,將機器的預測結果與期望結果來進行比對觀察;其次,根據比對的結果差異來逐步修改所做模型中的參數,從而輸出預測的結果;然后再將預測結果和期望結果進行比對,為更為準確,需要重復多次,直至收斂,最終生成具有一定魯棒性的模型[10],從而體現監(jiān)督學習中智能決策的能力,這種就是機器學習中的一個分類:監(jiān)督學習。
分類(Classification)和回歸(Regression)是機器學習中常見的兩種監(jiān)督學習。其中分類是根據實際的數據來將它劃分到合適的種類中,它得到的預測結果主要是離散型。而回歸是將數據規(guī)劃到一條線上,即將離散的數據進行生產擬合曲線,也就是不規(guī)則曲線,從而使其預測結果為連續(xù)的[10]。其實,所有通過數據來進行訓練,并嵌入相關學習算法的研究都是屬于機器學習應用的一部分,包括許多已經發(fā)展很多年的技術,比如:邏輯回歸(Logistic Regression)、決策樹(Decision Trees)等等,都是屬于機器學習的范疇。而其中一些用于慢性病檢測和分類的算法也可以用邏輯回歸和決策樹來替代。
2.2機器學習工具
機器學習應用中的步驟剛開始應該是理解和探索數據,我們需要從多個方面讀取數據、進行預處理,在這個過程中需要具有優(yōu)良的統(tǒng)計和可視化功能的工具:
(1)Scikit-learn:在機器學習領域,Sklearn是當前最流行的機器學習建模和分析軟件之一,基于Python實現。像Numpy、Scipy軟件包都是Sklearn的發(fā)展基礎,且對比下來,Sklearn大大提高了迭代效率[11],除此還有在應用時縮短開發(fā)周期,減少出錯幾率等優(yōu)點。同時Sklearn 里面的分類、回歸以及預處理等六大任務模塊來幫助建模。
(2)Pandas:為一款基于Python語言的數據分析和建模的開源軟件包,一般用于初步的數據清理和研究工作,它的底層數據結構也非常方便調用numpy以及scipy中已有的模塊。還較為方便讀取excel文件,特別是pandas中的inplace,它是有著是否在原對象基礎上進行修改的作用。
(3)matplotlib以及seaborn:為了使數據可視化,如創(chuàng)建畫布、添加標題、繪制圖形、保存圖形、繪制坐標軸顏色,樣式等操作。
(4)Jupyter Notebook:它是一款綜合的開發(fā)工具,雖然Jupyter本質上只是一個高級文字處理器,但是它結合了可視化技術,在其中不僅可以運行代碼,還可顯示輸出以及添加一些公式以及圖表的說明,使工作更加透明,更易理解。同時注意,在使用Jupyter Notebook之前,是需提前完成搭建好環(huán)境變量這一重要任務,主要體現在需要提前安裝Anaconda,因Anaconda中包含了一些最大的Python庫,像上述提到的Sklearn庫、NumPy庫、Pandas庫以及Matplotlib庫等,都是程序運行所需用到的知識[11]。
2.3 邏輯回歸模型
邏輯回歸模型(Logistic Regression,LR)又稱logistic回歸分析,它是一種較為簡單常見的二分類模型[12],屬于監(jiān)督學習,它的數據是含有標簽的,主要研究目標為自變量和因變量之間的關系。邏輯回歸模型的具體表現為:對于一個不含標簽的數據,通過邏輯回歸模型,該數據會找到所屬的特征類別。邏輯回歸模型屬于分類算法,主要用于減小預測的范圍,并且將預測值局限在0-1之間。
如果預測結果只有兩個或者兩個以上,每個值設為一類,邏輯回歸模型會進行判斷預測的對象屬于哪一類,得到的結果變量稱為離散型變量,即為邏輯回歸模型的分類問題。在醫(yī)學研究中,對二元結果進行分類的常用技術也是邏輯回歸,它是可以被廣泛應用于醫(yī)學方面,并且是最常用的預測模型之一[13]。
Sigmoid函數別名Logistic函數,是機器學習中的邏輯回歸模型中的一個常見的S型函數,它的取值范圍為0至1,主要作用是對數據進行二分類處理[13]。如果處理數據特征之間差異比較復雜的數據,因邏輯回歸模型中的Sigmoid函數有著平滑,易于求導的優(yōu)點,對數據是可以達到較好的預測效果。而由于邏輯回歸模型中樣本因變量的原因,Sigmoid分布呈現S形,具體如圖2-1所示:

當采用logistic回歸模型時,通常根據屬性特征,來確定引起疾病的風險因素。該方法的核心就是邏輯二字。總之,對于Logistic算法來說,主要就是指自變量,因變量二者之間的依存關系。
2.4決策樹模型
2.4.1決策樹的概念
決策樹模型(Decision Tree Classifier)實際上是一種酷似樹形狀的模型,類似流程圖。實際上,決策樹就是一種將所獲得的數據集根據特定標準,劃分成兩個或兩個以上的同等等級的分類技術[14],在機器學習應用搭建預測模型方面較為典型。在通過決策樹模型進行分類時,它基于樹型的圖形化形式較為直觀明了。對于決策樹模型,一般將數據集中的標簽比喻為決策樹模型的葉子,而決策樹模型的分支就代表這一類特征的總和[15]。
一般決策樹模型承擔于分類和檢驗工作,在醫(yī)療診斷方面應用較多,特別在于慢性疾病的醫(yī)療診斷、醫(yī)療衛(wèi)生保健以及醫(yī)療資源利用評價等方面的應用。決策樹模型對于本文研究的關于人體健康狀態(tài)評估的預測,適用性較高。
2.4.2決策樹經典算法
決策樹模型屬于分層技術,它學習的關鍵在于如何通過最好的抉擇來劃分屬性。決策樹作為分類算法的一大典型模型,主要包含三個重要算法[15]:
(1)ID3算法
ID3算法是決策樹模型算法中的,出現最早也是最基礎的一個算法。它以信息增益這一節(jié)點純度度量原則為計算核心,但ID3算法的優(yōu)點在于在數據集完整的情況下,可以不被噪聲影響,學習能力較強。而ID3的缺點在對信息的處理方面,僅僅可以處理離散型數據。除此之外,因根據信息增益作為節(jié)點選擇標準,故在選擇時傾向于決策樹的選擇分枝較多的屬性值,也就是在劃分分類屬性偏向于決策樹取值多的屬性,這容易造就在人體健康狀態(tài)的預測結果出現準確率不高的現象。
(2)C4.5算法
在2006年數據挖掘國際會議ICDM中開展的算法優(yōu)劣性的評比結果中,C4.5為排名第一的算法。它屬于在ID3算法的基礎上進行創(chuàng)新,主要以ID3算法為核心,新添加了可以方便處理連續(xù)數據,可以及時處理缺失數據等優(yōu)點。在C4.5算法中,它主要采用對信息增益率對比的評估方法來選擇決策樹的特征屬性,進而進行數據的特征劃分。信息增益率的具體計算如公式(2-1)、公式(2-2)所示:

信息增益率有著可以在樣本數量不足時,忽略較多無用特征屬性,并且可以在離散化連續(xù)數值特征下進行屬性分類的優(yōu)點,但有一點缺點在于應用實際時過于矯枉過正。但在決策樹算法C4.5中,信息增益率為重要的節(jié)點純度度量原則。
(3)CART算法
CART是一種二叉樹算法,相較于ID3算法、C4.5算法,它應用起來更為簡潔,實現效率更高一些。Gini指數作為CART算法中的節(jié)點純度度量原則,在做選擇特征分類時,一般選用Gini系數比較小的屬性,這代表純度較高,更適合CART算法的特征劃分屬性,計算如公式(2-3)所示。

且在本文設計中,因考慮數據集的格式,CART算法效率高、也較為簡潔的優(yōu)點,在決策樹模型中應用算法為CART算法。
2.4.3決策樹構造過程
決策樹模型的構造,一般是通過節(jié)點純度度量原則來進行節(jié)點特征分類,以求進行最合適的屬性劃分,通常使用的分類回歸樹是一個二叉樹模型,它的形狀一般如下圖2-2所示:

對于決策樹的構造過程,最需要考慮的是如何分類,如上圖所示,我們首先在數據集展示的特征屬性中,根據節(jié)點純度[15],找到最顯著的那個分類屬性,但當幾個變量的分類均特別顯著時,需要比較它們的顯著程度,從而進行評判,例如上圖2-2所示節(jié)點0,它是本次決策樹模型分類時的決定性特征。在依次進行尋找它的子數據集中最優(yōu)的分類屬性,如節(jié)點1、2、3。同理,繼續(xù)進行劃分,為節(jié)點4、5等,直至遍歷完所有屬性。且在構造過程當中,最重要的劃分屬性原則就是根據決策樹當中的三大節(jié)點純度度量原則。通過節(jié)點間不純度相對值,能夠提高決策樹的生成效率。
根據研究結果表明,Logistic?Regression和Decision?Tree?Classifier兩種模型應用在人體健康評估方面[15],可以充分發(fā)揮優(yōu)越性,兩者結合也可以幫助醫(yī)護人員從多角度綜合評判患者的人體健康狀態(tài)。
2.5本章小結
本章內容主要介紹了本文在研究時涉及到的基礎理論,首先介紹了機器學習的思想以及在本次設計中用到的基礎工具如Pandas、Sklearn以及seaborn庫知識等。其次介紹了邏輯回歸模型的概念、圖像展示、典型算法和構造過程,以及有關決策樹模型的概念、圖片展示、三種典型算法且包括節(jié)點純度度量原則,構造過程的解釋等知識,為之后的設計過程提供了理論基礎。
第三章 ?算法研究
3.1數據集來源
本文采用在Github網站的ISIC-Archive中下載得到的公開數據集,格式為csv.格式,內容為人體健康指標PEI。
文中數據集內容為PEI指標,主要為:血脂(Blood ?lipid)?、膽固醇酯(Cholesterol ?ester)、心率(heart ?rate)、血壓(blood ?pressure)、血糖濃度(Blood ?glucose ?concentration)、心排血量(Cardiac ?output)、肺活量(vital ?capacity )、生長激素(growth ?hormone )、促甲狀腺素(thyrotropin)、泌乳激素(Prolactin)等,數據集如下圖3-1所示:

3.2數據集預處理
在邏輯回歸模型中,共采用了569個樣本,按照7:3的比例關系來進行分割劃分,訓練集樣本數量為398個,而在測試集樣本數量中,正樣本數量占56,負樣本數量為115。而在決策樹模型中,因實驗效果問題,只采用了380個樣本,同樣采用7:3的比例進行分割劃分,訓練集樣本數量為266個,在測試集樣本數量中,正樣本數量占43,負樣本數量為71。將代表健康狀態(tài)的樣本和代表不健康的樣本分別通過邏輯回歸模型和決策樹模型來判斷模型的分析預測準確性,進而構建更加適合人體健康狀態(tài)評估的預測模型。
由于在數據集的獲取過程中,許多無用因素存在干擾影響,為保證實驗質量,需要對采集的數據集進行預處理,主要操作步驟體現在以下三方面:
首先,刪除數據異常的列,如圖3-2所示:

然后,刪除所有非浮點數據,如圖3-3所示:

最后,刪除某些與PEI人體健康信息無關的列(如性別、年齡等信息),如圖3-4所示:

3.3模型性能評估方法
在使用模型評估預測事件的可能性時,一定會聯系到模型的正確率,即為Accuracy。為了表征邏輯回歸模型以及決策樹模型用于人體健康狀態(tài)評估領域的預測準確性,通常選取一些評估指標來判斷模型的優(yōu)劣性。
在評估測量訓練模型性能時,一般使用三類:Accuracy、ROC曲線和AUC指標、P - R 曲線[15]。Accuracy適合用于直觀來展示測試百分率;ROC(Receiver Operating Curve)曲線評估模型性能時,一般以曲線下面積AUC為預測基準;在P-R曲線中,主要介紹查全率以及查準率。在判斷預測模型性能優(yōu)劣性時,較為專注于準確率的評比[16],故在變量選擇上,一般采用更為合理的Accuracy準確率指標。
在本文描述邏輯回歸模型應用方面的優(yōu)劣性時通常選用準確率來表示。一般在邏輯回歸模型應用后,使用混淆矩陣來具體描述預測樣本數量,并通過計算來判斷預測準確性。預測準確率的概念為預測正確的樣本數量占樣本總數量的一個比例關系,如公式(3-1)所示:

(TP表示健康樣本中訓練結果與測試結果相一致的數量;FP表示健康樣本訓練結果與測試結果不一致的數量 ;TN表示不健康樣本訓練結果與測試結果相一致的數量;FN表示不健康樣本訓練結果與測試結果不一致的數量)
在本文描述決策樹模型應用的優(yōu)劣性的評估指標時,通常選用分類準確度來進行描述[17],而分類準確性分數是基于混淆矩陣來完成計算的。其中分類準確性分數的計算主要由公式(3-2)完成:

(TP表示健康樣本中訓練結果與測試結果相一致的數量;TN表示不健康樣本訓練結果與測試結果相一致的數量;P表示健康總樣本數量;N表示不健康總樣本數量)
3.4本章小結
本章內容主要介紹了在Github網站上進行了數據集的獲取,數據樣本的具體介紹,并介紹了對獲取的數據集進行預處理(標準化刪除等)操作。除此之外,還介紹了在機器學習Machine Learning應用中一般采用Accuracy、ROC曲線和AUC指標、P - R 曲線三種方式來評估模型性能。而對本文中的邏輯回歸模型和決策樹模型,主要根據基于混淆矩陣中的準確性指標來進行模型優(yōu)劣性的性能評估。
第四章 ?系統(tǒng)設計
4.1實驗環(huán)境
(1)計算機運行環(huán)境
本文進行模型設計所使用的計算機環(huán)境變量如表4-1所示:

(2)平臺搭建環(huán)境
在設計的過程中,用到許多機器學習工具庫,如Scikit-learn庫,Pandask庫以及matplotlib庫等來進行數據的預處理,可視化操作等。
4.2方案設計
本次實驗主要采用了兩種算法模型來分別完成實驗,具體使用的是邏輯回歸Logistic Regression模型和決策樹Decision Tree Classifier模型,主要步驟分為以下部分:
(1)查找ISIC提供的基于PEI的人體健康狀態(tài)數據集,下載到磁盤,并上傳到Jupyter Notebook,如圖4-1所示:

(2)搭建好Jupyter中的編程環(huán)境變量以及完善配置所需要用到的庫知識;
(3)導入數據集后,利用機器學習工具庫描述數據集的大小以及對健康、不健康樣本可視化,如圖4-2所示:

(4)樣本相關性分析,如圖4-3所示:

(5)數據預處理:標準化,刪除保留,缺失值插補等操作;
(6)在Jupyter平臺中從Sklearn庫中導入所需要的數據集,并依照7:3的比例關系,來進行訓練集和測試集的分割劃分:邏輯回歸模型采用569條樣本,決策樹模型采用380條樣本,如圖4-4所示:

(7)從sklearn庫中導入邏輯回歸模型或者決策樹模型(且在sklearn中實現的決策樹是CART類型),如圖4-5所示:

(8)從sklearn庫中導入混淆矩陣,它的主要作用為評估健康狀態(tài)樣本分類的準確性,并得到預測結果,如圖4-6所示:

4.3實驗結果與分析
4.3.1邏輯回歸模型
在邏輯回歸模型中得到的混淆矩陣結果圖,如圖4-7所示:

分析:
(1)在上圖中:0表示樣本狀態(tài)為不健康,1表示樣本狀態(tài)為健康,并且1.1e+02表示一種科學計數法,代表此處共1.1*100=110人;
(2)在樣本中有110人不健康并且通過邏輯回歸模型預測后,得到的狀態(tài)也為不健康,預測正確;
(3)在樣本中有2人為健康狀態(tài),但是通過邏輯回歸模型預測后,得到的狀態(tài)為不健康,預測錯誤;
(4)在樣本中有5人不健康,但是通過邏輯回歸模型預測后,得到的狀態(tài)為健康,預測錯誤;
(5)在樣本中有54人為健康狀態(tài)并且通過邏輯回歸模型預測后,得到的狀態(tài)也為健康,預測正確;
(6)將邏輯回歸模型中混淆矩陣得到的結果圖代入計算公式,(110+54)/(110+54+2+5)得到準確率為0.9590643274853801 。
在邏輯回歸模型中取得的預測分類準確率分數,如圖4-8所示:

分析:
上圖表明,本邏輯回歸模型中預測準確率約為95.9%,預測錯誤率約為4.1%,這與根據圖4-7計算得到的預測準確率相匹配。這代表該邏輯回歸模型擬合效果較好,預測準確率較高,可以完成任務書中的全部要求,能夠在實際中應用于人體健康狀態(tài)的評估。
4.3.2決策樹模型
在決策樹模型中得到的混淆矩陣結果圖,如圖4-9所示:

分析:
(1)在上圖中:0表示樣本狀態(tài)為不健康,1表示樣本狀態(tài)為健康;
(2)在樣本中有71人不健康并且通過決策樹模型預測后,得到的狀態(tài)也為不健康,預測正確;
(3)在樣本中有6人為健康狀態(tài),但是通過決策樹模型預測后,得到的狀態(tài)為不健康,預測錯誤;
(4)在樣本中有37人為健康狀態(tài)并且通過決策樹模型預測后,得到的狀態(tài)也為健康,預測正確;
(5)將決策樹模型中混淆矩陣得到的結果圖代入計算公式,(71+37)/(71+37+6)得到準確率為0.94736842105。
在決策樹模型中得到的分類準確率分數,如圖4-10所示:

分析:
上圖表明,本決策樹模型中預測準確率約為94.7%,預測錯誤率約為5.3%,這與根據圖4-9計算得到的預測準確率相匹配。這代表該決策樹模型擬合效果較好,預測準確率較高,可以完成任務書中的全部要求,能夠在實際中應用于人體健康狀態(tài)的評估。
4.4本章總結
在本章章節(jié)中,主要是講述了設計基于機器學習的健康狀態(tài)評估方法的整體流程。流程內容包括實驗環(huán)境的配置、工具的設置、訓練環(huán)節(jié)以及測試環(huán)節(jié)。在Jupyter平臺進行了程序代碼的正確編寫及應用,最終得到較為理想的結果:在邏輯回歸模型中,基于混淆矩陣中的分類準確率分數,可以得到95.9%的結果;在決策樹模型中,基于混淆矩陣中的分類準確率分數,可以得到94.7%的結果。通過對上述邏輯回歸模型和決策樹模型得到的人體健康狀態(tài)的評估結果分析可知,兩種模型擬合效果都比較好,預測準確率均較高,可以完成任務書中的全部要求,能夠在實際中應用到人體健康狀態(tài)的評估領域。
第五章 ?總結和展望
本文研究的主題是基于機器學習的人體健康狀態(tài)評估,根據課題任務書查閱相關研究報告以及參考文獻,確定好本文要研究的具體領域,并以此為根據在相關領域的數據發(fā)布網站下載需要的數據集。在得到了對應類型的數據后,剔除掉數據集中對本文研究無作用的部分,進行數據預處理,數據集的劃分等。
系統(tǒng)設計過程中,在通過邏輯回歸模型以及決策樹模型的研究預測分析后,能得到邏輯回歸模型預測健康狀態(tài)準確率為95.9%,決策樹模型預測健康準確率為94.7%。實驗結果代表本文提出的這種基于機器學習的人體健康狀態(tài)評估方法預測準確率較高,為將來人體健康狀態(tài)的評估檢測和預防提供了一定的理論依據。
目前,本文的研究還不足夠有深度,在將來可以從以下兩個方面進行深入研究:研究的基于機器學習來評估人體狀態(tài)是否健康的方法現只適合在數據量比較龐大的數據庫系統(tǒng)中來進行判斷,并不能完全準確地反映人體健康的真實狀況,還需要更加細致的考慮驗證。同時影響人體健康狀態(tài)的PEI指標之間是否完全獨立也還沒有進行更深入的研究證明。另外,在將來如何在實際的慢性病醫(yī)療診斷過程中,更好的運用預測模型,提高診斷的準確率,這些問題都需要進一步探討。
參考文獻
??朱明賢. 人體健康評估及信息管理平臺的設計與實現[D].山東大學,2015.
??段明月. 決策樹模型在預測乳腺癌5年生存狀況研究中的應用[D]. 吉林大學,2020.
??徐佳蕓,閆振廣.人體健康基準關鍵參數BAF預測方法探討[C]//.中國毒理學會環(huán)境與生態(tài)毒理學專業(yè)委員會第七屆學術研討會議論文摘要集.[出版者不詳],2021:22.DOI:10.26914/c.cnkihy.2021.046925.
??黃嵩.基于機器學習的心臟病預診系統(tǒng)的研究[D].浙江理工大學,2021.
??郭志恒,劉青萍,劉芳等.基于機器學習算法的腦卒中疾病早期預測模型研究[J].計算機與數字工程,2021,49(11):2180-2183+2247.
??張敏,劉建強.基于邏輯回歸模型的戒毒康復人群生命質量及關聯因素研究[J].中國人民公安大學學報(自然科學版),2021,27(04):85-91.
??吳佩琪,楊雅儷,周妍璐等.乳腺良惡性病變鑒別的MRI影像組學預測模型構建:基于隨機森林、支持向量機、邏輯回歸分類器[J].分子影像學雜志,2021,44(05):764-770.
??周舟.基于邏輯回歸模型的心衰患者研究[D].大連理工大學,2021.
??程順達,程穎,孫士江.基于機器學習的腫瘤智能輔助診斷方法[J/OL].電子科技:1-5[2022-05-16].DOI:10.16180/j.cnki.issn1007-7820.2022.05.009.
?龐冉.基于機器學習算法的成人皮膚腫瘤診斷模型研究[D].鄭州大學,2021.
?陸浩軒,徐瑾妍,程可愛等.基于多因素回歸分析和機器學習算法的冠心病預測模型構建及比較[J].寧波大學學報(理工版),2022,35(03):57-62.
?王成武,晏峻峰.早期糖尿病風險預測模型的比較研究[J].智能計算機與應用,2021,11(01):64-68.
?陳靜華.Logistic回歸模型、神經網絡模型和決策樹模型在輕度認知功能障礙向阿爾茨海默癥轉歸預測中的比較[D].南昌大學,2018.
?李夢然.基于Logistic和決策樹模型的大學生亞健康狀況及影響因素分析[D].北京交通大學,2015.
?R. Serban, A. Kupraszewicz and G. Hu, Predicting the characteristics of people living in the South USA using logistic regression and decision tree[C]. 2011 9th IEEE International Conference on Industrial Informatics, 2011, pp. 688-693, doi: 10.1109/INDIN.2011.6034974.
?L. Lei, Prediction of Score of Diabetes Progression Index Based on Logistic Regression Algorithm[C]. 2020 International Conference on Virtual Reality and Intelligent Systems (ICVRIS), 2020, pp. 954-956, doi: 10.1109/ICVRIS51417.2020.00232.
?H. R. Bittencourt, D. A. de Oliveira Moraes and V. Haertel, A binary decision tree classifier implementing logistic regression as a feature selection and classification method and its comparison with maximum likelihood[C]. 2007 IEEE International Geoscience and Remote Sensing Symposium, 2007, pp. 1755-1758, doi: 10.1109/IGARSS.2007.4423159.
?