16種常用的數(shù)據(jù)分析方法-判別分析

判別分析又稱為線性判別分析(Linear Discriminant Analysis)。產生于20世紀30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統(tǒng)計方法。
判別分析方法目的與特點
目的
判別分析的目的是對已知分類的數(shù)據(jù)建立由數(shù)值指標構成的分類規(guī)則,然后把這樣的 規(guī)則應用到未知分類的樣本去分類。
例如,我們有了患胃炎的病人和健康人的一些化驗指標 ,就可以從這些化驗指標發(fā)現(xiàn)兩類人的區(qū)別,把這種區(qū)別表示為一個判別公式,然后對懷疑 患胃炎的人就可以根據(jù)其化驗指標用判別公式診斷。
特點
因此,判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結出客觀事物分類的規(guī)律性,建立判別公式和判別準則。
當遇到新的樣本點時,只要根據(jù)總結出來的判別公式和判別準則,就能判別該樣本點所屬的類別。
判別分析按照判別的組數(shù)來區(qū)分,可以分為兩組判別分析和多組判別分析。
原理說明
判別分析時,通常需要將數(shù)據(jù)分為兩部分。一部分是訓練模型數(shù)據(jù),一部分是驗證模型數(shù)據(jù)。
首先通過訓練集數(shù)據(jù)訓練擬合出一個模型。接著再利用另一部分驗證模型效果。如果在測試集數(shù)據(jù)上,也表現(xiàn)良好,那么說明擬合模型非常好。
后面可以利用此模型用于預測其它“沒有確定類別”的數(shù)據(jù),來預測新數(shù)據(jù)的類別情況。
判別分析的方法
判別分析中,根據(jù)資料的性質,分為定性資料的判別分析和定量資料的判別分析;采用不同的判別準則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當?shù)耐队拜S,使所有的樣品點都投影到這個軸上得到一個投影值。
對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。
貝葉斯(BAYES)判別思想是根據(jù)先驗概率求出后驗概率,并依據(jù)后驗概率分布作出統(tǒng)計推斷。
所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂后驗概率,就是根據(jù)具體資料、先驗概率、特定的判別規(guī)則所計算出來的概率。它是對先驗概率修正后的結果。
距離判別思想是根據(jù)各樣品與各母體之間的距離遠近作出判別。即根據(jù)資料建立關于各母體的距離判別函數(shù)式,將各樣品數(shù)據(jù)逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬于距離值最小的那個母體。
判別分析經(jīng)典案例
本案例是判別分析鼻祖Fisher當年對鳶尾花觀測的分析數(shù)據(jù)。
其中藍色箭頭表示的量相當于分類變量,含有三個水平,分別為1、2、3,代表剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花。
紅框中的四個變量是測量變量,為數(shù)值型變量,分別表示花萼長、寬和花瓣長、寬。
我們的目的是通過這四個數(shù)值型變量,對未知的鳶毛花各類進行判別。

要注意的是,在判別分析中,輸入型變量必須是數(shù)值型的,而輸出變量必須是分類型的。
操作步驟
在Spss中打開“分析”—“分類”—“判別”,將分類型的輸出變量拖入到“分組變量”中;將其余四個數(shù)值型輸入變量拖入到。
Spss提供了“一起輸入”和“步進方法”,用戶可根據(jù)自己需求,是決定讓所有輸入變量一起參與判別函數(shù)的建構,還是先篩選再進入。

結果解讀
點擊確定后,Spss給出描述性統(tǒng)計分析結果,如下:


下面3圖是對判別分析的進一步描述。
第一張表格:
表示了兩個判別函數(shù)的特征根情況。表中只給出了兩個判別函數(shù),其中第一判別函數(shù)所攜帶的信息量遠遠大于第二判別函數(shù),其所解釋的組間方差也占絕大多數(shù)。
注意后面有一列為典型相關系數(shù),這個系數(shù)表示了不同分組與第一、二判別函數(shù)的相關性,相關性越強,則組別在此維度上的差異越大;反之,則此組別在此維度上的差異越小。
第二張表格:
對兩個函數(shù)的WiksLamdba檢驗。
結果顯示兩個判別函數(shù)均具有統(tǒng)計學上的意義,即Sig小于0.05.
第三張表格:
給出了標準化后的判別系數(shù)。其表示了不同的輸入變量對第一、二判別函數(shù)的貢獻率。
可以把第三張表格寫成線性形式,要注意這是標準化后的判別系數(shù),是沒有常數(shù)項的。

下面2圖是對判別分析的再進一步描述:
第一張表格:
結構矩陣表,此結構矩陣表示了不同的輸入變量與第一、二判別函數(shù)的相關性。
通過圖表可知,與第一判別函數(shù)相關性最強的是花瓣長,第二判別函數(shù)相關的是其余的三個輸入變量。
結構矩陣和之前的標準化后的函數(shù)系數(shù)不一樣,雖然它們的分布趨勢一致,但一個可以直接寫成標準化的第一、二差別函數(shù),而一個只是表示這彼此間的相關性而已。
第二個表格:
顯示了不同組別在第一、二判別函數(shù)構成的平面圖上的分布重心。前面有用WilksLambda統(tǒng)計量對第一二函數(shù)進行檢驗,檢驗的就是這兩個向量在各組得分是否相等。
第二張表格,我們得到了不同組別在二維圖上的坐標,這樣只要計算出了新數(shù)據(jù)的坐標,然后比較其與哪個組別中心點距離近,就可以判別其為哪個類別了。

如果不想使用Spss提供的標準化后的第一、二判別函數(shù),可通過在設置面板的設置,得到如下圖的,未標準化的第一二判別函數(shù)的系數(shù)。
使用此系數(shù),可以計算出新的數(shù)據(jù)的坐標。

判別結果的圖形化展示
Spss為判別分析提供了三種圖形化展示方式。分別為:
↘領域圖
↘單獨分布圖
↘聯(lián)合分布圖
下面介紹聯(lián)合分布圖。下圖聯(lián)合分布顯示三個類別很顯著地彼此區(qū)別開。
如果想預測新紀錄,只需要輸入相應位置,在聯(lián)合分布圖中會顯示出新數(shù)據(jù)的位置,通過位置,我們就能差別新數(shù)據(jù)是哪一類別的。

判別效果驗證
判別效果的驗證解讀是對原數(shù)據(jù)進行一次判別,然后把決的判別情況匯總起來。

適用條件判斷
使用判別分析時,輸入變量在各組間的均值必須是顯著性差異,組間方差越大越好。
下表是對各輸入變量在不同類別組的均值分布情況,從均值檢驗可知,各組間具有顯著性差異。此為單因素方差分析的表格。
