手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學習 » 16種常用的數(shù)據(jù)分析方法-判別分析

16種常用的數(shù)據(jù)分析方法-判別分析

2021-11-17 15:02 作者:陪學產品經(jīng)理 0人讀過 | 我要投稿

判別分析又稱為線性判別分析（Linear Discriminant Analysis）。產生于20世紀30年代，是利用已知類別的樣本建立判別模型，為未知類別的樣本判別的一種統(tǒng)計方法。

判別分析方法目的與特點

目的

判別分析的目的是對已知分類的數(shù)據(jù)建立由數(shù)值指標構成的分類規(guī)則，然后把這樣的規(guī)則應用到未知分類的樣本去分類。

例如，我們有了患胃炎的病人和健康人的一些化驗指標，就可以從這些化驗指標發(fā)現(xiàn)兩類人的區(qū)別，把這種區(qū)別表示為一個判別公式，然后對懷疑患胃炎的人就可以根據(jù)其化驗指標用判別公式診斷。

特點

因此，判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息，總結出客觀事物分類的規(guī)律性，建立判別公式和判別準則。

當遇到新的樣本點時，只要根據(jù)總結出來的判別公式和判別準則，就能判別該樣本點所屬的類別。

判別分析按照判別的組數(shù)來區(qū)分，可以分為兩組判別分析和多組判別分析。

原理說明

判別分析時，通常需要將數(shù)據(jù)分為兩部分。一部分是訓練模型數(shù)據(jù)，一部分是驗證模型數(shù)據(jù)。

首先通過訓練集數(shù)據(jù)訓練擬合出一個模型。接著再利用另一部分驗證模型效果。如果在測試集數(shù)據(jù)上，也表現(xiàn)良好，那么說明擬合模型非常好。

后面可以利用此模型用于預測其它“沒有確定類別”的數(shù)據(jù)，來預測新數(shù)據(jù)的類別情況。

判別分析的方法

判別分析中，根據(jù)資料的性質，分為定性資料的判別分析和定量資料的判別分析；采用不同的判別準則，又有費歇、貝葉斯、距離等判別方法。

費歇（FISHER）判別思想是投影，使多維問題簡化為一維問題來處理。選擇一個適當?shù)耐队拜S,使所有的樣品點都投影到這個軸上得到一個投影值。

對這個投影軸的方向的要求是：使每一類內的投影值所形成的類內離差盡可能小，而不同類間的投影值所形成的類間離差盡可能大。

貝葉斯（BAYES）判別思想是根據(jù)先驗概率求出后驗概率，并依據(jù)后驗概率分布作出統(tǒng)計推斷。

所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度；所謂后驗概率，就是根據(jù)具體資料、先驗概率、特定的判別規(guī)則所計算出來的概率。它是對先驗概率修正后的結果。

距離判別思想是根據(jù)各樣品與各母體之間的距離遠近作出判別。即根據(jù)資料建立關于各母體的距離判別函數(shù)式，將各樣品數(shù)據(jù)逐一代入計算，得出各樣品與各母體之間的距離值，判樣品屬于距離值最小的那個母體。

判別分析經(jīng)典案例

本案例是判別分析鼻祖Fisher當年對鳶尾花觀測的分析數(shù)據(jù)。

其中藍色箭頭表示的量相當于分類變量，含有三個水平，分別為1、2、3，代表剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花。

紅框中的四個變量是測量變量，為數(shù)值型變量，分別表示花萼長、寬和花瓣長、寬。

我們的目的是通過這四個數(shù)值型變量，對未知的鳶毛花各類進行判別。

要注意的是，在判別分析中，輸入型變量必須是數(shù)值型的，而輸出變量必須是分類型的。

操作步驟

在Spss中打開“分析”—“分類”—“判別”，將分類型的輸出變量拖入到“分組變量”中；將其余四個數(shù)值型輸入變量拖入到。

Spss提供了“一起輸入”和“步進方法”，用戶可根據(jù)自己需求，是決定讓所有輸入變量一起參與判別函數(shù)的建構，還是先篩選再進入。

結果解讀

點擊確定后，Spss給出描述性統(tǒng)計分析結果，如下：

下面3圖是對判別分析的進一步描述。

第一張表格：

表示了兩個判別函數(shù)的特征根情況。表中只給出了兩個判別函數(shù)，其中第一判別函數(shù)所攜帶的信息量遠遠大于第二判別函數(shù)，其所解釋的組間方差也占絕大多數(shù)。

注意后面有一列為典型相關系數(shù)，這個系數(shù)表示了不同分組與第一、二判別函數(shù)的相關性，相關性越強，則組別在此維度上的差異越大；反之，則此組別在此維度上的差異越小。

第二張表格：

對兩個函數(shù)的WiksLamdba檢驗。

結果顯示兩個判別函數(shù)均具有統(tǒng)計學上的意義，即Sig小于0.05.

第三張表格：

給出了標準化后的判別系數(shù)。其表示了不同的輸入變量對第一、二判別函數(shù)的貢獻率。

可以把第三張表格寫成線性形式，要注意這是標準化后的判別系數(shù)，是沒有常數(shù)項的。

下面2圖是對判別分析的再進一步描述：

第一張表格：

結構矩陣表，此結構矩陣表示了不同的輸入變量與第一、二判別函數(shù)的相關性。

通過圖表可知，與第一判別函數(shù)相關性最強的是花瓣長，第二判別函數(shù)相關的是其余的三個輸入變量。

結構矩陣和之前的標準化后的函數(shù)系數(shù)不一樣，雖然它們的分布趨勢一致，但一個可以直接寫成標準化的第一、二差別函數(shù)，而一個只是表示這彼此間的相關性而已。

第二個表格：

顯示了不同組別在第一、二判別函數(shù)構成的平面圖上的分布重心。前面有用WilksLambda統(tǒng)計量對第一二函數(shù)進行檢驗，檢驗的就是這兩個向量在各組得分是否相等。

第二張表格，我們得到了不同組別在二維圖上的坐標，這樣只要計算出了新數(shù)據(jù)的坐標，然后比較其與哪個組別中心點距離近，就可以判別其為哪個類別了。

如果不想使用Spss提供的標準化后的第一、二判別函數(shù)，可通過在設置面板的設置，得到如下圖的，未標準化的第一二判別函數(shù)的系數(shù)。

使用此系數(shù)，可以計算出新的數(shù)據(jù)的坐標。

判別結果的圖形化展示

Spss為判別分析提供了三種圖形化展示方式。分別為：

↘領域圖

↘單獨分布圖

↘聯(lián)合分布圖

下面介紹聯(lián)合分布圖。下圖聯(lián)合分布顯示三個類別很顯著地彼此區(qū)別開。

如果想預測新紀錄，只需要輸入相應位置，在聯(lián)合分布圖中會顯示出新數(shù)據(jù)的位置，通過位置，我們就能差別新數(shù)據(jù)是哪一類別的。

判別效果驗證

判別效果的驗證解讀是對原數(shù)據(jù)進行一次判別，然后把決的判別情況匯總起來。

適用條件判斷

使用判別分析時，輸入變量在各組間的均值必須是顯著性差異，組間方差越大越好。

下表是對各輸入變量在不同類別組的均值分布情況，從均值檢驗可知，各組間具有顯著性差異。此為單因素方差分析的表格。

標簽：

16種常用的數(shù)據(jù)分析方法-判別分析的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

16種常用的數(shù)據(jù)分析方法-判別分析

16種常用的數(shù)據(jù)分析方法-判別分析的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

16種常用的數(shù)據(jù)分析方法-判別分析

本文作者的其他文章

16種常用的數(shù)據(jù)分析方法-判別分析的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

16種常用的數(shù)據(jù)分析方法-判別分析的評論 (共條)