最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

16種常用的數(shù)據(jù)分析方法-判別分析

2021-11-17 15:02 作者:陪學產品經(jīng)理  | 我要投稿



判別分析又稱為線性判別分析(Linear Discriminant Analysis)。產生于20世紀30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統(tǒng)計方法。







判別分析方法目的與特點



目的


判別分析的目的是對已知分類的數(shù)據(jù)建立由數(shù)值指標構成的分類規(guī)則,然后把這樣的 規(guī)則應用到未知分類的樣本去分類。


例如,我們有了患胃炎的病人和健康人的一些化驗指標 ,就可以從這些化驗指標發(fā)現(xiàn)兩類人的區(qū)別,把這種區(qū)別表示為一個判別公式,然后對懷疑 患胃炎的人就可以根據(jù)其化驗指標用判別公式診斷。


特點


因此,判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結出客觀事物分類的規(guī)律性,建立判別公式和判別準則。


當遇到新的樣本點時,只要根據(jù)總結出來的判別公式和判別準則,就能判別該樣本點所屬的類別。


判別分析按照判別的組數(shù)來區(qū)分,可以分為兩組判別分析和多組判別分析。


原理說明


判別分析時,通常需要將數(shù)據(jù)分為兩部分。一部分是訓練模型數(shù)據(jù),一部分是驗證模型數(shù)據(jù)。


首先通過訓練集數(shù)據(jù)訓練擬合出一個模型。接著再利用另一部分驗證模型效果。如果在測試集數(shù)據(jù)上,也表現(xiàn)良好,那么說明擬合模型非常好。


后面可以利用此模型用于預測其它“沒有確定類別”的數(shù)據(jù),來預測新數(shù)據(jù)的類別情況。


判別分析的方法


判別分析中,根據(jù)資料的性質,分為定性資料的判別分析和定量資料的判別分析;采用不同的判別準則,又有費歇、貝葉斯、距離等判別方法。


費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當?shù)耐队拜S,使所有的樣品點都投影到這個軸上得到一個投影值。


對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。


貝葉斯(BAYES)判別思想是根據(jù)先驗概率求出后驗概率,并依據(jù)后驗概率分布作出統(tǒng)計推斷。


所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂后驗概率,就是根據(jù)具體資料、先驗概率、特定的判別規(guī)則所計算出來的概率。它是對先驗概率修正后的結果。


距離判別思想是根據(jù)各樣品與各母體之間的距離遠近作出判別。即根據(jù)資料建立關于各母體的距離判別函數(shù)式,將各樣品數(shù)據(jù)逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬于距離值最小的那個母體。






判別分析經(jīng)典案例




本案例是判別分析鼻祖Fisher當年對鳶尾花觀測的分析數(shù)據(jù)。


其中藍色箭頭表示的量相當于分類變量,含有三個水平,分別為1、2、3,代表剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花。


紅框中的四個變量是測量變量,為數(shù)值型變量,分別表示花萼長、寬和花瓣長、寬。


我們的目的是通過這四個數(shù)值型變量,對未知的鳶毛花各類進行判別。



要注意的是,在判別分析中,輸入型變量必須是數(shù)值型的,而輸出變量必須是分類型的。


操作步驟


在Spss中打開“分析”—“分類”—“判別”,將分類型的輸出變量拖入到“分組變量”中;將其余四個數(shù)值型輸入變量拖入到。


Spss提供了“一起輸入”和“步進方法”,用戶可根據(jù)自己需求,是決定讓所有輸入變量一起參與判別函數(shù)的建構,還是先篩選再進入。



結果解讀


點擊確定后,Spss給出描述性統(tǒng)計分析結果,如下:




下面3圖是對判別分析的進一步描述。


第一張表格:



表示了兩個判別函數(shù)的特征根情況。表中只給出了兩個判別函數(shù),其中第一判別函數(shù)所攜帶的信息量遠遠大于第二判別函數(shù),其所解釋的組間方差也占絕大多數(shù)。


注意后面有一列為典型相關系數(shù),這個系數(shù)表示了不同分組與第一、二判別函數(shù)的相關性,相關性越強,則組別在此維度上的差異越大;反之,則此組別在此維度上的差異越小。


第二張表格:


對兩個函數(shù)的WiksLamdba檢驗。


結果顯示兩個判別函數(shù)均具有統(tǒng)計學上的意義,即Sig小于0.05.


第三張表格:


給出了標準化后的判別系數(shù)。其表示了不同的輸入變量對第一、二判別函數(shù)的貢獻率。


可以把第三張表格寫成線性形式,要注意這是標準化后的判別系數(shù),是沒有常數(shù)項的。



下面2圖是對判別分析的再進一步描述:


第一張表格:


結構矩陣表,此結構矩陣表示了不同的輸入變量與第一、二判別函數(shù)的相關性。


通過圖表可知,與第一判別函數(shù)相關性最強的是花瓣長,第二判別函數(shù)相關的是其余的三個輸入變量。


結構矩陣和之前的標準化后的函數(shù)系數(shù)不一樣,雖然它們的分布趨勢一致,但一個可以直接寫成標準化的第一、二差別函數(shù),而一個只是表示這彼此間的相關性而已。


第二個表格:


顯示了不同組別在第一、二判別函數(shù)構成的平面圖上的分布重心。前面有用WilksLambda統(tǒng)計量對第一二函數(shù)進行檢驗,檢驗的就是這兩個向量在各組得分是否相等。


第二張表格,我們得到了不同組別在二維圖上的坐標,這樣只要計算出了新數(shù)據(jù)的坐標,然后比較其與哪個組別中心點距離近,就可以判別其為哪個類別了。




如果不想使用Spss提供的標準化后的第一、二判別函數(shù),可通過在設置面板的設置,得到如下圖的,未標準化的第一二判別函數(shù)的系數(shù)。


使用此系數(shù),可以計算出新的數(shù)據(jù)的坐標。








判別結果的圖形化展示



Spss為判別分析提供了三種圖形化展示方式。分別為:


↘領域圖

↘單獨分布圖

↘聯(lián)合分布圖


下面介紹聯(lián)合分布圖。下圖聯(lián)合分布顯示三個類別很顯著地彼此區(qū)別開。


如果想預測新紀錄,只需要輸入相應位置,在聯(lián)合分布圖中會顯示出新數(shù)據(jù)的位置,通過位置,我們就能差別新數(shù)據(jù)是哪一類別的。



判別效果驗證


判別效果的驗證解讀是對原數(shù)據(jù)進行一次判別,然后把決的判別情況匯總起來。




適用條件判斷


使用判別分析時,輸入變量在各組間的均值必須是顯著性差異,組間方差越大越好。


下表是對各輸入變量在不同類別組的均值分布情況,從均值檢驗可知,各組間具有顯著性差異。此為單因素方差分析的表格。





16種常用的數(shù)據(jù)分析方法-判別分析的評論 (共 條)

分享到微博請遵守國家法律
卫辉市| 八宿县| 霍林郭勒市| 蒙阴县| 商丘市| 莱芜市| 吉林市| 故城县| 嘉义市| 临洮县| 阿坝县| 安仁县| 淳安县| 吴桥县| 甘肃省| 福泉市| 大邑县| 高密市| 长宁区| 教育| 崇州市| 凤阳县| 五峰| 梓潼县| 张家川| 江达县| 新乡市| 白玉县| 旌德县| 尚义县| 田东县| 青川县| 宣汉县| 子长县| 延寿县| 宁波市| 临桂县| 靖宇县| 明水县| 黎川县| 宣汉县|