最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

如何對非均衡數(shù)據(jù)進(jìn)行精準(zhǔn)預(yù)測建模?

2021-08-23 15:51 作者:JMP數(shù)據(jù)分析  | 我要投稿

在分析數(shù)據(jù)時(shí),我們常常需要做一些預(yù)測,例如根據(jù)用戶的商品購買數(shù)據(jù),預(yù)測該用戶是否對某個(gè)產(chǎn)品感興趣;根據(jù)信用卡申請人的消費(fèi)行為數(shù)據(jù),預(yù)測該用戶的還款行為是否可能進(jìn)行逾期等等。

但有時(shí)候我們會(huì)發(fā)現(xiàn),原始的數(shù)據(jù)集中要預(yù)測的Y變量,兩類的數(shù)量差距非常大,比如,對某產(chǎn)品感興趣的用戶數(shù)遠(yuǎn)小于不感興趣的用戶數(shù),有逾期記錄的用戶數(shù)遠(yuǎn)小于沒有逾期記錄的用戶數(shù)。類似這樣的數(shù)據(jù),被稱為非均衡數(shù)據(jù),如果直接用傳統(tǒng)的預(yù)測方法可能造成預(yù)測效果的不理想,那么對于這樣的非均衡數(shù)據(jù)的預(yù)測問題,有什么樣的好辦法呢?

莫慌!JMP可以完美解決此類問題。

今天我們就來探討下非均衡數(shù)據(jù)的精準(zhǔn)預(yù)測。


#01 非均衡數(shù)據(jù)問題有哪些特征?

通常來說,非均衡數(shù)據(jù)往往具備以下一些特征。

  • 響應(yīng)變量Y僅有2個(gè)水平。其中一個(gè)水平的數(shù)量>>另一個(gè)水平的數(shù)量;數(shù)量多的水平成為多數(shù)水平,數(shù)量少的水平稱為少數(shù)水平。

  • 少數(shù)水平通常是們感興趣的水平。例如欺詐、疾病、信用風(fēng)險(xiǎn)的檢測。

  • 我們希望基于自變量來預(yù)測所屬類別。

  • 我們需要建立預(yù)測模型,計(jì)算每一個(gè)樣本屬于少數(shù)水平的概率p.

  • 我們選擇一個(gè)閾值來優(yōu)化各種標(biāo)準(zhǔn),如誤分類率、真陽性率、假陽性率、準(zhǔn)確率、召回率等。

  • 我們將其預(yù)測的概率p(或得分)超過閾值的觀察結(jié)果分類為少數(shù)類。

#02 如何建立分類模型?

  • 通常情況下,一些傳統(tǒng)的分類精度指標(biāo)往往不適用于不平衡數(shù)據(jù)。

例如,考慮少數(shù)水平數(shù)占2%的情況。你可以簡單地將所有的觀測劃分為多數(shù)水平所在的類別,便可以達(dá)到98%的準(zhǔn)確率。

  • 精度-召回率(PR)曲線常用于不平衡數(shù)據(jù)。

PR曲線比ROC曲線對階級不平衡更敏感。因此,PR曲線能夠更好地突出不平衡數(shù)據(jù)模型的差異。

#03 抽樣方法的選擇

運(yùn)用合理的抽樣方法可以幫助對少數(shù)類進(jìn)行建模。

使用抽樣方法的目的是使分布更加平衡,或更好地劃定大多數(shù)和少數(shù)類觀察之間的邊界。

JMP中的不平衡分類插件實(shí)現(xiàn)了7種采樣技術(shù):

  • 無加權(quán)法

不對原始數(shù)據(jù)進(jìn)行更改。

  • 加權(quán)法

對少數(shù)水平類的觀測進(jìn)行加權(quán)(權(quán)重為多數(shù)水平數(shù)/少數(shù)水平數(shù))。

  • 隨機(jī)欠采樣法

隨機(jī)刪去多數(shù)水平類中的觀測,使得兩個(gè)水平的數(shù)量相等。

  • 隨機(jī)過采樣法

隨機(jī)選擇少數(shù)水平類中的觀測,再次添加到總體中,使得兩個(gè)水平的數(shù)量相等。

  • SMOTE方法

一種更復(fù)雜的過采樣方法,添加更多的少數(shù)水平類案例生成與現(xiàn)有少數(shù)水平觀測相似的新數(shù)據(jù)觀測,而不是簡單地復(fù)制它們,對少數(shù)類觀測結(jié)果執(zhí)行K個(gè)最近鄰生成,填充由近鄰定義的空間。

  • Tomek Links方法

試圖更好地界定少數(shù)和多數(shù)階級之間的界限。從大多數(shù)類中移除與少數(shù)類“接近”的觀察結(jié)果,以更好地定義簇邊界。

Tomek Links是屬于不同類別的一對最近的鄰居。為了減少多數(shù)和少數(shù)實(shí)例的重疊,可以刪除一對中的一個(gè)或兩個(gè)觀測。

  • MOTE plus Tomek方法

MOTE plus Tomek方法是上面兩種方法的結(jié)合。

首先,采用SMOTE算法生成新的少數(shù)觀測值;

然后,利用新生成的觀測結(jié)果,應(yīng)用Tomek算法找到屬于不同類別的最近鄰對。


下面,我們以一個(gè)案例來進(jìn)行應(yīng)用。


#01 數(shù)據(jù)集說明

這里選用來自某銀行的客戶信用卡逾期數(shù)據(jù),一共7529條觀測,每行觀測代表單個(gè)客戶的信息,列變量分別為:

1) ID-客戶ID

2) Bad-是否逾期超過90天

3) Age-年齡

4) Gender-性別

5) Monthly Income-月收入

6) Dependent-家庭成員數(shù)(不包括本人)

7) Debtratio-每月償還債務(wù),贍養(yǎng)費(fèi),生活費(fèi)除以每月總收入

8) Utilization-信用額度

9) Num_Line-貸款數(shù)額

10)Num Loan-貸款數(shù)量

11)Del_30-逾期30-59天

12)Del_60-逾期60-89天

13)Del_90-逾期90天以上的次數(shù)

從因變量Bad的分布情況看,出現(xiàn)逾期超過90天的觀測數(shù)僅占總體的4%,符合我們上文中提到的非均衡數(shù)據(jù)問題。


#02 下載不平衡分類插件

在JMP全球用戶社區(qū)(JMP Community) 下載不平衡分類插件,然后在JMP軟件中直接打開即可。

插件地址:community.jmp.com/t5/JM

插件安裝成功后,會(huì)在軟件的Add-Ins中出現(xiàn)“Imbalanced Classification”的選項(xiàng),選擇次級菜單中的“Evaluate Models”.

友情提示:JMP需要在英文界面才可以正常運(yùn)行此插件,中文界面的用戶,請?jiān)凇拔募?“首選項(xiàng)”-“Windows特定”中,將語言由中文切換為英文。


#03 進(jìn)行精準(zhǔn)模型預(yù)測

接下來,如下圖所示,將因變量“Bad”納入“Binary Class Variable”,其他所有的自變量納入“X,Predictors”,在左側(cè)中間的“Models”可以勾選你想要嘗試的預(yù)測模型,可以選擇的模型包括:樸素貝葉斯分類器、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、提升樹、支持向量機(jī)、廣義回歸。

在左側(cè)下方的“Sampling Techniques”可以勾選你想要嘗試的抽樣技術(shù),包括上文中提到的幾種采樣方法。為了保證結(jié)果的一致性,可以在“Model Options”中設(shè)定隨機(jī)數(shù)種子。


如果將所有模型和所有采樣技術(shù)均勾選上之后,可以得到6x7=42種模型。

運(yùn)行結(jié)果包括4張數(shù)據(jù)表以及一個(gè)交互式分析界面。四張表分別是訓(xùn)練集的結(jié)果、測試集的結(jié)果、各模型采樣方法和閾值的結(jié)果、各模型的比較結(jié)果。

交互式分析界面如下圖所示。

上圖將42個(gè)模型的ROC曲線匯總在了同一張圖片里,上圖右側(cè)是按照ROC曲線下的AUC排序的模型,可以看到Tomek抽樣方法結(jié)合BootstrapForest的預(yù)測方法有著最優(yōu)的效果,AUC高達(dá)0.812.

也可以選擇Precision-Recall曲線進(jìn)行比較,根據(jù)PR曲線下的AUC,可以看到對應(yīng)的模型效果排序。同時(shí),還可以選擇少數(shù)幾個(gè)模型進(jìn)行比較,得到更加清晰的結(jié)果對比。

你也可以拿你的數(shù)據(jù)試試看。?下載最新的JMP 16免費(fèi)試用:

https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002sEGsQAM&utm_source=bilibili&utm_medium=social


JMP官方微信公眾號


如何對非均衡數(shù)據(jù)進(jìn)行精準(zhǔn)預(yù)測建模?的評論 (共 條)

分享到微博請遵守國家法律
永川市| 平南县| 镇雄县| 南陵县| 平潭县| 天峨县| 昌宁县| 郁南县| 宜兰市| 四平市| 北碚区| 阿克苏市| 浦江县| 六盘水市| 望奎县| 句容市| 乐陵市| 宜昌市| 纳雍县| 徐州市| 得荣县| 开原市| 唐山市| 南丹县| 蓬安县| 定兴县| 鹿邑县| 莎车县| 逊克县| 衡阳县| 利川市| 临高县| 阳春市| 出国| 禹城市| 监利县| 敖汉旗| 剑河县| 灵山县| 武邑县| 扬州市|