非平衡數(shù)據(jù)處理SMOTE的改良算法-borderline SMOTE, ADASYN
20 世紀 90 年代末,當時南佛羅里達大學的研究生 Niesh V Chawla(SMOTE 背后的主要大腦)正在研究二元分類問題。他正在處理乳房 X 光檢查圖像,他的任務是構建一個分類器,該分類器將像素作為輸入,并將其分類為正常像素或癌變像素。當他達到 97% 的分類準確率時,他非常高興。當他看到 97.6% 的像素都是正常的時,他的快樂是短暫的。
您可能會想,問題出在哪里?有兩個問題
假設在 100 個像素的樣本中,98 個像素是正常的,2 個是癌變的,如果我們編寫一個程序,它可以預測任何情況都是正常的。分類準確率是多少?高達98%。程序?qū)W會了嗎?一點也不。
還有一個問題。分類器努力在訓練數(shù)據(jù)中獲得良好的性能,并且隨著正常觀察的增多,它們將更多地專注于學習“正?!鳖惖哪J?/strong>。這就像任何學生知道 98% 的問題來自代數(shù)而 2% 來自三角學時會做的那樣。他們會安全地忽略三角函數(shù)
那么,為什么會出現(xiàn)這個問題,是因為班級的頻率或數(shù)量之間存在很大的差異。我們稱這樣的數(shù)據(jù)集為表現(xiàn)類別不平衡的數(shù)據(jù)集。正常類稱為多數(shù)類,稀有類稱為少數(shù)類。

這在現(xiàn)實生活中的應用中存在嗎?以垃圾郵件檢測、假新聞檢測、欺詐檢測、可疑活動檢測、入侵檢測等為例,類別不平衡問題就表現(xiàn)出來了。
帶來一些平衡的解決方案:
基本方法稱為重采樣技術。有兩種基本方法。
欠采樣:-

我們從多數(shù)類中隨機抽取樣本,并使其等于少數(shù)類的數(shù)量。這稱為多數(shù)類的欠采樣或下采樣。
問題:忽略或放棄如此多的原始數(shù)據(jù)并不是一個好主意。
過采樣:-

在這里,對少數(shù)類應用放回抽樣,以創(chuàng)建與多數(shù)類中一樣多的觀測值,并且兩個類是平衡的。這稱為少數(shù)類的過采樣或上采樣。
問題:重復相同的少數(shù)類數(shù)據(jù)會導致過度擬合。
SMOTE:
SMOTE的完整形式,即綜合少數(shù)群體采樣技術。這里綜合觀察是從少數(shù)類生成的。

假設有來自少數(shù)類的兩個觀察值 (x1,y1) 和 (x2,y2)。第一步,創(chuàng)建一個 0 到 1 之間的隨機數(shù),我們稱之為 r。合成點將為 (x1 + r*(x2 -x1), y1 + r*(y2 -y1))。下面的例子進一步說明了這一點。

SMOTE 的一個問題:

如果少數(shù)類中的樣本是較遠的并出現(xiàn)在多數(shù)類中,合成新數(shù)據(jù)會造成類別錯誤,這是SMOTE算法缺陷。
Borderline SMOTE:
Borderline SMOTE是SMOTE算法改良版本,并這解決了上述問題。

該算法首先對少數(shù)類觀測值進行分類。如果所有鄰居都是多數(shù)類,并且在創(chuàng)建合成數(shù)據(jù)時忽略這些樣本數(shù)據(jù)(類似于 DBSCAN),它將任何少數(shù)觀察結果分類為噪聲點。此外,它將一些點分類為邊界點,這些點同時具有多數(shù)類和少數(shù)類作為鄰域,并從這些點完全重新采樣(支持向量通常會關注的極端觀察)。
ADASYN:
ADASYN 是一個更通用的框架,對于每個少數(shù)觀測值,它首先通過采用鄰域中多數(shù)觀測值與 k 的比率來找到鄰域的雜質(zhì)。

現(xiàn)在,首先,通過將總和設為 1,將該雜質(zhì)比率轉(zhuǎn)換為概率分布。然后,比率越高,為該特定點生成的合成點就越多。因此,為 Obs 3 創(chuàng)建的綜合觀測數(shù)量將是 Obs 2 的兩倍。所以它不像Borderline SMOTE那么極端,并且噪聲點、邊界點和常規(guī)少數(shù)點之間的邊界要柔和得多。(不是硬性邊界)。因此得名適應性。
結尾:
類別不平衡是機器學習一個非常實際的問題,特別實在金融風控領域,欺詐客戶占比一般低于2%?;谥夭蓸拥姆椒ㄐЧ患?,這促使大家開發(fā) SMOTE,并通過borderline SMOTE、ADASYN 等逐漸優(yōu)化新采樣算法。
歡迎學習更多風控建模相關知識《python金融風控評分卡模型和數(shù)據(jù)分析微專業(yè)課》。

我們公司提供一對一機器學習模型定制服務,用于企業(yè)建模,論文定制服務,提供公司正規(guī)發(fā)票,有需求給up主留言。

版權聲明:文章來自公眾號(python風控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。