最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

imbalanced data機(jī)器學(xué)習(xí)非平衡數(shù)據(jù)處理

2021-06-15 11:01 作者:python風(fēng)控模型  | 我要投稿


理想數(shù)據(jù)集正負(fù)樣本是均等的,這有利于機(jī)器學(xué)習(xí)模型訓(xùn)練。

現(xiàn)實(shí)中正負(fù)樣本常常不均等,而且正負(fù)樣本比例相差甚大,如下圖橘紅色樣本僅占10%左右。

什么是非平衡數(shù)據(jù)集?當(dāng)正負(fù)樣本占比相差過(guò)大時(shí),就是非平衡數(shù)據(jù)集。如下圖負(fù)面樣本僅占0.001,屬于典型非平衡數(shù)據(jù)集。

匯總對(duì)比一下理想數(shù)據(jù)分布情況和正負(fù)樣本不均情況。

下面是非平衡數(shù)據(jù)點(diǎn)狀圖分布

非平衡數(shù)據(jù)集在現(xiàn)實(shí)生活中有非常多應(yīng)用。常見(jiàn)下述情況:反欺詐探測(cè),醫(yī)療診斷,石油泄漏偵查,面部識(shí)別,異常值檢測(cè)。

非平衡數(shù)據(jù)例子1:從海面衛(wèi)星雷達(dá)圖像檢測(cè)漏油

如下圖,石油泄漏面積僅占海洋區(qū)域非常小比例,難以發(fā)現(xiàn),屬于經(jīng)典非平衡數(shù)據(jù)例子

非平衡數(shù)據(jù)例子2:癌細(xì)胞診斷和預(yù)測(cè)

癌細(xì)胞僅占正常細(xì)胞非常小比例,也屬于經(jīng)典非平衡數(shù)據(jù)處理例子。

非平衡數(shù)據(jù)例子3:反欺詐

1.交易支付詐騙

2.電信詐騙

3.職工詐騙,欺詐群體一般占總?cè)巳?%

在銀行,消費(fèi)金融,金融科技公司做過(guò)反欺詐的朋友都知道,真實(shí)場(chǎng)景中欺詐客戶常常在

2%左右,甚至更低。風(fēng)控模型對(duì)于捕捉欺詐客戶非常吃力,因?yàn)槟P陀?xùn)練數(shù)據(jù)時(shí)就會(huì)遇到壞客戶占比太低的難題。

機(jī)器學(xué)習(xí)領(lǐng)域有的很多解決非平衡數(shù)據(jù)的方法,我羅列了一些常用的方法,包括

Under sampling欠采樣

Over sampling過(guò)采樣

SMOTE(synthetic minority over0sampling technique)非直接對(duì)少數(shù)類進(jìn)行重采樣,而是設(shè)計(jì)算法來(lái)人工合成一些新的少數(shù)樣本。實(shí)際測(cè)試中,此方法效果較好

class_weight參數(shù)調(diào)整

其它算法解決方案

數(shù)據(jù)分析中的過(guò)采樣和欠采樣是用于調(diào)整數(shù)據(jù)集的類分布(即所表示的不同類/類別之間的比率)的技術(shù)。這些術(shù)語(yǔ)用于統(tǒng)計(jì)抽樣、調(diào)查設(shè)計(jì)方法和機(jī)器學(xué)習(xí)。過(guò)采樣和欠采樣是相反且大致等效的技術(shù)。過(guò)采樣和欠采樣原理如下圖:


SMOTE

有多種方法可用于對(duì)典型分類問(wèn)題中使用的數(shù)據(jù)集進(jìn)行過(guò)采樣(使用分類算法對(duì)一組圖像進(jìn)行分類,給定一組帶標(biāo)簽的訓(xùn)練圖像)。最常見(jiàn)的技術(shù)被稱為 SMOTE:合成少數(shù)過(guò)采樣技術(shù)。[4]為了說(shuō)明這種技術(shù)是如何工作的,考慮一些訓(xùn)練數(shù)據(jù),其中有s 個(gè)樣本,以及數(shù)據(jù)特征空間中的f 個(gè)特征。請(qǐng)注意,為簡(jiǎn)單起見(jiàn),這些特征是連續(xù)的。例如,考慮用于分類的鳥(niǎo)類數(shù)據(jù)集。我們想要對(duì)其進(jìn)行過(guò)采樣的少數(shù)類的特征空間可以是喙長(zhǎng)、翼展和重量(都是連續(xù)的)。為了過(guò)采樣,從數(shù)據(jù)集中取一個(gè)樣本,并考慮它的k 個(gè)最近鄰(在特征空間中)。要?jiǎng)?chuàng)建合成數(shù)據(jù)點(diǎn),請(qǐng)獲取這k 個(gè)鄰居之一與當(dāng)前數(shù)據(jù)點(diǎn)之間的向量。將此向量乘以介于 0 和 1 之間的隨機(jī)數(shù)x。將其添加到當(dāng)前數(shù)據(jù)點(diǎn)以創(chuàng)建新的合成數(shù)據(jù)點(diǎn)。

如果看不懂smote術(shù)語(yǔ)解釋沒(méi)關(guān)系,我用可視化圖解smote原理。

如下圖,紅色數(shù)據(jù)是minority class,即占比較小的數(shù)據(jù)集,一共只有4個(gè)。

綠色數(shù)據(jù)是majority class,即占比較大的數(shù)據(jù)集,一共13個(gè)。

為了訓(xùn)練模型時(shí)解決非平衡數(shù)據(jù)問(wèn)題,我們使用smote方法。

我們通過(guò)向量方法鏈接四個(gè)紅色點(diǎn),新的數(shù)據(jù)(創(chuàng)造的偽數(shù)據(jù))就會(huì)出現(xiàn)在紅色點(diǎn)鏈接的線上。

大家看,新創(chuàng)造的8個(gè)點(diǎn)出現(xiàn)在紅色點(diǎn)鏈接的線上。這樣紅色數(shù)據(jù)集就有12個(gè),藍(lán)色數(shù)據(jù)集有13個(gè),基本是5:5平衡了。

通過(guò)上述smote方法,我們解決了非平衡數(shù)據(jù)問(wèn)題。


ADASYN

ADASYN是smote方法升級(jí)版。自適應(yīng)合成采樣方法或 ADASYN 算法建立在SMOTE方法的基礎(chǔ)上,通過(guò)將分類邊界的重要性轉(zhuǎn)移到那些困難的少數(shù)類。ADASYN 根據(jù)學(xué)習(xí)難度對(duì)不同的少數(shù)類示例使用加權(quán)分布,其中為更難學(xué)習(xí)的少數(shù)類示例生成更多合成數(shù)據(jù)。


增強(qiáng)技術(shù)

數(shù)據(jù)分析中的數(shù)據(jù)增強(qiáng)是用于通過(guò)添加對(duì)現(xiàn)有數(shù)據(jù)或從現(xiàn)有數(shù)據(jù)新創(chuàng)建的合成數(shù)據(jù)稍加修改的副本來(lái)增加數(shù)據(jù)量的技術(shù)。它充當(dāng)正則化器,有助于在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)減少過(guò)度擬合。


非平衡數(shù)據(jù)處理副作用

非平衡數(shù)據(jù)處理方法不是萬(wàn)能的,使用要非常小心,最好是機(jī)器學(xué)習(xí)經(jīng)驗(yàn)豐富的朋友來(lái)處理較好。過(guò)采樣,欠采樣或smote方法都可能引起過(guò)擬合問(wèn)題,這會(huì)導(dǎo)致模型過(guò)于具體。訓(xùn)練集的準(zhǔn)確性很可能是很高的情況,但是新數(shù)據(jù)集的性能實(shí)際上卻很差。

如果想了解真實(shí)非平衡數(shù)據(jù)處理案例和python腳本解決方案,歡迎學(xué)習(xí)《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析》課程:https://ke.qq.com/course/package/35588?tuin=dcbf0ba

此課程包含如何應(yīng)用算法處理非平衡數(shù)據(jù)問(wèn)題,并且顯著提升模型性能,包括ks,auc,可謂一石二鳥(niǎo)。

生成smote的python腳本如下


imbalanced data機(jī)器學(xué)習(xí)非平衡數(shù)據(jù)處理的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
丰原市| 峨山| 咸阳市| 阳曲县| 哈巴河县| 抚松县| 卢氏县| 德清县| 宣汉县| 邮箱| 遂川县| 大兴区| 岗巴县| 平湖市| 芜湖市| 高清| 安庆市| 墨脱县| 梧州市| 瑞金市| 绥阳县| 玛多县| 南乐县| 子洲县| 合水县| 磴口县| 衡东县| 井冈山市| 文安县| 开封市| 布拖县| 永年县| 樟树市| 新泰市| 黑龙江省| 城口县| 呼图壁县| 桂平市| 江永县| 蒙阴县| 花垣县|