最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一文掌握機(jī)器學(xué)習(xí)中的三種特征選擇方法

2021-09-22 18:42 作者:深度之眼官方賬號(hào)  | 我要投稿

機(jī)器學(xué)習(xí)中的一個(gè)經(jīng)典理論是:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限。也正因如此,特征工程在機(jī)器學(xué)習(xí)流程中占有著重要地位?!颈疚霓D(zhuǎn)載自公眾號(hào):小數(shù)志】


?


廣義的特征工程一般可分為三個(gè)環(huán)節(jié):特征提取、特征選擇、特征衍生,三個(gè)環(huán)節(jié)并無(wú)明確的先手順序之分。本文主要介紹三種常用的特征選擇方法。


特征選擇是指從眾多可用的特征中選擇一個(gè)子集的過(guò)程,其目的和預(yù)期效果一般有如下三方面考慮:


  • 改善模型效果,主要是通過(guò)過(guò)濾無(wú)效特征或者噪聲特征來(lái)實(shí)現(xiàn)


  • 加速模型訓(xùn)練,更為精簡(jiǎn)的特征空間自然可以實(shí)現(xiàn)模型訓(xùn)練速度的提升


  • 增強(qiáng)特征可解釋性,這方面的作用一般不是特別明顯,比如存在共線性較高的一組特征時(shí),通過(guò)合理的特征選擇可僅保留高效特征,從而提升模型的可解釋性


另一方面,理解特征選擇方法的不同,首先需要按照特征對(duì)訓(xùn)練任務(wù)的價(jià)值高低而對(duì)特征作出如下分類:



高價(jià)值特征


這些特征對(duì)于模型訓(xùn)練非常有幫助,特征選擇的目的就是盡可能精準(zhǔn)的保留這些特征


低價(jià)值特征

這些特征對(duì)模型訓(xùn)練幫助不大,但也屬于正相關(guān)特征,在特征選擇比例較低時(shí),這些特征可以被舍棄;


高相關(guān)性特征

這些特征對(duì)模型訓(xùn)練也非常有幫助,但特征與特征之間往往相關(guān)性較高,換言之一組特征可由另一組特征替代,所以是存在冗余的特征,在特征選擇中應(yīng)當(dāng)將其過(guò)濾掉;


噪聲特征

這些特征對(duì)模型訓(xùn)練不但沒(méi)有正向作用,反而會(huì)干擾模型的訓(xùn)練效果。有效的特征選擇方法應(yīng)當(dāng)優(yōu)先將其濾除。


在實(shí)際應(yīng)用中,特征選擇方法主要可分為如下三類:



本文將圍繞這三種方法分別介紹,最后以sklearn中自帶的數(shù)據(jù)集為例給出簡(jiǎn)單的應(yīng)用和效果對(duì)比。


01 過(guò)濾法


基于過(guò)濾法(Filter)實(shí)現(xiàn)特征選擇是最為簡(jiǎn)單和常用的一種方法,其最大優(yōu)勢(shì)是不依賴于模型,僅從特征的角度來(lái)挖掘其價(jià)值高低,從而實(shí)現(xiàn)特征排序及選擇。


實(shí)際上,基于過(guò)濾法的特征選擇方案,其核心在于對(duì)特征進(jìn)行排序——按照特征價(jià)值高低排序后,即可實(shí)現(xiàn)任意比例/數(shù)量的特征選擇或剔除。


顯然,如何評(píng)估特征的價(jià)值高低從而實(shí)現(xiàn)排序是這里的關(guān)鍵環(huán)節(jié)。


為了評(píng)估特征的價(jià)值高低,大體可分為如下3類評(píng)估標(biāo)準(zhǔn):


基于特征所含信息量的高低:

這種一般就是特征基于方差法實(shí)現(xiàn)的特征選擇,即認(rèn)為方差越大對(duì)于標(biāo)簽的可區(qū)分性越高;否則,即低方差的特征認(rèn)為其具有較低的區(qū)分度,極端情況下當(dāng)一列特征所有取值均相同時(shí),方差為0,對(duì)于模型訓(xùn)練也不具有任何價(jià)值。


當(dāng)然,實(shí)際上這里倘若直接以方差大小來(lái)度量特征所含信息量是不嚴(yán)謹(jǐn)?shù)?,例如?duì)于[100, 110, 120]和[1, 5, 9]兩組特征來(lái)說(shuō),按照方差計(jì)算公式前者更大,但從機(jī)器學(xué)習(xí)的角度來(lái)看后者可能更具有區(qū)分度。所以,在使用方差法進(jìn)行特征選擇前一般需要對(duì)特征做歸一化


基于相關(guān)性:

一般是基于統(tǒng)計(jì)學(xué)理論,逐一計(jì)算各列與標(biāo)簽列的相關(guān)性系數(shù),當(dāng)某列特征與標(biāo)簽相關(guān)性較高時(shí)認(rèn)為其對(duì)于模型訓(xùn)練價(jià)值更大。而度量?jī)闪袛?shù)據(jù)相關(guān)性的指標(biāo)則有很多,典型的包括歐式距離、卡方檢驗(yàn)、T檢驗(yàn)等等


基于信息熵理論:


與源于統(tǒng)計(jì)學(xué)的相關(guān)性方法類似,也可從信息論的角度來(lái)度量一列特征與標(biāo)簽列的相關(guān)程度,典型的方法就是計(jì)算特征列與標(biāo)簽列的互信息。當(dāng)互信息越大時(shí),意味著提供該列特征時(shí)對(duì)標(biāo)簽的信息確定程度越高。這與決策樹中的分裂準(zhǔn)則思想其實(shí)是有異曲同工之妙


當(dāng)然,基于過(guò)濾法的特征選擇方法其弊端也極為明顯:


  • 因?yàn)椴灰蕾囉谀P?,所以無(wú)法有針對(duì)性的挖掘出適應(yīng)模型的最佳特征體系;


  • 特征排序以及選擇是獨(dú)立進(jìn)行(此處的獨(dú)立是指特征與特征之間的獨(dú)立,不包含特征與標(biāo)簽間的相關(guān)性計(jì)算等),對(duì)于某些特征單獨(dú)使用價(jià)值低、組合使用價(jià)值高的特征無(wú)法有效發(fā)掘和保留。


02 包裹法


過(guò)濾法是從特征重要性高低的角度來(lái)加以排序,從而完成目標(biāo)特征選擇或者低效特征濾除的過(guò)程。如前所述,其最大的弊端之一在于因?yàn)椴灰蕾嚾魏文P?,所以無(wú)法針對(duì)性的選擇出相應(yīng)模型最適合的特征體系。


同時(shí),其還存在一個(gè)隱藏的問(wèn)題:即特征選擇保留比例多少的問(wèn)題,實(shí)際上這往往是一個(gè)超參數(shù),一般需要人為定義或者進(jìn)行超參尋優(yōu)。


與之不同,包裹法將特征選擇看做是一個(gè)黑盒問(wèn)題:即僅需指定目標(biāo)函數(shù)(這個(gè)目標(biāo)函數(shù)一般就是特定模型下的評(píng)估指標(biāo)),通過(guò)一定方法實(shí)現(xiàn)這個(gè)目標(biāo)函數(shù)最大化,而不關(guān)心其內(nèi)部實(shí)現(xiàn)的問(wèn)題。


進(jìn)一步地,從具體實(shí)現(xiàn)的角度來(lái)看,給定一個(gè)含有N個(gè)特征的特征選擇問(wèn)題,可將其抽象為從中選擇最優(yōu)的K個(gè)特征子集從而實(shí)現(xiàn)目標(biāo)函數(shù)取值最優(yōu)。易見(jiàn),這里的K可能是從1到N之間的任意數(shù)值,所以該問(wèn)題的搜索復(fù)雜度是指數(shù)次冪:O(2^N)。


當(dāng)然,對(duì)于這樣一個(gè)具有如此高復(fù)雜度的算法,聰明的前輩們是不可能去直接暴力嘗試的,尤其是考慮這個(gè)目標(biāo)函數(shù)往往還是足夠expensive的(即模型在特定的特征子集上的評(píng)估過(guò)程一般是較為耗時(shí)的過(guò)程),所以具體的實(shí)現(xiàn)方式一般有如下兩種:


序貫選擇

美其名曰序貫選擇,其實(shí)就是貪心算法。即將含有K個(gè)特征的最優(yōu)子空間搜索問(wèn)題簡(jiǎn)化為從1->K的遞歸式選擇(Sequential Feature Selection, SFS)或者從N->K的遞歸式消除(Sequential Backward Selection, SBS)的過(guò)程,其中前者又稱為前向選擇,后者相應(yīng)的稱作后向選擇。


具體而言,以遞歸式選擇為例,初始狀態(tài)時(shí)特征子空間為空,嘗試逐一選擇每個(gè)特征加入到特征子空間中,計(jì)算相應(yīng)的目標(biāo)函數(shù)取值,執(zhí)行這一過(guò)程N(yùn)次,得到當(dāng)前最優(yōu)的第1個(gè)特征;如此遞歸,不斷選擇得到第2個(gè),第3個(gè),直至完成預(yù)期的特征數(shù)目K。


這一過(guò)程的目標(biāo)函數(shù)執(zhí)行次數(shù)為O(K^2),相較于指數(shù)次冪的算法復(fù)雜度而言已經(jīng)可以接受。當(dāng)然,在實(shí)際應(yīng)用過(guò)程中還衍生了很多改進(jìn)算法,例如下面流程圖所示:


圖源:《A survey on feature selection methods》


啟發(fā)式搜索


啟發(fā)式搜索一般是應(yīng)用了進(jìn)化算法,例如在優(yōu)化領(lǐng)域廣泛使用的遺傳算法。


在具體實(shí)現(xiàn)中,需要考慮將特征子空間如何表達(dá)為種群中的一個(gè)個(gè)體(例如將含有N個(gè)特征的選擇問(wèn)題表達(dá)為長(zhǎng)度為N的0/1序列,其中1表示選擇該特征,0表示不選擇,序列中1的個(gè)數(shù)即為特征子空間中的特征數(shù)量),進(jìn)而可將模型在相應(yīng)特征子空間的效果定義為對(duì)應(yīng)個(gè)體在種群中的適應(yīng)度。


其次就是定義遺傳算法中的主要操作:交叉、變異以及繁殖等進(jìn)化過(guò)程。


基于包裹法的特征選擇方案是面向模型的實(shí)現(xiàn)方案,所以理論而言具有最佳的選擇效果。


但實(shí)際上在上述實(shí)現(xiàn)過(guò)程中,其實(shí)一般也需要預(yù)先指定期望保留的特征數(shù)量,所以也就涉及到超參的問(wèn)題。


此外,基于包裹法的最大缺陷在于巨大的計(jì)算量,雖然序貫選擇的實(shí)現(xiàn)方案將算法復(fù)雜度降低為平方階,但仍然是一個(gè)很大的數(shù)字;而以遺傳算法和粒子群算法為代表的啟發(fā)式搜索方案,由于其均是population-based的優(yōu)化實(shí)現(xiàn),自然也更是涉及大量計(jì)算。


03 嵌入法


與包裹法依賴于模型進(jìn)行選擇的思想相似,而又與之涉及巨大的計(jì)算量不同:基于嵌入法的特征選擇方案,顧名思義,是將特征選擇的過(guò)程"附著"于一個(gè)模型訓(xùn)練任務(wù)本身,從而依賴特定算法模型完成特征選擇的過(guò)程。


個(gè)人一直以為,"嵌入"(embedded)一詞在機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)很魔性的存在,甚至在剛接觸特征選擇方法之初,一度將嵌入法和包裹法混淆而不能感性理解。


實(shí)際上,行文至此,基于嵌入法的特征選擇方案也就呼之欲出了,最為常用的就是樹模型和以樹模型為基礎(chǔ)的系列集成算法,由于模型提供了特征重要性這個(gè)重要信息,所以其可天然的實(shí)現(xiàn)模型價(jià)值的高低,從而根據(jù)特征重要性的高低完成特征選擇或?yàn)V除的過(guò)程。


另外,除了決策樹系列模型外,LR和SVM等廣義線性模型也可通過(guò)擬合權(quán)重系數(shù)來(lái)評(píng)估特征的重要程度。


基于嵌入法的特征選擇方案簡(jiǎn)潔高效,一般被視作是集成了過(guò)濾法和包裹法兩種方案的優(yōu)點(diǎn):既具有包裹法中面向模型特征選擇的優(yōu)勢(shì),又具有過(guò)濾法的低開銷和速度快。


但實(shí)際上,其也具有相應(yīng)的短板——不能識(shí)別高相關(guān)性特征,例如特征A和特征B都具有較高的特征重要性系數(shù),但同時(shí)二者相關(guān)性較高,甚至說(shuō)特征A=特征B,此時(shí)基于嵌入法的特征選擇方案是無(wú)能為力的。


04 三種特征選擇方案實(shí)戰(zhàn)對(duì)比


本小節(jié)以sklearn中的乳腺癌數(shù)據(jù)集為例,給出三種特征選擇方案的基本實(shí)現(xiàn),并簡(jiǎn)單對(duì)比特征選擇結(jié)果。


加載數(shù)據(jù)集并引入必備包:

默認(rèn)數(shù)據(jù)集訓(xùn)練模型,通過(guò)在train_test_split中設(shè)置隨機(jī)數(shù)種子確保后續(xù)切分一致:

過(guò)濾法的特征選擇方案,調(diào)用sklearn中的SelectKBest實(shí)現(xiàn),內(nèi)部默認(rèn)采用F檢驗(yàn)來(lái)度量特征與標(biāo)簽間相關(guān)性,選擇特征維度設(shè)置為20個(gè):

包裹法的特征選擇方案,調(diào)用sklearn中的RFE實(shí)現(xiàn),傳入的目標(biāo)函數(shù)也就是算法模型為隨機(jī)森林,特征選擇維度也設(shè)置為20個(gè):

嵌入法的特征選擇方案,調(diào)用sklearn中的SelectFromModel實(shí)現(xiàn),依賴的算法模型也設(shè)置為隨機(jī)森林,特征選擇維度仍然是20個(gè):



通過(guò)以上簡(jiǎn)單的對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn):


相較于原始全量特征的方案,在僅保留20維特征的情況下,過(guò)濾法帶來(lái)了一定的算法性能損失,而包裹法和嵌入法則保持了相同的模型效果,但嵌入法的耗時(shí)明顯更短。



一文掌握機(jī)器學(xué)習(xí)中的三種特征選擇方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
三江| 永宁县| 郴州市| 松潘县| 沙田区| 长沙市| 和政县| 杭锦后旗| 英吉沙县| 兰考县| 乐山市| 台中县| 手机| 饶平县| 大同市| 余干县| 松阳县| 天全县| 文化| 乌拉特前旗| 西吉县| 忻州市| 金湖县| 南平市| 专栏| 交口县| 卢氏县| 镇雄县| 甘谷县| 乌兰浩特市| 淅川县| 靖远县| 鸡东县| 海林市| 上高县| 阿尔山市| 肃南| 永平县| 姜堰市| 华宁县| 石阡县|