[吃瓜筆記]第11章
第11章 特征選擇與稀疏學(xué)習(xí)
本章主要講解特征選擇的各類方法和特征選擇的重要性,以及稀疏學(xué)習(xí)。
11.1 子集搜索與評價(jià)
相關(guān)特征:對當(dāng)前學(xué)習(xí)任務(wù)有用的特征。
無關(guān)特征:對當(dāng)前學(xué)習(xí)任務(wù)沒有用的特征。
特征選擇:從特征中選出相關(guān)特征的過程。
冗余特征:能從其他特征中推演出來。像是“中間概念”。
特征選擇屬于一種數(shù)據(jù)預(yù)處理過程。
子集搜索,是選出包含所有相關(guān)特征的過程。子集搜索分為前向搜索(增加特征)、后向搜索(減少特征)和雙向搜索(同時(shí)增加和減少)。但是這些搜索策略都是貪心的,只考慮了某一步的最優(yōu)結(jié)果,沒有從全局來考慮最優(yōu)結(jié)果。
子集評價(jià),用于評價(jià)候選特征子集的好壞。特征子集的信息增益越大,意味著特征子集中包含的有用的特征越多。
將特征子集搜索機(jī)制與子集評價(jià)機(jī)制相結(jié)合,即可得到特征選擇方法。
常見的特征選擇方法分為三類:過濾式、包裹式和嵌入式。
11.2 過濾式選擇
先選擇特征,再訓(xùn)練學(xué)習(xí)器。特征選擇過程和訓(xùn)練學(xué)習(xí)器的過程無關(guān)。
典型方法:Relief
11.3 包裹式選擇
把最終學(xué)習(xí)器的性能作為子集評價(jià)的指標(biāo)。即針對給定學(xué)習(xí)器進(jìn)行優(yōu)化。
典型方法:拉斯維加斯方法(LVW)
11.4 嵌入式選擇與
正則化
將特征選擇過程和學(xué)習(xí)器訓(xùn)練過程融為一體。
當(dāng)樣本過多,容易陷入過擬合。引入正則化項(xiàng)可以緩解過擬合問題。
稀疏:有盡量多的零向量。
比
更易獲得稀疏解。
11.5 稀疏表示與字典學(xué)習(xí)
稀疏性表示矩陣中有大量的零元素。
稀疏表達(dá)(但也要恰當(dāng)稀疏,不能過度稀疏哦hhh)能有很多好處,使大多數(shù)問題線性可分,并且有很多高效的儲(chǔ)存方式,不會(huì)有很大的存儲(chǔ)負(fù)擔(dān)。
通過“字典學(xué)習(xí)”(或“稀疏編碼”)可以將稠密數(shù)據(jù)集轉(zhuǎn)化為稀疏數(shù)據(jù)集。

11.6、11.7略。