機(jī)器學(xué)習(xí)——過擬合的正則化處理
機(jī)器學(xué)習(xí)算法為了追求在訓(xùn)練集上準(zhǔn)確率很高,想要將誤差降到最低。然而當(dāng)此模型運(yùn)用到現(xiàn)實(shí)數(shù)據(jù)或者說測(cè)試數(shù)據(jù)上,誤差值變高,泛化能力差,不能表達(dá)除訓(xùn)練數(shù)據(jù)以外的其他數(shù)據(jù),在真實(shí)得數(shù)據(jù)集上反倒表現(xiàn)得不好。
一般的操作就是增加訓(xùn)練樣本得代表性和個(gè)數(shù),擴(kuò)大樣本規(guī)模?;蛘咛釤挸龈佑行У锰卣?,減少訓(xùn)練得特征數(shù)量。
還有的操作就是正則化Regularization,保留樣本的特征前提下減少某些特征對(duì)于輸出結(jié)果的影響,例如logistic回歸種就可以減少高階變量的系數(shù)參數(shù)值的大小,以讓其在損失函數(shù)的梯度下降算法種不會(huì)有很大的比重,進(jìn)而過度影響輸出結(jié)果。通常就是在損失函數(shù)后加上若干系數(shù)得平方項(xiàng)以作為懲罰值。

在線性回歸模型中的損失函數(shù)一般就是平方差,在后面添加參數(shù)的平方和,λ充當(dāng)懲罰系數(shù)即可。

邏輯回歸模型通常是對(duì)二分類問題進(jìn)行的處理,損失函數(shù)也就是分別對(duì)于0/1的情況寫出來,也是在末尾添加參數(shù)的平方和。

重要的環(huán)節(jié)在梯度下降,基本的步驟和之前一樣,θ0沒有作為自變量的系數(shù),常數(shù)單獨(dú)處理,不用添加正則化,直接求偏導(dǎo)梯度下降即可。
其余的θ參數(shù)則需要進(jìn)行正則化處理,θj系數(shù)相減之后可以發(fā)現(xiàn)基本上沒有變化,懲罰系數(shù)λ很小而m作為系數(shù)個(gè)數(shù)會(huì)非常大,但這微小的變化在梯度下降的算法中會(huì)發(fā)揮相當(dāng)?shù)淖饔谩?/p>
連續(xù)的問題是回歸,離散的問題是分類。