機(jī)器學(xué)習(xí)中的損失函數(shù)(KL散度)
2023-02-08 16:02 作者:Vector永遠(yuǎn)的神 | 我要投稿
????損失函數(shù)就是在模型的訓(xùn)練過程中用來衡量真實值與預(yù)測值的結(jié)果差異,訓(xùn)練過程的最后目標(biāo)是為了使得損失函數(shù)最小化。當(dāng)然在這個過程中,損失函數(shù)必須得是非負(fù)的。通常我們采用絕對值差或者平方差來記錄差異,絕對值損失函數(shù)是線性的等比例變化的,平方差則是差異越大變化越明顯,但是在差異較?。ㄐ∮?)的時候表現(xiàn)不明顯。
????對于離散的概率分類問題,每一個預(yù)測的概率值都落在[0,1]區(qū)間內(nèi),真實值與預(yù)測值的差異落在[-1,1]區(qū)間內(nèi),使用平方差或者絕對值差的損失函數(shù)都會被限制在一個小區(qū)間內(nèi),損失函數(shù)的大小值的差異變化無法彈性的表示預(yù)測值和真實值之間的差異。這里就引入了KL散度的概念。
? ??

在上述公式中,yi是真實值,yi撇是預(yù)測值,均在區(qū)間[0,1]范圍內(nèi)。
在這個地方可以不用jensen不等式?可以直接通過微分求導(dǎo)來得到這個不等式,把yi當(dāng)作自變量求導(dǎo)即可。即證明KL散度作為損失函數(shù)的非負(fù)性,當(dāng)其期望為0時表明,預(yù)測值與真實值完全相同。期望值越大表明相差越大。
上述過程為離散型KL散度的推導(dǎo)過程,連續(xù)型的公式如下所示:

???KL散度是非對稱的,這就是說D(P||Q)!=? D(Q||P).
?KL散度可以用來衡量兩個分布之間的差異程度
。若兩者差異越小,KL散度越小,反之亦反。當(dāng)兩分布一致時,其KL散度為0。