信息量、熵、交叉熵、KL散度、交叉熵?fù)p失函數(shù)
1、信息量 Amount of Information
信息量:衡量 事件發(fā)生的難度有多大
對于小概率事件,它發(fā)生的難度比較大,所以有較大的信息量
對于大概率事件,它發(fā)生的難度比較小,所以有較小的信息量
信息量公式 :?
性質(zhì) : 對于獨(dú)立事件 A、B :
,兩個(gè)事件同時(shí)發(fā)生的信息量 等于 兩個(gè)事件的信息量相加 :??I(AB) =I(A) + I(B)?
????例1 : 拋硬幣,正面概率?, 反面概率?
????????????????
?????例2 : 拋硬幣,正面概率?,?反面概率?
????
????????????????
????結(jié)論 : 小概率事件 有 較大的信息量, 大概率事件 有 較小的信息量

2、熵 Entropy
定義 : 概率分布 的信息量期望:
,(亦可理解為:系統(tǒng)整體的信息量。其中,系統(tǒng)整體由所有可能發(fā)生的事件構(gòu)成。 比如拋硬幣,正面和反面 就構(gòu)成一個(gè)系統(tǒng)整體)
作用 : 用來評估概率模型的不確定性程度
不確定性越大,熵越大
不確定性越小,熵越小?
公式 :
????例1 : 拋硬幣,正面概率?, 反面概率?
????????????????
????例2 : 拋硬幣,正面概率 , 反面概率
? ?
????????????????
結(jié)論 :?
????若概率密度均勻,產(chǎn)生的隨機(jī)變量的不確定性就更高,則熵的值就更大
????若概率密度聚攏,產(chǎn)生的隨機(jī)變量的確定性較高,則熵的值較小

3、交叉熵 Cross Entropy
定義 : 假設(shè) 真實(shí)概率分布為
、預(yù)測概率分布 (估計(jì)概率分布) 為
,預(yù)測概率分布
?對真實(shí)的概率分布
?的平均信息量 的估計(jì),叫做交叉熵
公式 :?
????例1 : 拋硬幣,正面真實(shí)概率 , 反面真實(shí)概率?
,?
????????????????正面估計(jì)概率 , 反面估計(jì)概率?
????????????????
????????例2 : 拋硬幣,正面真實(shí)概率?, 反面真實(shí)概率?
,?
????????????????????正面估計(jì)概率?, 反面估計(jì)概率?
????????????????????
結(jié)論 :
(1)預(yù)估概率分布 與 真實(shí)概率分布 越接近,交叉熵越小。
(2)交叉熵的值 總是大于 熵的值 (根據(jù) 吉布斯不等式)

4、相對熵 (KL散度、 KL Divergence )
KL散度 以 Kullback 和 Leibler 的名字命名, 也被稱為 相對熵
作用 : 用于衡量 2個(gè)概率分布 之間的差異
公式 :?
重要性質(zhì):
(1)由 吉布斯不等式可知:?;? 當(dāng) 分布
?和 分布
?完全一樣時(shí),

(2)? 與
?不一樣,即?
- ?表示以?
為基準(zhǔn) (為真實(shí)概率分布),估計(jì)概率分布
?與 真實(shí)概率分布
?之間的差距
- ?表示以
為基準(zhǔn) (為真實(shí)概率分布),估計(jì)概率分布
?與 真實(shí)概率分布
?之間的差距

5、交叉熵?fù)p失函數(shù) Cross Entropy Loss
由上可知, KL散度? 表示 預(yù)測分布
?與 真實(shí)分布
?之間的差距,所以 我們可直接將 損失函數(shù)定義為 KL散度:?
并且我們希望 模型的預(yù)測分布?與 真實(shí)分布
?完全相同 ,即 : 損失函數(shù)?Loss = D(p||q) = 0
損失函數(shù):
對于分類問題,真實(shí)分布是一個(gè)單點(diǎn)分布,真實(shí)類別的概率為1, 其他類別的概率都為0,類似如下:

所以,
損失函數(shù)(1) 可進(jìn)一步化簡為 :?
是交叉熵,所以損失函數(shù) 又稱為 交叉熵?fù)p失函數(shù) :
又因?yàn)檎鎸?shí)分布為單點(diǎn)分布,真實(shí)類別的概率 , 其他類別的概率
所以 :?