信息熵、條件熵、相對熵、交叉熵?
衡量隨機(jī)變量X取i時包含的信息的多少,單位是比特。必然事件的信息量為0,可能性越小的事件包含的信息量越大,兩個獨立的事件同時發(fā)生信息量等于他們各自發(fā)生時的信息量之和。

信息熵
是隨機(jī)變量所有可能取值的信息量的期望,用于表示某隨機(jī)變量不確定性大小,信息熵越大表示該隨機(jī)變量的信息量的期望越大

條件熵
表示在已知隨機(jī)變量X取值的條件下Y的不確定性(信息熵),定義為給定X下Y的概率分布的熵對X的期望,具體計算方法:首先遍歷X的各個取值,每個X取值都對應(yīng)一個數(shù)據(jù)子集,然后根據(jù)每個字跡下Y的分布計算Y的信息熵,最后在求這些信息熵求加權(quán)和。

互信息量
表示引入X后Y的不確定性減少的量,減少的越多表示X越有利于Y的確定,即兩者間的相關(guān)性越強(qiáng),互信息量可以捕捉變量間的任意相關(guān)關(guān)系(包括線性與非線性)。

互信息量是對稱的,即I(Y;X)=I(X;Y)
相對熵(KL散度)
相對熵可以衡量兩個分布X與Y的相似性,兩個概率分布越相近,KL散度越小,以下為離散變量分布間的相對熵。

互信息量是非對稱的,即D(Y||X) \neq D(X||Y),式中Y在前就表示給定Y的情況下,X相對Y的相似程度。
交叉熵?fù)p失
交叉熵用于衡量模型預(yù)測值與真實值間的差異大小,可以看作相對熵的一種特定情況,以Y表示真實值的分布,X表示預(yù)測值的分布。
首先對相對熵進(jìn)行化簡:

由于真實值分布的信息熵為定值,即上式中-H(Y)為定值,那么令上式最后一項為交叉熵,就足以表示真實分布與預(yù)測分布的差異大小:

對于2分類問題,k取2,上式可寫成如下形式:

令y=P(y_1), \hat{y}=P(x_1),變換一下形式,就得到了我們熟悉的單個樣本的交叉熵?fù)p失:

而多個樣本的損失,取平均值就行:
