“交叉熵”如何做損失函數(shù)?打包理解“信息量”、“比特”、“熵”、“KL散度”、“

信息熵大~信息越不確定(難定)~信息越亂~信息越隨機(jī),大概可以這么理解
定義:

?
09:29
?
解釋一下為什么是相加,不是相乘。f是信息量,可以理解為它是一個物理量,物理量是有量綱的,等號左邊和右邊必須量綱一致。如果右邊是乘的話,就是信息量的平方了,量綱不同了。而概率,是沒有量綱的,可以相乘。


?
-log2(x) 二分法 單位:比特
11:44
?
信息量

系統(tǒng)熵


相對熵——KL散度
?
18:42
?

分為前向和后向kl散度
KL散度在通信系統(tǒng)中,表示用一個信源表示另一個信源的復(fù)雜度
對KL需要兩個分布support相同

- 吉布斯不等式
把交叉熵應(yīng)用到神經(jīng)網(wǎng)絡(luò)中
?
23:00
?
- 這里P是基準(zhǔn),相當(dāng)于人腦。而Q相當(dāng)于神經(jīng)網(wǎng)絡(luò),所以只能去改變Q來擬合P,而不能去改變P,P的取值是改不了的
- KL散度就是求兩個概率分布函數(shù)之間的距離,取事件數(shù)量多的才能計(jì)算所有差異。
- P(m) Q(n)的數(shù)量不一樣,始終用大的,當(dāng)m<n時(shí),還是用n,pi中的i取不到n呀,那是不是累加結(jié)果又變成和取m一樣喃
- 我覺得n>m時(shí),取m和n得到的結(jié)果是一樣的,而n<m時(shí)則一定要取m(較大的),都取較大的時(shí)為了方便記憶吧
- 為啥取較大的,i>m的時(shí)候,pi的值是多少呢
- 剩下的不能簡單的直接帶入概率為0吧?這樣的話你的信息量怎么辦 信息量里面是有l(wèi)og的 而且本來信息量里面有概率 這樣的話事件少對應(yīng)事件多的的信息量為無窮大? 我比較認(rèn)同前面說的拆開按照條件概率分
1、這里求和上下限應(yīng)該是1和2,分別對應(yīng)是貓和不是貓兩個事件
3、這里up不小心把“訓(xùn)練過程要對所有數(shù)據(jù)進(jìn)行迭代”雜糅進(jìn)求和過程了
標(biāo)簽: