最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

信息量、熵、交叉熵、KL散度、交叉熵?fù)p失函數(shù)

2023-08-22 00:32 作者:Enzo_Mi  | 我要投稿

1、信息量 Amount of Information

  • 信息量:衡量 事件發(fā)生的難度有多大

    • 對于小概率事件,它發(fā)生的難度比較大,所以有較大的信息量

    • 對于大概率事件,它發(fā)生的難度比較小,所以有較小的信息量

  • 信息量公式 :?I%7B(x)%7D%20%3A%3D%20log_2(%5Cfrac%7B1%7D%7Bp_%7B(x)%7D%7D)%20%3D%20-%20log_2(p_%7B(x)%7D)

  • 性質(zhì) : 對于獨(dú)立事件 A、B :p_%7B(AB)%7D%20%3D%20p_%7B(A)%7Dp_%7B(B)%7D%20,兩個(gè)事件同時(shí)發(fā)生的信息量 等于 兩個(gè)事件的信息量相加 :??I(AB) =I(A) + I(B)?%E2%80%8BI%7B(AB)%7D%20%3D%20log_2(%5Cfrac%7B1%7D%7Bp_%7B(AB)%7D%7D)%20%3D%0Alog_2(%5Cfrac%7B1%7D%7Bp_%7B(A)%7Dp_%7B(B)%7D%7D)%20%3D%20log_2(%5Cfrac%7B1%7D%7Bp_%7B(A)%7D%7D)%20%2B%0Alog_2(%5Cfrac%7B1%7D%7Bp_%7B(B)%7D%7D)%20%3D%20I(A)%20%2B%20I(B)

????例1 : 拋硬幣,正面概率?p_%7B(A)%7D%20%3D0.5, 反面概率?p_%7B(B)%7D%3D0.5

????????????????I%7B(A)%7D%20%3D%20%20-%20log_2(0.5)%20%3D1%2C%20%20%5Cquad%20%5Cquad%20I%7B(B)%7D%20%3D%20-%20log_2(0.5)%20%3D%201

?????例2 : 拋硬幣,正面概率?p_%7B(A)%7D%3D0.2,?反面概率?p_%7B(B)%7D%3D0.8????

????????????????I%7B(A)%7D%20%3D%20%20-%20log_2(0.2)%20%3D2.32%20%2C%20%5Cquad%20%5Cquad%20I%7B(B)%7D%20%3D%20-%20log_2(0.8)%20%3D%200.32

????結(jié)論 : 小概率事件 有 較大的信息量, 大概率事件 有 較小的信息量


2、熵 Entropy

  • 定義 : 概率分布 的信息量期望:H(p)%3A%3DE(I(x)),(亦可理解為:系統(tǒng)整體的信息量。其中,系統(tǒng)整體由所有可能發(fā)生的事件構(gòu)成。 比如拋硬幣,正面和反面 就構(gòu)成一個(gè)系統(tǒng)整體)

  • 作用 : 用來評估概率模型的不確定性程度

    • 不確定性越大,熵越大

    • 不確定性越小,熵越小?

  • 公式 :H(p)%20%3D%20%5Csum%7Bp_iI_i%5Ep%7D%20%3D%20-%5Csum%7Bp_ilog_2(p_i)%7D

????例1 : 拋硬幣,正面概率?p_%7B(A)%7D%3D0.5, 反面概率?p_%7B(B)%7D%3D0.5

????????????????%E2%80%8B%5Cbegin%7Baligned%7D%20H(p)%20%0A%0A%26%3D%20%20-%5Csum%7Bp_ilog_2(p_i)%7D%20%5C%5C%0A%0A%26%3D%20p_%7B(A)%7D%20%5Ccdot%20log_2(1%2Fp_%7B(A)%7D)%20%2B%20p_%7B(B)%7D%20%5Ccdot%20log_2(1%2Fp_%7B(B)%7D)%20%20%5C%5C%0A%0A%26%3D%200.5%20%5Ccdot%20log_2(0.5)%20%2B%200.5%20%5Ccdot%20log_2(0.5)%20%20%5C%5C%0A%0A%26%3D%200.2%20%5Ccdot%201%20%20%2B%200.8%20%5Ccdot%201%20%20%5C%5C%20%0A%0A%26%3D%201%0A%0A%5Cend%7Baligned%7D

????例2 : 拋硬幣,正面概率 p_%7B(A)%7D%3D0.2, 反面概率 p_%7B(B)%7D%3D0.8? ?

????????????????%E2%80%8B%5Cbegin%7Baligned%7D%20H(p)%20%0A%0A%26%3D%20%20-%5Csum%7Bp_ilog_2(p_i)%7D%20%5C%5C%0A%0A%26%3D%20p_%7B(A)%7D%20%5Ccdot%20log_2(1%2Fp_%7B(A)%7D)%20%2B%20p_%7B(B)%7D%20%5Ccdot%20log_2(1%2Fp_%7B(B)%7D)%20%20%5C%5C%0A%0A%26%3D%200.2%20%5Ccdot%20log_2(0.2)%20%2B%200.8%20%5Ccdot%20log_2(0.8)%20%20%5C%5C%0A%0A%26%3D%200.2%20%5Ccdot%202.32%20%20%2B%200.8%20%5Ccdot%200.32%20%20%5C%5C%20%0A%0A%26%3D%200.72%0A%0A%5Cend%7Baligned%7D


結(jié)論 :?

????若概率密度均勻,產(chǎn)生的隨機(jī)變量的不確定性就更高,則熵的值就更大

????若概率密度聚攏,產(chǎn)生的隨機(jī)變量的確定性較高,則熵的值較小



3、交叉熵 Cross Entropy

  • 定義 : 假設(shè) 真實(shí)概率分布為p、預(yù)測概率分布 (估計(jì)概率分布) 為q,預(yù)測概率分布q?對真實(shí)的概率分布p?的平均信息量 的估計(jì),叫做交叉熵

  • 公式 :?H(p%2C%20q)%20%3D%20%5Csum%7Bp_iI_i%5Eq%7D%20%3D%20-%5Csum%7Bp_i%20log_2(q_i)%7D

????例1 : 拋硬幣,正面真實(shí)概率 p(A)%3D0.5, 反面真實(shí)概率?p(B)%3D0.5,?

????????????????正面估計(jì)概率 q(A)%3D0.2, 反面估計(jì)概率?q(B)%3D0.8

????????????????%5Cbegin%7Baligned%7D%20H(p%2C%20q)%20%0A%0A%26%3D%20%20-%5Csum%7Bp_ilog_2(q_i)%7D%20%5C%5C%0A%0A%26%3D%20p_%7B(A)%7D%20%5Ccdot%20log_2(1%2Fq_%7B(A)%7D)%20%2B%20p_%7B(B)%7D%20%5Ccdot%20log_2(1%2Fq_%7B(B)%7D)%20%20%5C%5C%0A%0A%26%3D%200.5%20%5Ccdot%20log_2(0.2)%20%2B%200.5%20%5Ccdot%20log_2(0.8)%20%20%5C%5C%0A%0A%26%3D%200.5%20%5Ccdot%202.32%20%20%2B%200.5%20%5Ccdot%200.32%20%20%5C%5C%20%0A%0A%26%3D%201.32%0A%0A%5Cend%7Baligned%7D


????????例2 : 拋硬幣,正面真實(shí)概率?p(A)%3D0.5, 反面真實(shí)概率?p(B)%3D0.5,?

????????????????????正面估計(jì)概率?q(A)%3D0.4, 反面估計(jì)概率?q(B)%3D0.6

????????????????????%5Cbegin%7Baligned%7D%20H(p%2C%20q)%20%0A%0A%26%3D%20%20-%5Csum%7Bp_ilog_2(q_i)%7D%20%5C%5C%0A%0A%26%3D%20p_%7B(A)%7D%20%5Ccdot%20log_2(1%2Fq_%7B(A)%7D)%20%2B%20p_%7B(B)%7D%20%5Ccdot%20log_2(1%2Fq_%7B(B)%7D)%20%20%5C%5C%0A%0A%26%3D%200.5%20%5Ccdot%20log_2(0.4)%20%2B%200.5%20%5Ccdot%20log_2(0.6)%20%20%5C%5C%0A%0A%26%3D%200.5%20%5Ccdot%201.32%20%20%2B%200.5%20%5Ccdot%200.74%20%20%5C%5C%20%0A%0A%26%3D%201.03%0A%0A%5Cend%7Baligned%7D

結(jié)論 :
(1)預(yù)估概率分布 與 真實(shí)概率分布 越接近,交叉熵越小。
(2)交叉熵的值 總是大于 熵的值 (根據(jù) 吉布斯不等式)



4、相對熵 (KL散度、 KL Divergence )

  • KL散度 以 Kullback 和 Leibler 的名字命名, 也被稱為 相對熵

  • 作用 : 用于衡量 2個(gè)概率分布 之間的差異

  • 公式 :?

    D(p%7C%7Cq)

重要性質(zhì):

(1)由 吉布斯不等式可知:?D(p%7C%7Cq)%20%5Cge%200;? 當(dāng) 分布q?和 分布p?完全一樣時(shí),D(p%7C%7Cq)%20%3D%200

(2)?D(p%7C%7Cq)D(q%7C%7Cp)?不一樣,即?D(p%7C%7Cq)%20%20%5Cneq%20D(q%7C%7Cp)

- D(p%7C%7Cq)?表示以?p為基準(zhǔn) (為真實(shí)概率分布),估計(jì)概率分布q?與 真實(shí)概率分布p?之間的差距

- D(q%7C%7Cp)?表示以 q為基準(zhǔn) (為真實(shí)概率分布),估計(jì)概率分布p?與 真實(shí)概率分布q?之間的差距



5、交叉熵?fù)p失函數(shù) Cross Entropy Loss

由上可知, KL散度?D(p%7C%7Cq) 表示 預(yù)測分布q?與 真實(shí)分布p?之間的差距,所以 我們可直接將 損失函數(shù)定義為 KL散度:?Loss%20%3DD(p%7C%7Cq)

并且我們希望 模型的預(yù)測分布q?與 真實(shí)分布p?完全相同 ,即 : 損失函數(shù)?Loss = D(p||q) = 0Loss%20%3D%20D(p%7C%7Cq)%20%3D%200


損失函數(shù):Loss%20%3D%20D(p%7C%7Cq)%20%3D%20H(p%2C%20q)%20-%20H(p)%20%20%3D%20%5Csum%7Bp_i%20log_2(q_i)%7D%20-%5Csum%7Bp_i%20log_2(q_i)%7D%20%5Ctag%7B1%7D


對于分類問題,真實(shí)分布是一個(gè)單點(diǎn)分布,真實(shí)類別的概率為1, 其他類別的概率都為0,類似如下:

所以,H(p)%20%3D%20%5Csum%7Bp_i%20log_2(1%20%2F%20p_i)%7D%20%3D%200


損失函數(shù)(1) 可進(jìn)一步化簡為 :?Loss%20%3D%20D(p%7C%7Cq)%20%20%3D%20H(p%2C%20q)%20-%20H(p)%20%3D%20H(p%2C%20q)%20%5Ctag%7B2%7D%20


H(p%2C%20q) 是交叉熵,所以損失函數(shù) 又稱為 交叉熵?fù)p失函數(shù) :

Cross%5C_Entropy%5C_Loss%20%3D%20%20H(p%2C%20q)%20%3D%20-%5Csum%7Bp_i%20log_2(q_i)%7D%20%5Ctag%7B3%7D



又因?yàn)檎鎸?shí)分布為單點(diǎn)分布,真實(shí)類別的概率 p_%7Bclass%7D%3D1, 其他類別的概率p_%7B%5Cbar%20%7Bclass%7D%7D%3D0

所以 :?

Cross%5C_Entropy%5C_Loss%20%3D%20%20H(p%2C%20q)%20%3D%20-%20log_2(q_%7Bclass%7D)


信息量、熵、交叉熵、KL散度、交叉熵?fù)p失函數(shù)的評論 (共 條)

分享到微博請遵守國家法律
瑞金市| 南通市| 南漳县| 枣阳市| 梧州市| 阳西县| 洞头县| 牙克石市| 乌恰县| 化德县| 会同县| 唐河县| 资溪县| 敖汉旗| 舒城县| 潞城市| 石河子市| 清远市| 平罗县| 炎陵县| 上虞市| 资讯 | 商洛市| 饶河县| 两当县| 韶关市| 常山县| 景泰县| 金溪县| 京山县| 柏乡县| 晋州市| 宕昌县| 潼关县| 辽阳市| 额敏县| 伽师县| 托克托县| 榆中县| 宁南县| 军事|