最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

什么是交叉熵

2023-08-10 17:18 作者:世界永不足夠  | 我要投稿

? ? 信息量

? ? ? ? 信息量的大小和它發(fā)生的概率有關,發(fā)生概率越大的事情,它的出現(xiàn)是理所當然的,它消除了較少的不確定性,認為它的信息量較少。

? ? ? ? 很少發(fā)生的事情卻發(fā)生了,它消除了很多不確定性,出現(xiàn)條件越苛刻,認為它攜帶的信息量越大。

? ? ? ??

? ? ? ? 明確了信息量定性的思想--發(fā)生概率越大,信息量越小,發(fā)生概率越小,信息量越大--后,該如何定義描述公式,將它定量?

? ? ? ? 先看一個踢球的例子:阿根廷奪冠 = 阿根廷進決賽 + 阿根廷贏下決賽

? ? ? ? ? ? 用f來表示信息量:f(奪冠這件事) = f(進決賽這件事) + f(贏決賽這件事) 后面兩件事帶來的信息量,與前面一件事帶來的信息量等價

? ? ? ? ? ? ? ? 記為1式

? ? ? ? ? ? 用p表示概率:p(奪冠事件) = p(進決賽事件) * p(贏決賽事件)

? ? ? ? ? ? ? ? 記為2式

? ? ? ? ? ??

? ? ? ? 關于f的定義,它是關于概率的函數(shù),一定與概率有關,既要同時滿足一式和二式:

? ? ? ? ? ? f( P(x1 * x2) ) = f( p(x1) ) + f( p(x2) )

? ? ? ? ? ??

? ? ? ? 為了聯(lián)系相乘和相加,就要用到數(shù)學工具log,所以函數(shù)的形式上一定要有l(wèi)og。logMN = logM + logN

? ? ? ? 由于概率p一定是零到一之間的分數(shù),對它求log一定小于1,所以應該在前面加上負號,log的底用最常見的2進制,以二為底

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? I = -log(p)



? ? 信息熵

? ? ? ? 在現(xiàn)實生活中,某個概率系統(tǒng),很可能有多個分支選項,最后發(fā)生多個事件中的某一個。

? ? ? ? 比如擲硬幣系統(tǒng),最后發(fā)生的事件是正反兩個之一。擲骰子系統(tǒng),最后結果卻有六種可能

? ? ? ? 這個系統(tǒng)的信息量的總和(最后結果的不確定性),等于這個系統(tǒng)所有獨立事件的信息量的總和

? ? ? ? 并且無論是擲硬幣還是擲骰子,分支都是相同概率,推廣到更現(xiàn)實的情況,每個分支的發(fā)生概率很可能不同。這里就要用到概率加權的思想:

? ? ? ? ? ? H(x) =? -Σp(xi)log( p(xi) ) 每個事件的發(fā)生概率 * 這個事件發(fā)生后攜帶的信息量 最后加總在一起,就是這個系統(tǒng)的信息量

? ? ? ? ? ? ? ??

? ? ? ? 借用熱力學中描述系統(tǒng)混亂程度的概念:熵

? ? ? ? 使用信息熵來衡量一個系統(tǒng)的不確定性(即整個系統(tǒng)信息量的總和)

? ? ? ? 描述信息熵的思想和數(shù)學上求期望的思想很類似,對所有可能事件帶來的信息量求期望,其結果就能衡量整個系統(tǒng)的信息量

? ? ? ? 所以當我們知道整個系統(tǒng)的概率分布,就能計算出整個系統(tǒng)的信息熵


? ? 相對熵

? ? ? ? 又稱KL散度,給定兩個概率系統(tǒng)P,Q ,則相對熵 Dkl(P||L) =? Σ Pi( f(qi) - f(pi) )

? ? ? ? P在前就代表了以P為基準,看Q 和它的差距有多少,所以在括號中是用f的信息量減去p的信息量,再與這件事i發(fā)生的概率pi加權

? ? ? ? 可以這樣理解這個式子:如果概率分布PQ完全相同,則相對熵一定是0,也就是完全等價。而在同一事件i上,兩系統(tǒng)概率有差別,

? ? ? ? 就會被計算出信息量的差,然后再看下一個事件,最后把所有事件的信息量差距累加起來。

? ? ? ? ? ? 展開后:DKL(P||Q) =?

? ? ? ? ? ? ? ? ? ? ΣPi(-log qi) - ΣPi(-log pi)

? ? ? ? ? ? 在這個時候,我們發(fā)現(xiàn)后面的式子就是P系統(tǒng)的熵,它其實是恒定的,我們把P系統(tǒng)作為了基準,它是不會變的。所以我們想確定

? ? ? ? ? ? DKL是否趨近于0(趨近于0則代表兩個概率分布越類似)關鍵就是看前面那部分了? H(P,Q) = Σ pi(-log qi) 而這部分就被稱為交叉熵

? ? ? ? ? ? ? ??

? ? 交叉熵

? ? ? ? 衡量兩個概率分布之間的差異。在機器學習中,交叉熵用于衡量真實概率分布和預測概率分布之間的差異,用來評估分類模型的性能

? ? ? ? 假設有兩個概率分布P Q , 則他們的交叉熵為

? ? ? ? ? ? H(P,Q) = -Σ Pi(log Qi)

? ? ? ? 其中P(i)表示事件i在真實分布中的概率--也就是基準--Q(i)表示事件i在我們預測分布中的概率,交叉熵越小,說明我們的預測越接近真實


什么是交叉熵的評論 (共 條)

分享到微博請遵守國家法律
保亭| 宁德市| 嘉义市| 洛宁县| 苍山县| 临高县| 姚安县| 巧家县| 龙里县| 昌宁县| 平阳县| 华阴市| 绥化市| 琼中| 泰顺县| 津市市| 东辽县| 穆棱市| 阿鲁科尔沁旗| 南康市| 佛山市| 夏邑县| 福泉市| 邯郸县| 图们市| 进贤县| 互助| 时尚| 社会| 昭苏县| 孝感市| 安乡县| 临猗县| 高邮市| 五常市| 且末县| 揭东县| 上犹县| 黔南| 丹棱县| 洪江市|