什么是似然和極大似然估計(jì)

為了深入討論似然的概念,我們需要先來了解概率。
概率和似然都是統(tǒng)計(jì)學(xué)中的重要概念,他們之間有著緊密的聯(lián)系。
什么是概率

概率是在特定環(huán)境下,某件事情發(fā)生的可能性。在結(jié)果沒有產(chǎn)生之前,我們可以根據(jù)環(huán)境中的參數(shù),對(duì)某件事情發(fā)生的概率進(jìn)行預(yù)測。

如果拋擲的硬幣是一枚均勻的硬幣,那么可以推斷出,任何一面朝上的可能性都是50%。我們要注意,這里的概率50%,只有在拋硬幣之前是有意義的,因?yàn)閽佂暧矌藕?,結(jié)果就確定了。
什么是似然

似然和概率剛好相反,它是基于已經(jīng)確定的結(jié)果來推測產(chǎn)生這個(gè)結(jié)果的可能環(huán)境,或者是推測環(huán)境中的某些參數(shù)。

依然使用拋硬幣的例子,假如隨機(jī)拋出一枚硬幣1萬次,結(jié)果8000次人像在上,2000次數(shù)字在上。那么可以判斷出,這枚硬幣在構(gòu)造時(shí)是有些特殊的。
我們基于拋擲結(jié)果,進(jìn)一步推測該硬幣的具體參數(shù),人像的概率是0.8,數(shù)字的概率是0.2。這個(gè)根據(jù)結(jié)果判斷事情本身性質(zhì)的過程,就是似然。
因此,總結(jié)來說,似然和概率可以看作是問題的兩個(gè)不同方向。概率是在已知模型參數(shù)的情況下預(yù)測結(jié)果,而似然是在已知結(jié)果的情況下推斷模型參數(shù)。
概率與似然的數(shù)學(xué)表示
設(shè)θ表示環(huán)境中的參數(shù),x表示事件發(fā)生的結(jié)果。那么概率可以表示為P(x|θ),也就是在環(huán)境參數(shù)為θ這個(gè)條件下,x發(fā)生的概率。
?而似然為L(θ|x),即在已知觀察結(jié)果是x的情況下,去推斷θ。這里需要注意的是,P是關(guān)于x的函數(shù),L是關(guān)于θ的函數(shù)。
極大似然估計(jì)
極大似然估計(jì),Maximum Likelihood Estimate,也稱為最大似然估計(jì),就是利用已知的樣本標(biāo)記結(jié)果,反推最具有可能,或者最大概率導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)。

極大似然估計(jì)是一種已知觀察數(shù)據(jù)來推斷模型參數(shù)的過程。例如,根據(jù)事件x的觀察結(jié)果,推斷θ是多少時(shí),結(jié)果x最有可能發(fā)生,就是極大似然估計(jì)。
我們?nèi)匀皇褂脪佊矌胚@個(gè)例子。設(shè)它有θ的概率人像在上,那么就有1-θ的概率數(shù)字在上。θ是客觀存在的,但是我們最初并不知道θ具體是多少,需要根據(jù)觀測結(jié)果進(jìn)行推斷。

為了獲得θ,需要進(jìn)行多次拋硬幣實(shí)驗(yàn),并記錄拋出的結(jié)果序列。假如在這個(gè)序列中,有7次是人像,3次是數(shù)字。這樣就得到了函數(shù)L(θ) = θ^7*(1-θ)^3。
畫出似然函數(shù)的圖像
函數(shù)L被稱為θ的似然函數(shù)。對(duì)于函數(shù)L(θ),我們可以枚舉θ的值,畫出函數(shù)L的圖像。

例如,當(dāng)θ=0時(shí),函數(shù)值是0,θ=0.5時(shí),函數(shù)是1/1024等等。這時(shí)我們會(huì)發(fā)現(xiàn),函數(shù)在θ等于0.7時(shí),取得最大值。
最大似然估計(jì),就是要求θ等于多少時(shí),前面得到的10次觀測,最可能發(fā)生。
也就是7次人像朝上,3次數(shù)字朝上,這樣的結(jié)果最可能發(fā)生。這時(shí),我們會(huì)發(fā)現(xiàn),在函數(shù)取得最大值,θ的取值為0.7。

在真實(shí)情況下,θ的值可能并不是0.7。因?yàn)槿绻矌攀蔷|(zhì)的,那么θ應(yīng)該是0.5。
但如果我們只從這次實(shí)驗(yàn)的結(jié)果來看,在沒有提供足夠的證據(jù)證明硬幣是均質(zhì)時(shí),那么0.7就是該實(shí)驗(yàn)的最大似然估計(jì)取值。
另外,如果希望獲得更準(zhǔn)確的參數(shù)θ的值,我們可以增加實(shí)驗(yàn)次數(shù),獲得更多的實(shí)驗(yàn)結(jié)果,并重新進(jìn)行計(jì)算L(θ)取最大值時(shí),θ的取值。
最大似然估計(jì)的總結(jié)
所以總結(jié)來說,最大似然估計(jì)是一種參數(shù)估計(jì)方法,它的目標(biāo)是找到最可能產(chǎn)生觀察數(shù)據(jù)結(jié)果的參數(shù)值。
在使用最大似然估計(jì)時(shí),需要構(gòu)建一個(gè)似然函數(shù)L(θ),并找到使這個(gè)函數(shù)取得最大時(shí)的參數(shù)值。
一般我們可以使用數(shù)學(xué)求導(dǎo)的方式,計(jì)算導(dǎo)數(shù)為0時(shí),對(duì)應(yīng)的參數(shù)取值,或者使用梯度下降算法,優(yōu)化得到參數(shù)值。
需要說明的是,最大似然估計(jì)的結(jié)果會(huì)受數(shù)據(jù)量的影響,更多的數(shù)據(jù)通??梢缘玫礁鼫?zhǔn)確的估計(jì)。
在機(jī)器學(xué)習(xí)算法中,比如邏輯回歸模型,會(huì)根據(jù)已有的數(shù)據(jù)X,學(xué)習(xí)相應(yīng)的參數(shù)分布,也就是計(jì)算θ,這其實(shí)就是最大似然估計(jì)的思想。
那么到這里,似然和極大似然估計(jì)就講完了,感謝大家的觀看,我們下節(jié)課再會(huì)。