機(jī)器學(xué)習(xí)——損失函數(shù)與極大似然估計(jì)(1)
????在初始假設(shè)階段,對(duì)于N個(gè)數(shù)據(jù)樣本來(lái)說(shuō),能夠進(jìn)行分類預(yù)測(cè)地基礎(chǔ)是其滿足獨(dú)立同分布的要求,能夠使用同一個(gè)模型進(jìn)行預(yù)測(cè)估計(jì)。
????N個(gè)數(shù)據(jù)樣本預(yù)測(cè)情況出現(xiàn)的結(jié)果都彼此獨(dú)立,在當(dāng)前數(shù)據(jù)集中他們同時(shí)出現(xiàn),滿足聯(lián)合概率分布的定義,即單個(gè)數(shù)據(jù)樣本預(yù)測(cè)的概率 連乘得到聯(lián)合概率。
????在預(yù)測(cè)模型的參數(shù)調(diào)整階段,找到最合適的預(yù)測(cè)分類模型的條件就是使得聯(lián)合概率分布最大,這個(gè)也就是極大似然估計(jì)的理論基礎(chǔ)解釋。
????極大似然估計(jì)的核心思想是:認(rèn)為當(dāng)前發(fā)生的事件是概率最大的事件,就是當(dāng)前已有給定的數(shù)據(jù)集中的x和y的對(duì)應(yīng)關(guān)系認(rèn)為是已發(fā)生的隨機(jī)事件,訓(xùn)練確定模型中的參數(shù),使得訓(xùn)練數(shù)據(jù)集上給定數(shù)據(jù)樣本發(fā)生的聯(lián)合概率最大。
? ? 首先以線性回歸模型為例,這個(gè)模型大致可以歸納為三個(gè)基礎(chǔ)假設(shè):
數(shù)據(jù)樣本x和 y之間存在著線性關(guān)系。
數(shù)據(jù)樣本之間的殘差(預(yù)測(cè)值——真實(shí)值)之間彼此獨(dú)立“同分布”,即互不影響不存在隨著時(shí)間變化之類的關(guān)系。
數(shù)據(jù)樣本之間的殘差滿足高斯分布。

????線性回歸模型中,把常數(shù)b放入系數(shù)向量w中進(jìn)行運(yùn)算,簡(jiǎn)化標(biāo)記。
????假設(shè)xi固定,而yi不確定,把yi看作是對(duì)于xi的一個(gè)取樣結(jié)果,由以下式子得到,后續(xù)項(xiàng)作為一個(gè)噪聲,優(yōu)秀的模型期望肯定是yi在wxi處取得的概率最大,剛好滿足正態(tài)分布。此時(shí)xi和yi并不是聯(lián)合概率的關(guān)系,由于xi確定可以把yi的取值視為條件概率。
這里的正態(tài)分布取樣是一個(gè)假設(shè),邏輯證明還不嚴(yán)謹(jǐn),但是由此可以推導(dǎo)出損失函數(shù)。

在yi的抽樣概率區(qū)間滿足正態(tài)分布后,連乘即可得到整體樣本數(shù)據(jù)集的聯(lián)合概率,為了求最值,將其轉(zhuǎn)化為對(duì)數(shù)函數(shù)不改變其單調(diào)性。




最小二乘法的損失函數(shù)是極大似然估計(jì)在正態(tài)分布下的特例。