機器學(xué)習(xí)——損失函數(shù)與極大似然估計(2)
?????對于線性回歸模型 y=? wx + b ,在上一篇文章中提到了可以使用一維高斯分布N(u,σ2)的概率模型來作為在xi固定的情況下預(yù)測目標(biāo)值yi的條件概率分布模型。在正態(tài)分布概率模型中,輸出域為整個實數(shù)域,但是與二分類問題中輸出的結(jié)果為0/1,如果依然想使用線性回歸模型,可以使用一個映射函數(shù)將輸出的結(jié)果從全體實數(shù)域映射到0/1上。
????簡單的情況下就是用階躍函數(shù)即從0突然跳到1,復(fù)雜的情況就用光滑的映射函數(shù)sigmoid,一般認(rèn)為0/1分類的兩個類別結(jié)果同等重要,兩邊占有相同的權(quán)重,以0為分界,如果原始值小于0則映射結(jié)果分類為0,反之則為1,sigmoid函數(shù)值還可以作為分類預(yù)測的概率值大小。

????回歸模型由w和b來確定,加入η這個中間變量作為橋梁,進行映射到最終結(jié)果0/1上。
????
????

????在這個分類模型中,中間的那條紅線被稱為決策邊界,類似于SVM的那個決策超平面,這條決策邊界有模型參數(shù)w和b來確定,與sigmoid函數(shù)無關(guān),如果剛好在決策邊界上的樣本點計算得到的η值剛好是0,對應(yīng)sigmoid值0.5,這個決策邊界與sigmoid無關(guān)。
????但是對于數(shù)據(jù)樣本離決策邊界比較近的時候,表示模型對應(yīng)0/1分類的概率較低,也就是sigmoid函數(shù)值接近0.5,分類結(jié)果容易發(fā)生變化。
????數(shù)據(jù)樣本yi滿足0/1分布,在xi固定的前提下對yi取樣的分布滿足伯努利分布模型B(p),其概率密度模型中的參數(shù)p為關(guān)于eta的sigmoid函數(shù)。
????與之前的極大似然估計類似,針對現(xiàn)有的數(shù)據(jù)樣本,最合適的線性回歸模型也就是使得現(xiàn)有數(shù)據(jù)樣本的聯(lián)合概率分布最大。模型確定了決策邊界也就隨之確定了。
????聯(lián)合概率分布是連乘,取對數(shù)變成疊加,求最大值。B的概率密度函數(shù)為p^yi * (1-p)^(1-yi)
? ??
????

????化簡的過程中注意可以通過ln將-η變成+η,再取反得到最小值的式子。

在這篇中yi為什么能假設(shè)滿足以sigmoid為參數(shù)的伯努利分布這是下一篇文章要解釋的問題。