今天來聊聊模型評估選擇及重要性
作者:王同學 ?來源:投稿
編輯:學姐
模型評估作為機器學習領(lǐng)域一項不可分割的部分,卻常常被大家忽略,其實在機器學習領(lǐng)域中重要的不僅僅是模型結(jié)構(gòu)和參數(shù)量,對模型的評估也是至關(guān)重要的,只有選擇那些與應用場景匹配的評估方法才能更好的解決實際問題。
我們平時接觸的模型評估一般分成離線評估和在線評估兩個階段,針對不同的機器學習問題,我們選擇的評價指標也是不同的。
所以了解不同評價指標的意義,從而針對自己的問題選擇不同的評價指標是至關(guān)重要的,這也是一位優(yōu)秀的工程師必須掌握的技能,接下來我會通過兩個案例來讓大家了解評價指標的重要性,同時也會帶大家把常見的幾個評價指標展開討論一下。
案例1
某奢侈品廣告主們希望把自家廣告定向投放給奢侈品用戶。他們先是通過第三方的數(shù)據(jù)管理平臺(DataManagementPlatform,DMP)拿到了一部分奢侈品用戶的數(shù)據(jù),并以此數(shù)據(jù)作為訓練集和測試集,訓練了一個奢侈品用戶的分類模型。
該模型的分類準確率超過了95%,但在實際廣告投放過程中,該模型還是把大部分廣告投給了非奢侈品用戶,那么這是什么原因造成的呢?
這是凸顯評價指標作用的一個典型案例,在回答問題之前我們首先要清楚一個概念。即我們經(jīng)常聽到的準確率,準確率是指分類正確的樣本數(shù)量占總樣本數(shù)量的比例,即:

準確率雖然是分類問題中最簡單最直觀的評價指標,但存在明顯的缺陷。
比如,當負樣本占比99%時,分類器就算把所有樣本都預測為負樣本,那也可以獲得99%的準確率。所以,當正負樣本的比例非常不均衡時,準確率這個評價指標對評價模型好壞是沒有多大的參考意義的。
繼續(xù)回到案例1這個問題,奢侈品用戶只占據(jù)全體用戶的一小部分,雖然模型在整體數(shù)據(jù)上的準確率很高,但是這并不代表僅對奢侈品用戶的準確率也達到了相應的高度。那么這就要求我們對評價指標的選擇進行進一步的考量。
當然,我這里僅僅是通過這個案例說明一下評價指標的重要性,影響模型好壞的原因有很多,比如該案例中訓練集和驗證集的劃分可能不太合理,也可能模型在訓練過程中出現(xiàn)了過擬合的情況,很多因素都會對最終的結(jié)果產(chǎn)生影響。
案例2
Youtube提供視頻模糊搜索功能,搜索模型返回的Top5準確率非常高,但是用戶在實際的使用過程中卻還是經(jīng)常出現(xiàn)找不到自己目標視頻的情況。
針對這個問題,我還是要引出倆個概念,即精確率和召回率。
精確率是指分類正確的正樣本個數(shù)占分類器判定為正樣本的樣本個數(shù)的比例。
召回率是指分類正確的正樣本個數(shù)占真正的正樣本個數(shù)的比例。
在排序問題中,通常沒有一個確定的閾值把得到的結(jié)果直接判定為正樣本或負樣本,而是采用Top N的形式返回結(jié)果的Precision值和Recall值來衡量模型的性能,即認為模型返回的Top N的結(jié)果就是模型判定的正樣本,然后計算前N個位置上的準確率Precision N和前N個位置上的召回率Recall N。
精確率和召回率是既矛盾又統(tǒng)一的兩個個體,一方增加必定導致另一方減少,繼續(xù)回到案例2,模型返回的Precision 5的質(zhì)量很高。但在實際應用過程中,用戶為了找一些冷門的視頻,往往會尋找排在較靠后位置的結(jié)果。那么也就是說用戶還是經(jīng)常找不到想要的視頻,這說明模型沒有把相關(guān)的視頻都找出來呈現(xiàn)給用戶。
顯然,問題出在召回率上。如果相關(guān)結(jié)果有100個,即使Precision 5達到了 100%,那么Recall 5也僅僅有5%。
通過這個案例我想讓大家明白的是,在模型評估時,我們應該同時關(guān)注Precision值 和Recall值,不能一味的為了提高某一個指標而忽略了其它的指標,那么這里就需要我們找到一個能同時反應模型精確率和召回率的指標,到這里就要引出今天的主角P-R曲線(Precision- Recall)。
P-R曲線的橫軸是召回率,縱軸是精確率。
對于一個排序模型來說,其P-R曲線上的一個點代表著:在某一閾值下,模型將大于該閾值的結(jié)果判定為正樣本,小于該閾值的結(jié)果判定為負樣本,此時返回結(jié)果對應的召回率和精確率。
整條P-R曲線是通過將閾值從高到低移動而生成的。下圖就是P-R曲線樣例圖,其中實線代表模型A的P-R曲線,虛線代表模型B的P-R曲線。原點附近代表當閾值最大時模型的精確率和召回率。

從上圖我們可以看到,當召回率接近于0時,模型A的精確率為0.9,模型B的精確率是1, 這說明模型B得分前幾位的樣本全部是真正的正樣本,而模型A即使得分最高的幾個樣本也存在預測錯誤的情況。并且,隨著召回率的增加,精確率整體呈下降趨勢。
但是,當召回率為1時,模型A的精確率反而超過了模型B。這充分說明,只用某個點對應的精確率和召回率是不能全面地衡量模型的性能的,只有通過P-R曲線的整體表現(xiàn),才能夠?qū)δP瓦M行更為全面的評估。
總結(jié)
當然,評價指標有很多,這里我沒有展開討論太多,這篇文章我只想讓大家明白模型評估的重要性,每項評估指標都有其存在的意義,我們在解決實際問題時絕不能只考慮單一片面的指標,這樣的得到的結(jié)果是沒有多大參考意義的,只有選擇那些合適的評價指標才能更好的解決實際場景中的問題。
學習資料+福利都在【學姐帶你玩AI】公眾號
歡迎大家關(guān)注!有想要的資料后臺回復哦~