最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

機器學(xué)習(xí)——模型評估與選擇

2022-10-27 21:21 作者:Vector永遠的神  | 我要投稿

????首先是說一個基本的概念 NFL No Free Lunch Theorem 沒有免費的午餐,無論怎樣的學(xué)習(xí)算法,它們的誤差期望都是相同的,在全體問題上所有的算法所表現(xiàn)出來的性能期望是一樣的。但是針對我們具體研究的問題是存在差異性的,要限定研究范圍,具體問題具體分析。

????模型的實際輸出與真實樣本之間的差異稱為誤差,在訓(xùn)練集上的表現(xiàn)稱為經(jīng)驗誤差,在新樣本上的差異稱為泛化誤差。模型改進的方向就是努力降低經(jīng)驗誤差,可以通過測試集的方法來檢驗?zāi)M泛化誤差。如果對于訓(xùn)練集樣本的學(xué)習(xí)能力過于強大,則會出現(xiàn)過擬合現(xiàn)象,指的是把訓(xùn)練樣本的特性當作一般規(guī)律去看待,導(dǎo)致模型的泛化能力減弱。欠擬合就是在訓(xùn)練集上訓(xùn)練不到位,一般的共同特征都尚未發(fā)現(xiàn)學(xué)習(xí)。

????測試集的選擇方式有很多,但是由于NFL的規(guī)律限制,一般是采用留出法進行,使用訓(xùn)練集上的誤差來作為泛化誤差的近似,就需要保證訓(xùn)練的數(shù)據(jù)集與測試的數(shù)據(jù)集相關(guān),但不能大量重復(fù)出現(xiàn),也就類似于獨立同分布中進行采集得到,強化模型的“舉一反三”的能力。

????一般的方式是針對不同的真實結(jié)果,采用分層抽樣的原則從初始數(shù)據(jù)集中抽取少量樣本用做測試,使用同樣的方法抽取剩下的樣本用作訓(xùn)練集。

? ? 性能度量來評判模型的泛化能力,回歸任務(wù)一般就是使用方差來作為度量指標,離散型和連續(xù)性。

????錯誤率和精度就是相加等于一,為了補充則添加了查準率和查全率的定義概念,在二元正反分類問題中,查準率指的是在預(yù)測正例中,真實正例地比率,查全率指的是在真實正例中,預(yù)測正例所占的比率。

????一般情況下,二者是相互矛盾的,這是由于模型在分類篩選過程中地尺度問題所決定的,尺度寬松則查全率高而查準率低。

????用這兩個定義分別作為橫軸和縱軸畫出P-R圖,如果說A模型的曲線可以完全包住B模型的曲線,則可以認為A模型的性能優(yōu)于B模型。

????關(guān)于這個兩個模型的比較優(yōu)劣的方法,有很多數(shù)學(xué)公式,可以進一步地去看,我不太會概率統(tǒng)計,如果以后用到就直接比較測試集準確率和計算時間了。

????歡迎大家三連催更。

機器學(xué)習(xí)——模型評估與選擇的評論 (共 條)

分享到微博請遵守國家法律
汶上县| 凌源市| 墨玉县| 盐亭县| 芦溪县| 宜川县| 德格县| 郁南县| 固镇县| 日喀则市| 独山县| 洛阳市| 察隅县| 应城市| 灵宝市| 伊金霍洛旗| 锡林浩特市| 泽库县| 永顺县| 缙云县| 常山县| 浦北县| 宜章县| 宜川县| 阆中市| 红河县| 银川市| 彩票| 济南市| 玉溪市| 昌平区| 临汾市| 仪征市| 略阳县| 海原县| 安阳市| 乐安县| 舞钢市| 通城县| 鄯善县| 江都市|