最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

機器學習數(shù)據(jù)劃分完全解讀-train訓練集、validation驗證集和test測試集

2023-09-19 14:29 作者:python風控模型  | 我要投稿

本文旨在為那些在訓練機器學習模型時需要了解各種數(shù)據(jù)集分割劃分的學習者提供簡短的入門概述。

訓練數(shù)據(jù)集

訓練數(shù)據(jù)集:用于擬合模型的數(shù)據(jù)樣本。

我們用來訓練模型的實際數(shù)據(jù)集(神經(jīng)網(wǎng)絡的權重和偏差)。該模型查看這些數(shù)據(jù)并從中學習。訓練集得到的模型結果容易比測試集或驗證集結果偏高,極少數(shù)情況出現(xiàn)相反情況。

驗證數(shù)據(jù)集

驗證數(shù)據(jù)集:用于在調(diào)整模型超參數(shù)時對訓練數(shù)據(jù)集上的模型擬合情況進行無偏評估的數(shù)據(jù)樣本。隨著驗證數(shù)據(jù)集的技能被納入模型配置中,評估變得更加有偏差。

驗證集用于評估給定的模型,但這是為了頻繁評估。作為機器學習工程師,我們使用這些數(shù)據(jù)來微調(diào)模型超參數(shù)。因此,模型偶爾會看到這些數(shù)據(jù),但永遠不會從中“學習”。我們使用驗證集結果,并更新更高級別的超參數(shù)。因此驗證集會影響模型,但只是間接影響。驗證集也稱為開發(fā)集或開發(fā)集。這是有道理的,因為該數(shù)據(jù)集在模型的“開發(fā)”階段很有幫助。

測試數(shù)據(jù)集

測試數(shù)據(jù)集:用于對訓練數(shù)據(jù)集上的最終模型擬合進行公正評估的數(shù)據(jù)樣本。

測試數(shù)據(jù)集提供了用于評估模型的黃金標準。僅在模型完全訓練后(使用訓練集和驗證集)才使用它。測試集通常用于評估競爭模型(例如在許多 Kaggle 競賽中,驗證集最初與訓練集一起發(fā)布,實際測試集僅在競賽即將結束時發(fā)布,并且是決定獲勝者的測試集上的模型結果)。很多時候驗證集被用作測試集,但這不是一個好的做法。測試集通常都經(jīng)過精心策劃。它包含仔細采樣的數(shù)據(jù),涵蓋模型在現(xiàn)實世界中使用時將面臨的各種類別。


關于數(shù)據(jù)集分割比

既然您知道這些數(shù)據(jù)集的用途,您可能正在尋找有關如何將數(shù)據(jù)集拆分為訓練集、驗證集和測試集的建議。

這主要取決于兩件事。首先是數(shù)據(jù)中的樣本總數(shù),其次是您正在訓練的實際模型。

某些模型需要大量數(shù)據(jù)進行訓練,因此在這種情況下,您需要針對更大的訓練集進行優(yōu)化。具有很少超參數(shù)的模型將很容易驗證和調(diào)整,因此您可以減少驗證集的大小,但如果您的模型有很多超參數(shù),您也希望擁有一個大的驗證集(盡管您也應該考慮交叉驗證)。此外,如果您碰巧有一個沒有超參數(shù)或無法輕松調(diào)整的模型,您可能也不需要驗證集!

總而言之,與機器學習中的許多其他事物一樣,訓練-測試-驗證分割比也非常適合您的用例,并且當您訓練和構建越來越多的模型時,做出判斷會變得更容易。


關于交叉驗證的注意事項:很多時候,人們首先將數(shù)據(jù)集分為 2 個部分——訓練和測試。之后,他們保留測試集,并隨機選擇訓練數(shù)據(jù)集的 X% 作為實際訓練集,其余 (100-X)% 作為驗證集,其中 X 是固定數(shù)字(例如 80%) ),然后在這些不同的集合上迭代訓練和驗證模型。有多種方法可以做到這一點,通常稱為交叉驗證?;旧?,您使用訓練集來生成訓練集和驗證集的多個分割。交叉驗證可以避免過度擬合,并且越來越流行,其中 K 折交叉驗證是最流行的交叉驗證方法。有興趣同學可以閱讀之前發(fā)布文章《StratifiedKFold分層K折交叉驗證》。

Toby老師提醒一下,機器學習和深度學習建模數(shù)據(jù)劃分比例是有差異的。機器學習train和validation(風控領域為相同時間段的取數(shù)數(shù)據(jù))數(shù)據(jù)劃分一般是七三開或四六開,深度學習劃分比例有差異,具體比例以具體項目實驗結果為準。


機器學習數(shù)據(jù)劃分就為大家介紹到這里,《從0到1 Python數(shù)據(jù)科學之旅》有大量數(shù)據(jù)科學建模實際案例,大家掃一掃下面二維碼,記得收藏課程。

版權聲明:文章來自公眾號(python風控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權協(xié)議,轉載請附上原文出處鏈接及本聲明。

機器學習數(shù)據(jù)劃分完全解讀-train訓練集、validation驗證集和test測試集的評論 (共 條)

分享到微博請遵守國家法律
花莲市| 甘孜县| 太仓市| 锡林浩特市| 堆龙德庆县| 墨竹工卡县| 师宗县| 延寿县| 盐城市| 静海县| 怀集县| 云龙县| 大方县| 安泽县| 秦皇岛市| 彰化市| 武功县| 静海县| 曲阳县| 县级市| 咸阳市| 枞阳县| 云浮市| 佛冈县| 嘉黎县| 楚雄市| 文登市| 金乡县| 漳平市| 嫩江县| 泰安市| 屏山县| 克拉玛依市| 合肥市| 固镇县| 吉林省| 怀仁县| 上虞市| 手游| 开阳县| 堆龙德庆县|