散文網 » 生活 »日常 » 關于數據集的一些解答~

關于數據集的一些解答~

2023-04-10 13:02 作者:西二旗小諸葛 0人讀過 | 我要投稿

大家好久不見啦，不知道大家的量化策略建立的怎么樣啦

這個專欄主要回答一些朋友關于數據集的疑問。有朋友私信我：既然驗證集和測試集都不會用于訓練模型，都用于檢驗模型性能，那么為啥還需要兩個集合呢？

其實驗證集和測試集這種劃分，大多存在于實驗場景下驗證模型性能。驗證集用于選擇模型，測試集用于檢驗選擇出來的模型的性能。

結合實際場景的話，就不是特別需要驗證集、測試集這種劃分方式。因為實際場景中的數據就是測試集，我們在建模過程中，只需要劃分訓練集和驗證集就足夠啦。

就拿我們希望做到的事情為例，我們希望用歷史數據去構建一個量化模型，指導我們的交易。我們劃分訓練數據A來訓練模型，在用一部分驗證數據B來檢驗模型性能。最后，我們根據模型在驗證數據上的性能選出符合預期的模型，在實際場景中測試它的性能。在上述過程中，A毫無疑問是訓練集，B是驗證集，這二者都是實驗場景下的。測試數據是實際場景中的數據。

一句話總結驗證集和測試集的區(qū)別：驗證集是（被視為）實驗場景下的測試集，測試集是（被視為）實際場景中的測試集。

如果大家要檢驗模型性能，一定要在實際場景中測試~

放兩張圖，祝大家一路長紅~