一文看懂機(jī)器學(xué)習(xí)中欠擬合和過擬合知識點(diǎn)
簡單介紹下欠擬合和過擬合
令人困惑的術(shù)語在剛開始學(xué)習(xí)機(jī)器學(xué)習(xí)的時候會碰到很多,諸如過擬合、欠擬合、偏差-方差權(quán)衡等術(shù)語,但是這些概念通常是機(jī)器學(xué)習(xí)的核心,不能不學(xué),本文會幫助你理解一些專業(yè)術(shù)語。
機(jī)器學(xué)習(xí)模型的唯一目的是很好地泛化,泛化是模型從以前從未遇到過的輸入中創(chuàng)建合理輸出的能力。
通常,程序只能“機(jī)械地”響應(yīng)他們熟悉的輸入。模型的性能以及整個應(yīng)用程序的性能在很大程度上取決于模型的泛化。如果模型泛化得很好,它將達(dá)到其目的。
過擬合和欠擬合等概念是指可能影響模型性能的缺陷。這意味著了解模型的性能“如何”至關(guān)重要。
假設(shè)我們想用如下所示的數(shù)據(jù)集建立一個機(jī)器學(xué)習(xí)模型:

X 軸是輸入值,Y 軸是輸出值。
在機(jī)器學(xué)習(xí)中,構(gòu)建模型可以像線性回歸一樣通過在數(shù)據(jù)點(diǎn)之間擬合一條線來將輸入值映射到輸出值。這條擬合線負(fù)責(zé)欠擬合和過擬合。
在機(jī)器學(xué)習(xí)的訓(xùn)練階段,假設(shè)在線性回歸中,我們希望我們的模型遵循下圖中給出的一條線,這就是這兩個術(shù)語(欠擬合和過擬合)出現(xiàn)的地方。

在我們進(jìn)一步討論之前,讓我們先澄清兩個重要術(shù)語:
偏差和方差
假設(shè)使函數(shù)更易于學(xué)習(xí)的機(jī)器學(xué)習(xí)模型稱為偏差,當(dāng)在訓(xùn)練數(shù)據(jù)上訓(xùn)練模型并獲得非常低的誤差時,就會發(fā)生方差,但是當(dāng)您更改數(shù)據(jù)然后訓(xùn)練相同的先前模型時,會得到非常高誤差。
過擬合
過度擬合是指我們的模型訓(xùn)練從訓(xùn)練數(shù)據(jù)集中完成太多,因此總體成本將非常小,因此模型的泛化不可靠。

模型訓(xùn)練越多,過擬合的可能性就越大。我們總是希望我們的模型應(yīng)該找到趨勢,而不是所有數(shù)據(jù)點(diǎn)的擬合線。
如果處理不當(dāng),過度擬合也可能被稱為高方差導(dǎo)致得不償失。當(dāng)我們進(jìn)行訓(xùn)練時,模型學(xué)習(xí)是好的,并且適合于它,但是當(dāng)我們的測試數(shù)據(jù)來預(yù)測時,新的準(zhǔn)確度會降低,從而導(dǎo)致啟發(fā)降低。
欠擬合
當(dāng)我們的機(jī)器學(xué)習(xí)模型沒有從訓(xùn)練數(shù)據(jù)中學(xué)到足夠的知識,因此做出不可靠的預(yù)測時,就會發(fā)生欠擬合。
我們還期望我們的模型從輸入數(shù)據(jù)點(diǎn)中學(xué)習(xí)太多(即太多模式),并且可以通過提前停止訓(xùn)練來完成,也可以應(yīng)用任何其他方法。這些結(jié)果將導(dǎo)致模型無法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)足夠的模式,并且也無法捕捉到主導(dǎo)趨勢。這就是欠擬合的情況。

欠擬合也被稱為高偏差,這不利于將模型泛化為過擬合。
下圖是總結(jié)差異

在示例的幫助下,我們得出結(jié)論,Underfit 模型在訓(xùn)練或測試集中都不能很好地表現(xiàn)。

我們演示了如何使用具有多項(xiàng)式特征的線性回歸來逼近非線性函數(shù),以及如何避免欠擬合和過擬合。
我們將構(gòu)造兩個變量,比如X和y。
X將是一個隨機(jī)數(shù)或樣本,而Y將是余弦函數(shù)。該圖將類似于以下簡單地繪制X和Y。
使用線性回歸訓(xùn)練模型,預(yù)測和可視化結(jié)果。

使用線性回歸訓(xùn)練、預(yù)測和可視化模型。
現(xiàn)在,讓我們可視化我們的預(yù)測模型。

直線無法捕捉數(shù)據(jù)中的模式。這是欠擬合的一個例子。這個模型的誤差會很大。
結(jié)論
如何采取正確的措施,根據(jù)我們擁有的模型,我們模型的性能介于過擬合和欠擬合之間,但只有當(dāng)這些模型泛化良好時,模型才能實(shí)現(xiàn)其目的。泛化通過限制兩個不良結(jié)果高偏差和高方差來發(fā)揮作用。
原文鏈接:
https://pub.towardsai.net/underfitting-and-overfitting-with-python-examples-5a66cb470ebd
免責(zé)聲明:所載內(nèi)容來源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請聯(lián)系我們刪除。
