最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R-sq越高代表模型擬合越好?

2023-03-07 13:55 作者:MinitabUG  | 我要投稿

在統(tǒng)計(jì)建模中,究竟R-sq應(yīng)該取多大? 我們經(jīng)常聽到這個(gè)疑問(wèn)。以前,我們分享過(guò)如何解釋R-Sq,我們還糾正了一個(gè)統(tǒng)計(jì)上的誤區(qū),即較低的R-sq不一定差,較高的R-sq不一定好。顯然,“R-sq應(yīng)該多高”的答案就是:視情況而定。

盲目追求高R-sq的模型很容易掉入過(guò)度擬合的陷阱,這一點(diǎn)在大數(shù)據(jù)建模中經(jīng)常發(fā)現(xiàn)。

什么是好的模型?

我們?cè)诮5臅r(shí)候最不愿意看到兩種情況:過(guò)度擬合和欠擬合。使用與擬合模型相同的數(shù)據(jù)來(lái)評(píng)估模型,經(jīng)常會(huì)導(dǎo)致過(guò)度擬合,如下圖:

而這種過(guò)度擬合的模型如果用來(lái)預(yù)測(cè)的話,效果往往不好。

那么什么才算一個(gè)好的模型呢?一個(gè)好的模型需要在高方差(過(guò)度擬合)和高偏差(欠擬合)之間找到一種權(quán)衡。

上圖就是由于模型太簡(jiǎn)單導(dǎo)致存在高的偏差。

上圖就是由于模型過(guò)度擬合導(dǎo)致存在高的方差。

過(guò)度擬合與欠擬合之間的權(quán)衡

那么如何去找到“高偏差”與“高方差”之間的權(quán)衡呢?這就需要用到“驗(yàn)證”法了。

大數(shù)據(jù)建模把數(shù)據(jù)分為兩大類:訓(xùn)練集和測(cè)試集。訓(xùn)練集用來(lái)創(chuàng)建模型,而測(cè)試集來(lái)評(píng)估模型的性能,這樣我們就可以來(lái)權(quán)衡過(guò)度擬合和欠擬合的模型。

舉個(gè)例子,對(duì)于同一組數(shù)據(jù)我們可以下面三個(gè)不同的模型,看起來(lái)立方模型是最好的。

但當(dāng)我們常用驗(yàn)證法,從下圖中我們可知,用訓(xùn)練集來(lái)建模時(shí),模型越復(fù)雜模型誤差確實(shí)越小,但再來(lái)看看測(cè)試集你會(huì)發(fā)現(xiàn)當(dāng)模型復(fù)雜到一定程度,它的誤差會(huì)隨著模型復(fù)雜度的增加而增大。也就是說(shuō),太簡(jiǎn)單和太復(fù)雜的模型都不能很好的用來(lái)預(yù)測(cè)??磥?lái)找到這個(gè)權(quán)衡點(diǎn)很重要,這是如何做到的呢?這就要來(lái)說(shuō)說(shuō)所謂的“驗(yàn)證”法了。

三種驗(yàn)證方法

在Minitab 21版本的回歸(擬合回歸模型、擬合二值Logistic模型、擬合Poisson模型)和預(yù)測(cè)分析模塊中包含三種用于驗(yàn)證的方法:

對(duì)這三種驗(yàn)證方法做一個(gè)簡(jiǎn)單介紹:

1. 留一驗(yàn)證法

這種方法正如其名,留一留一,就是留下一行yi,再用其他所有數(shù)據(jù)來(lái)建模,得到模型后再把留下來(lái)這一行代入得到的模型就會(huì)得到對(duì)應(yīng)的擬合者,其過(guò)程如下所示:

接下來(lái),我們計(jì)算預(yù)測(cè)的殘差平方和(Predicted Residual Sum of Squares)

有了PRESS就可以來(lái)計(jì)算R-sq(預(yù)測(cè))了,到這里是不是很熟悉了。

2. 測(cè)試集驗(yàn)證法

隨機(jī)保留一定比例(Minitab 21默認(rèn)保留30%)的數(shù)據(jù)(測(cè)試集),用剩余的數(shù)據(jù)來(lái)擬合模型(訓(xùn)練集)。

3. K折交叉驗(yàn)證法

將數(shù)據(jù)拆分個(gè)K個(gè)子集,以其中一份為測(cè)試數(shù)據(jù),其它K-1份用于訓(xùn)練數(shù)據(jù)來(lái)擬合模型。使用測(cè)試數(shù)據(jù)計(jì)算誤差,重復(fù)k次,每次忽略一份,基于測(cè)試數(shù)據(jù)誤差統(tǒng)計(jì)匯總信息選擇模型。

小結(jié)

當(dāng)你詢問(wèn)R-sq應(yīng)該取多大時(shí),可能是因?yàn)槟阆氪_定當(dāng)前模型是否能夠滿足要求。我希望你有更好的方法來(lái)解決這這個(gè)問(wèn)題而不是只通過(guò)R-sq,尤其當(dāng)你的數(shù)據(jù)量和數(shù)據(jù)維度比較大的時(shí)候。

R-sq越高代表模型擬合越好?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
清水县| 伊通| 吉安市| 宜宾县| 平山县| 阳江市| 铜鼓县| 高尔夫| 苍梧县| 苍溪县| 依安县| 马鞍山市| 澜沧| 招远市| 毕节市| 嵩明县| 留坝县| 巨野县| 甘肃省| 雅安市| 东安县| 定襄县| 临海市| 孙吴县| 唐山市| 汽车| 朝阳县| 平谷区| 临夏县| 肃宁县| 德令哈市| 平凉市| 建瓯市| 宁波市| 聊城市| 东源县| 朝阳区| 白朗县| 子长县| 安龙县| 板桥市|