實(shí)驗(yàn)一 模型評(píng)估與選擇
一、? 實(shí)驗(yàn)要求
1、理解過擬合與欠擬合的含義,會(huì)從偏差、方差的角度理解欠擬合和過擬合。
2、理解常見的模型評(píng)估方法的理論含義和方法,如留出法、交叉驗(yàn)證法、自助法以及模型的網(wǎng)格搜索和貝葉斯優(yōu)化選擇超參的方法,并要求會(huì)根據(jù)實(shí)際問題選擇合適的方法,實(shí)現(xiàn)模型的選擇和優(yōu)化。
3、理解常見的性能度量方法,如混淆矩陣、查準(zhǔn)率、查全率、F1、P-R曲線、AP、ROC曲線、AUC、代價(jià)曲線等,并會(huì)實(shí)踐。
4、會(huì)使用skleran庫提供的各種性能度量和模型評(píng)估方法,會(huì)自編寫程序計(jì)算各種性能指標(biāo),并進(jìn)行可視化。
二、? 實(shí)驗(yàn)內(nèi)容
已知數(shù)據(jù)集wine.csv(下載路徑:http://archive.ics.uci.edu/ml/machine-learning-databases/wine/),該數(shù)據(jù)集共有13個(gè)特征屬性,3個(gè)類別,class 1共59個(gè)樣本,class2共71個(gè)樣本,class3共48個(gè)樣本,合計(jì)179個(gè)樣本數(shù)據(jù)。其中特征屬性含義如下:
1) Alcohol:酒精,2) Malic acid:蘋果酸,3) Ash:灰分,4) Alcalinity of ash:灰分堿性,5) Magnesium:鎂,6) Total phenols:總酚,7) Flavanoids:黃酮類,8) Nonflavanoid phenols:非揮發(fā)性酚類,9) Proanthocyanins:原花青素,10)Color intensity:顏色強(qiáng)度,11)Hue:色調(diào),12)OD280/OD315 of diluted wines:稀釋葡萄酒OD280/OD315,13)Proline:脯氨酸。
參考視頻內(nèi)容:https://www.bilibili.com/video/BV14p4y1h7ay,按要求完成如下實(shí)驗(yàn)內(nèi)容:
1、網(wǎng)格搜索交叉驗(yàn)證法,分類算法自選;
2、貝葉斯優(yōu)化調(diào)參和模型選擇,自行選擇三個(gè)分類算法并設(shè)置參數(shù);
3、實(shí)現(xiàn)P-R曲線繪制和AP計(jì)算;
4、實(shí)現(xiàn)ROC曲線繪制和AUC計(jì)算;
5、自編程序?qū)崿F(xiàn)各性能指標(biāo)的計(jì)算,以及可視化。