實(shí)驗(yàn)二 線(xiàn)性回歸與邏輯回歸
一、? 實(shí)驗(yàn)要求
1、深刻理解線(xiàn)性回歸和邏輯回歸的原理、權(quán)重系數(shù)的更新方法和模型評(píng)價(jià)方法。
2、理解梯度下降法的原理,會(huì)自編碼實(shí)現(xiàn)隨機(jī)、批量和小批量梯度下降法求解特征變量的系數(shù),并進(jìn)行可視化和結(jié)果的合理解釋。
3、掌握正則化的三種方法,嶺回歸、LASSO回歸和彈性網(wǎng)絡(luò)回歸,并會(huì)自編碼實(shí)現(xiàn)。
4、掌握邏輯回歸自編碼實(shí)現(xiàn)的方法,并使用梯度下降法和正則化避免過(guò)擬合,會(huì)對(duì)數(shù)據(jù)集進(jìn)行二分類(lèi)和多分類(lèi)。
5、會(huì)使用sklearn自帶的函數(shù)庫(kù)實(shí)現(xiàn)線(xiàn)性回歸和邏輯回歸,并會(huì)進(jìn)行超參數(shù)的選擇,包括交叉驗(yàn)證、網(wǎng)格搜索。
二、? 實(shí)驗(yàn)內(nèi)容
1、線(xiàn)性回歸模型
已知數(shù)據(jù)集abalone.data,該數(shù)據(jù)集共有8個(gè)特征屬性,Rings為因變量,共4177個(gè)樣本。其樣本特征屬性的含義可參考網(wǎng)址中的信息說(shuō)明(下載路徑:http://archive.ics.uci.edu/ml/datasets/Abalone)。
完成如下實(shí)驗(yàn)內(nèi)容:
(1)??? 閱讀資料,列表解釋各特征屬性的含義。
(2)??? 三種梯度下降法建立線(xiàn)性回歸模型:不考慮Sex屬性,使用其他7個(gè)樣本特征屬性和Rings因變量。
(3)??? 選擇一種梯度下降法,考慮三種正則化方法,建立線(xiàn)性回歸模型。
(4)??? 使用sklearn庫(kù)中自帶的LinearRegression、Ridge、RidgeCV、Lasso、LassoCV、ElasticNet、ElasticNetCV建立線(xiàn)性回歸模型,并進(jìn)行超參數(shù)的選擇。
(5)??? 對(duì)模型進(jìn)行評(píng)價(jià),對(duì)結(jié)果進(jìn)行解釋說(shuō)明,對(duì)可視化繪圖進(jìn)行解釋說(shuō)明。
2、邏輯回歸模型
阿維拉的數(shù)據(jù)集avila是從800張“阿維拉圣經(jīng)”的圖片中提取出來(lái)的,這是一本巨大的拉丁文版的整本圣經(jīng),產(chǎn)于十二世紀(jì)意大利和西班牙之間。對(duì)手稿的古文字分析使12位抄襲者的存在變得個(gè)性化。每個(gè)抄寫(xiě)員寫(xiě)的頁(yè)數(shù)并不相等。(下載:http://archive.ics.uci.edu/ml/datasets/Avila)。特征屬性描述如下:
F1?????? intercolumnar distance
F2?????? upper margin
F3?????? lower margin
F4?????? exploitation
F5?????? row number
F6?????? modular ratio
F7?????? interlinear spacing
F8?????? weight
F9?????? peak number
F10???? modular ratio/ interlinear spacing
Class: A, B, C, D, E, F, G, H, I, W, X, Y
完成如下實(shí)驗(yàn)內(nèi)容:
(1)??? 閱讀資料,列表解釋各特征屬性的含義。
(2)??? 把訓(xùn)練集avila-tr.txt和測(cè)試集avila-ts.txt合并為一個(gè)數(shù)據(jù)集,從中篩選類(lèi)別為E和F的兩類(lèi)數(shù)據(jù),進(jìn)行邏輯回歸二分類(lèi)。
(3)??? 選擇類(lèi)別為D、G、H、X和Y五個(gè)類(lèi)別的數(shù)據(jù),進(jìn)行邏輯回歸多分類(lèi),建立多分類(lèi)回歸模型。
(4)??? 各分類(lèi)模型適當(dāng)進(jìn)行可視化、度量標(biāo)準(zhǔn)的衡量和結(jié)果的解釋說(shuō)明。