保獎班09:數(shù)據(jù)預處理專項講解

數(shù)據(jù)預處理 即使數(shù)據(jù)完整,也要有相應步驟

目錄

數(shù)據(jù)存在的問題




國賽的數(shù)據(jù)處理不會占太大部分,一般是比較干凈的

數(shù)據(jù)預處理的步驟:
??數(shù)據(jù)清洗
??數(shù)據(jù)集成
??數(shù)據(jù)歸約(消減)
??數(shù)據(jù)變換(轉(zhuǎn)換)



偏態(tài)分布轉(zhuǎn)為正態(tài)分布
?指數(shù)函數(shù):右移
?對數(shù)函數(shù):左移

T檢驗,需要數(shù)據(jù)是正態(tài)的

數(shù)據(jù)清洗后,數(shù)據(jù)的數(shù)量級不一致會造成求解速度慢,一般在需要進行機器學習的時候會用到

最多的情況是缺失值和異常值

數(shù)據(jù)插補



回歸方法不推薦,工作量大

插值法:拉格朗日插值法

牛頓插值法:




異常值處理

如何發(fā)現(xiàn)異常值:
1.3sigma原則

2. 箱線圖


箱線圖+散點圖判斷異常值





標簽: