唐宇迪深度學(xué)習(xí)30天系統(tǒng)實訓(xùn)
如果missing value所占比例大,那么直接將miss value當(dāng)做一種特殊的情況,另取一個值填入
處理Outlier:這個就是之前EDA的作用了,通過畫圖,找出異常值
處理categorical feature:一般就是通過dummy variable的方式解決,也叫one hot encode,可以通過pandas.get_dummies()或者 sklearn中preprocessing.OneHotEncoder(), 我個人傾向于用pandas的get_dummies()
看個例子吧,
標(biāo)簽: