散文網(wǎng) » 科技 »學(xué)習(xí) » 數(shù)據(jù)清洗最基礎(chǔ)的10個問題，基本涵蓋目前常見的數(shù)分場景！

數(shù)據(jù)清洗最基礎(chǔ)的10個問題，基本涵蓋目前常見的數(shù)分場景！

2021-04-25 09:32 作者:愛數(shù)據(jù)分析社區(qū) 0人讀過 | 我要投稿

來源：小一的學(xué)習(xí)筆記作者：xiaoyi

大家好，今天分享一個數(shù)據(jù)分析中最常見的概念：數(shù)據(jù)清洗。

很多時候，數(shù)據(jù)預(yù)處理和數(shù)據(jù)清洗、特征工程等混為一談，以至于大家分不清到底哪一步用誰。我個人的理解是：數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)集進行探索性分析，而特征工程則是進行分析后的相應(yīng)處理。以上兩個名詞不常說，最常聽的應(yīng)該還是數(shù)據(jù)清洗，差不多也就相當于上面兩個步驟。

例如：在預(yù)處理階段發(fā)現(xiàn)數(shù)據(jù)存在缺失值、異常值；數(shù)據(jù)特征之間存在共線性；數(shù)據(jù)特征可以互相組合形成更好的特征等等。就可以在特征工程階段對上述發(fā)現(xiàn)的問題進行相應(yīng)的處理。

以下總結(jié)了在數(shù)據(jù)預(yù)處理和特征工程階段最常見的10個問題，基本上可以涵蓋大多數(shù)的處理場景：

01

什么是數(shù)據(jù)EDA？

EDA：Exploratory Data Analysis，譯為：探索性數(shù)據(jù)分析。數(shù)據(jù) EDA 是在拿到數(shù)據(jù)之后對數(shù)據(jù)進行初步探索認識的一個過程，在數(shù)據(jù) EDA 階段，并不對數(shù)據(jù)做任何處理，只進行數(shù)據(jù)探索，而在特征工程階段會對數(shù)據(jù)進行相關(guān)操作。具體的，數(shù)據(jù) EDA 有如下作用：

了解數(shù)據(jù)的分布、特征的類別，以及發(fā)現(xiàn)離群點數(shù)據(jù)。這一步可通過簡單的直方圖、散點圖、小提琴圖、箱型圖等進行探索；
了解數(shù)據(jù)特征與特征之間的關(guān)聯(lián)情況，以及特征與目標變量之間的關(guān)系。這一步可通過組合直方圖、熱力圖等進行探索；
對于劃分后的數(shù)據(jù)集，可以探索訓(xùn)練集和測試集的樣本整體分布是否一致，數(shù)據(jù)特征的缺失情況、分布是否一致等。

02

缺失值的處理方式有哪些？

對于缺失值的處理有很多方法，在缺失率低的情況下可以對缺失數(shù)據(jù)進行填充，比如使用均值、眾數(shù)、隨機森林算法等進行缺失值填充。

另外，如果缺失值不能簡單的填充，可以將缺失數(shù)據(jù)當做特征中的某個類別處理（具體的也可以在數(shù)據(jù) EDA 中探索數(shù)據(jù)缺失的情況下和目標變量之間的關(guān)系）如果某個特征的缺失程度過高，也可以直接剔除該特征。需要注意的是，在 xgb 和 lgb 模型中可以自動處理缺失值，所以不需要提前進行處理。

03

如何檢測異常數(shù)據(jù)？如何處理？

異常數(shù)據(jù)的檢測有兩種方法，基于統(tǒng)計的異常點檢測和基于距離的異常點檢測?；诮y(tǒng)計的異常點檢測常用的有四分位法，通過上下四分位對異常數(shù)據(jù)進行篩選，特別的，在數(shù)據(jù) EDA 階段可以通過箱型圖、小提琴圖進行類似原理的檢測。

基于距離的異常點檢測可以參考聚類模型，通過歐氏距離公式計算點點之間的距離，并據(jù)此篩選異常數(shù)據(jù)。對于異常數(shù)據(jù)，可以替換也可以刪除；特別的，在風(fēng)控模型中，會通過 WOE 轉(zhuǎn)換對數(shù)據(jù)進行處理，將數(shù)據(jù)分成一箱一箱的，據(jù)此可以消除異常值對整體數(shù)據(jù)的影響。

04

什么是特征工程？有什么作用？

特征工程總體來說是對數(shù)據(jù)進行處理、轉(zhuǎn)換、篩選等，對在數(shù)據(jù) EDA 階段發(fā)現(xiàn)的缺失數(shù)據(jù)、異常數(shù)據(jù)等，都會在特征工程中進行處理，另外，對于特征的衍生、組合、轉(zhuǎn)換等操作也會在此進行。

特征工程的目的就是通過數(shù)據(jù)預(yù)處理、特征衍生、特征篩選從而得到規(guī)整的數(shù)據(jù)和貢獻度大的特征，使模型達到更好的效果。

05

特征工程的一般步驟是什么

特征工程的一般步驟包括數(shù)據(jù)預(yù)處理，特征轉(zhuǎn)換和特征篩選三部分。

數(shù)據(jù)預(yù)處理：主要對缺失值、異常值、數(shù)據(jù)格式等進行簡單的處理操作；
特征轉(zhuǎn)換：對連續(xù)特征、離散特征、時間序列特征等進行轉(zhuǎn)換，更進一步的，還會對特征之間進行特征組合，包括但不限于四則運算、交叉、合并等業(yè)務(wù)上的特征操作；

例如：未婚 + 本科畢業(yè)，男生 + 有房有車
特征篩選：在上一步生成的大量的特征中篩選部分對目標變量有明顯貢獻的特征，常用的方法有?過濾法、包裝法和嵌入法（后面會具體介紹）

06

特征衍生的方法有哪些？

常用的特征衍生主要包括業(yè)務(wù)上的衍生和非業(yè)務(wù)上的衍生，整理如下：

業(yè)務(wù)上的特征衍生：基于對業(yè)務(wù)的深入理解，進行頭腦風(fēng)暴，或者整合第三方的數(shù)據(jù)進行業(yè)務(wù)上的交叉和延伸
非業(yè)務(wù)上的特征衍生：拋開業(yè)務(wù)本身，對于特征可以進行四則運算、取平均/最大/最小、單位轉(zhuǎn)換等操作；另外，對于類別特征，還可以進行獨熱編碼等衍生操作。

07

如何做特征轉(zhuǎn)換

對于時間序列特征、連續(xù)特征、離散特征如何做特征轉(zhuǎn)換的？

對于時間序列特征：將時間變量的維度進行分離（年/月/日/時/分/秒），或者進行簡單的衍生（季度、星期、凌晨、中午等），更進一步的可以與其他變量進行組合
對于連續(xù)型特征：常用標準化、歸一化、離散化等操作。評分卡模型中主要用到離散化分箱，常用的離散化方法有：卡方分箱、等頻等距分箱等。
對于離散型特征：如果是無序離散可以用獨熱編碼，如果是有序離散可以用順序編碼。如果類別數(shù)較多可以使用平均數(shù)編碼

08

如何處理樣本不平衡問題

風(fēng)控模型中樣本不平衡主要是因為壞樣本的數(shù)量太少，壞樣本受限于用戶本來就較少，也因為風(fēng)控策略的嚴格導(dǎo)致壞用戶過少。在針對此類數(shù)據(jù)樣本一般使用如下方法：

嘗試擴大數(shù)據(jù)集，比如通過延長時間線來收集數(shù)據(jù)，將三個月的用戶數(shù)據(jù)延長到六個月以增加數(shù)據(jù)量；
對數(shù)據(jù)集進行抽樣，一種是進行欠采樣，通過減少較多類的數(shù)據(jù)樣本來降低數(shù)據(jù)的不平衡；另一種是進行過采樣，通過增加較少類的數(shù)據(jù)樣本來降低數(shù)據(jù)的不平衡，常用 SMOTE 方法來實現(xiàn)過采樣；
嘗試使用對不平衡樣本數(shù)據(jù)處理效果較好的模型，如 xgb 和 lgb 模型。

09

特征篩選的作用和目的

在開始建模前的最后一個步驟就是進行特征篩選，特征篩選就是從所有的特征中篩選出貢獻度最高的 m 個特征，使用篩選后的特征建模后有如下好處：

大大縮短模型訓(xùn)練的時間，特別是在評分卡模型數(shù)據(jù)維度特別多時效果更佳；
簡化模型，避免維度過多產(chǎn)生維度災(zāi)難；
增加模型的可解釋性，減低模型過擬合的風(fēng)險。

10

特征篩選方法和優(yōu)缺點

特征篩選常用的方法有過濾法、封裝法和嵌入法，如何如下：

過濾法 Filter：按照發(fā)散性或者相關(guān)性對各個特征進行評分，手動設(shè)定閾值或者待選擇閾值的個數(shù)，選擇特征。比較常用的方法有：方差過濾、卡方齊性檢驗、互信息法過濾、相關(guān)系數(shù)過濾、IV 值過濾，其中，后兩個較常用。

優(yōu)點：算法復(fù)雜度低、通用性強，不需要訓(xùn)練分類器，對于大規(guī)模數(shù)據(jù)集比較實用；
缺點：對于特征的評分在準確率上一般較低。

嵌入法 Embedded：先使用某些機器學(xué)習(xí)算法進行模型訓(xùn)練，得到各個特征的權(quán)重系數(shù)，根據(jù)系數(shù)從大到小選擇特征。比較常用的方法有：基于隨機森林、xgb、lgb 的嵌入法和使用懲罰項的模型的嵌入法（如嶺回歸，lasso 回歸等）
上述提到的權(quán)重系數(shù)代表特征對于模型的某種貢獻或重要性，比較樹模型中的 feature_importances_ 屬性。

優(yōu)點：更加精確到模型的效用本身，對于模型性能的提升較好
缺點：特征對于模型貢獻度的閾值無法主觀確定，需要根據(jù)實際情況確定。

包裝法 Wrapper：與嵌入法類似，包裝法是一個特征選擇和算法訓(xùn)練同時進行的方法，比較依賴于算法自身的選擇。比較常用的方法有：遞歸消除法、啟發(fā)式搜索（前向/后向選擇法，逐步選擇法）、隨機搜索。啟發(fā)式搜索較常用。具體的，包裝法在初始訓(xùn)練集上訓(xùn)練評估器，通過 coed_ 屬性或者通過 feature_importances_ 屬性獲得每個特征的重要性；然后，從當前的一組特征中修剪最不重要的特征，重復(fù)遞歸該過程直到特征達到要求

優(yōu)點：相對于過濾法，封裝法的分類性能會更好缺點：通用性不強，當改變學(xué)習(xí)算法時，需要針對該學(xué)習(xí)算法重新繼續(xù)寧特征選擇；并且對于大規(guī)模數(shù)據(jù)，執(zhí)行時間較長。

關(guān)注我即刻了解更多數(shù)據(jù)分析知識
更多數(shù)據(jù)分析內(nèi)容
掃描二維碼即可了解

標簽：