數(shù)據(jù)處理之插值添補(bǔ)缺失值
????缺失值插補(bǔ)一般使用在建模過(guò)程當(dāng)中,由于很多模型無(wú)法處理NaN,我們?nèi)绻粚?duì)一些字段進(jìn)行插補(bǔ),很可能要?jiǎng)h除過(guò)多數(shù)據(jù);所以我們采用插補(bǔ)的方式盡可能的保留數(shù)據(jù)集的信息,而缺點(diǎn)就是帶入了“人造數(shù)據(jù)”。
????插補(bǔ)的關(guān)鍵在于:盡量在不破壞數(shù)據(jù)原始分布的情況下保留信息。所以,插補(bǔ)是當(dāng)數(shù)據(jù)量不足的時(shí)候采用的,如果是數(shù)據(jù)量充足,刪除缺失值即可;插補(bǔ)中我們要少帶入人造信息,所以當(dāng)數(shù)據(jù)近似正態(tài)分布的時(shí)候一般選擇平均值Mean。
我們介紹幾類(lèi)常見(jiàn)的處理差補(bǔ)法的方法:
1.?固定值
2.?均值
3.?眾數(shù)
4.?中位數(shù)
1.?固定值
用固定值,比如80來(lái)填充體育的的NaN值。


知識(shí)點(diǎn):
pandas中fillna()方法,能夠使用指定的方法填充N(xiāo)A/NaN值。
1.函數(shù)詳解
函數(shù)形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
參數(shù):
value:用于填充的空值的值。
method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定義了填充空值的方法, pad / ffill表示用前面行/列的值,填充當(dāng)前行/列的空值, backfill / bfill表示用后面行/列的值,填充當(dāng)前行/列的空值。
axis:軸。0或’index’,表示按行刪除;1或’columns’,表示按列刪除。
inplace:是否原地替換。布爾值,默認(rèn)為False。如果為T(mén)rue,則在原DataFrame上進(jìn)行操作,返回值為None。
limit:int, default None。如果method被指定,對(duì)于連續(xù)的空值,這段連續(xù)區(qū)域,最多填充前 limit 個(gè)空值(如果存在多段連續(xù)區(qū)域,每段最多填充前 limit 個(gè)空值)。如果method未被指定, 在該axis下,最多填充前 limit 個(gè)空值(不論空值連續(xù)區(qū)間是否間斷)
downcast:dict, default is None,字典中的項(xiàng)為,為類(lèi)型向下轉(zhuǎn)換規(guī)則?;蛘邽樽址癷nfer”,此時(shí)會(huì)在合適的等價(jià)類(lèi)型之間進(jìn)行向下轉(zhuǎn)換,比如float64 to int64 if possible。
2.?均值
用均值來(lái)填充體育的的NaN值。


知識(shí)點(diǎn):
mean(): 返回?cái)?shù)據(jù)的均值。使用DataFrame數(shù)據(jù)調(diào)用mean()函數(shù),返回結(jié)果為DataFrame中每一列的平均值,mean()不能計(jì)算字符串或object的平均值,所以會(huì)自動(dòng)將不能計(jì)算的列省略。
3. 眾數(shù)
????用眾數(shù)插補(bǔ)缺失值。
?

知識(shí)點(diǎn):
眾數(shù)(Mode)是指在統(tǒng)計(jì)分布上具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,代表數(shù)據(jù)的一般水平。 也是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。
4.?中位數(shù)
用中位數(shù)插補(bǔ)缺失值。

知識(shí)點(diǎn):
中位數(shù)(Median)又稱(chēng)中值,統(tǒng)計(jì)學(xué)中的專(zhuān)有名詞,是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),代表一個(gè)樣本、種群或概率分布中的一個(gè)數(shù)值,其可將數(shù)值集合劃分為相等的上下兩部分。對(duì)于有限的數(shù)集,可以通過(guò)把所有觀察值高低排序后找出正中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。
?