最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)處理之插值添補(bǔ)缺失值

2023-05-03 10:32 作者:tevop2000  | 我要投稿

????缺失值插補(bǔ)一般使用在建模過(guò)程當(dāng)中,由于很多模型無(wú)法處理NaN,我們?nèi)绻粚?duì)一些字段進(jìn)行插補(bǔ),很可能要?jiǎng)h除過(guò)多數(shù)據(jù);所以我們采用插補(bǔ)的方式盡可能的保留數(shù)據(jù)集的信息,而缺點(diǎn)就是帶入了“人造數(shù)據(jù)”。

????插補(bǔ)的關(guān)鍵在于:盡量在不破壞數(shù)據(jù)原始分布的情況下保留信息。所以,插補(bǔ)是當(dāng)數(shù)據(jù)量不足的時(shí)候采用的,如果是數(shù)據(jù)量充足,刪除缺失值即可;插補(bǔ)中我們要少帶入人造信息,所以當(dāng)數(shù)據(jù)近似正態(tài)分布的時(shí)候一般選擇平均值Mean。

我們介紹幾類(lèi)常見(jiàn)的處理差補(bǔ)法的方法:

1.?固定值

2.?均值

3.?眾數(shù)

4.?中位數(shù)

1.?固定值

用固定值,比如80來(lái)填充體育的的NaN值。


知識(shí)點(diǎn):

pandas中fillna()方法,能夠使用指定的方法填充N(xiāo)A/NaN值。

1.函數(shù)詳解

函數(shù)形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

參數(shù):

value:用于填充的空值的值。

method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定義了填充空值的方法, pad / ffill表示用前面行/列的值,填充當(dāng)前行/列的空值, backfill / bfill表示用后面行/列的值,填充當(dāng)前行/列的空值。

axis:軸。0或’index’,表示按行刪除;1或’columns’,表示按列刪除。

inplace:是否原地替換。布爾值,默認(rèn)為False。如果為T(mén)rue,則在原DataFrame上進(jìn)行操作,返回值為None。

limit:int, default None。如果method被指定,對(duì)于連續(xù)的空值,這段連續(xù)區(qū)域,最多填充前 limit 個(gè)空值(如果存在多段連續(xù)區(qū)域,每段最多填充前 limit 個(gè)空值)。如果method未被指定, 在該axis下,最多填充前 limit 個(gè)空值(不論空值連續(xù)區(qū)間是否間斷)

downcast:dict, default is None,字典中的項(xiàng)為,為類(lèi)型向下轉(zhuǎn)換規(guī)則?;蛘邽樽址癷nfer”,此時(shí)會(huì)在合適的等價(jià)類(lèi)型之間進(jìn)行向下轉(zhuǎn)換,比如float64 to int64 if possible。


2.?均值

用均值來(lái)填充體育的的NaN值。

知識(shí)點(diǎn):

mean(): 返回?cái)?shù)據(jù)的均值。使用DataFrame數(shù)據(jù)調(diào)用mean()函數(shù),返回結(jié)果為DataFrame中每一列的平均值,mean()不能計(jì)算字符串或object的平均值,所以會(huì)自動(dòng)將不能計(jì)算的列省略。

3. 眾數(shù)

????用眾數(shù)插補(bǔ)缺失值。

?

知識(shí)點(diǎn):

眾數(shù)(Mode)是指在統(tǒng)計(jì)分布上具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,代表數(shù)據(jù)的一般水平。 也是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。

4.?中位數(shù)


用中位數(shù)插補(bǔ)缺失值。

知識(shí)點(diǎn):

中位數(shù)(Median)又稱(chēng)中值,統(tǒng)計(jì)學(xué)中的專(zhuān)有名詞,是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),代表一個(gè)樣本、種群或概率分布中的一個(gè)數(shù)值,其可將數(shù)值集合劃分為相等的上下兩部分。對(duì)于有限的數(shù)集,可以通過(guò)把所有觀察值高低排序后找出正中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。

?



數(shù)據(jù)處理之插值添補(bǔ)缺失值的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
汉中市| 邯郸市| 秦安县| 友谊县| 新津县| 托克托县| 嵊州市| 河间市| 鄂伦春自治旗| 绥江县| 德阳市| 包头市| 开原市| 仪征市| 双鸭山市| 青州市| 阿拉尔市| 济宁市| 新野县| 彰化县| 邵武市| 布拖县| 永康市| 定西市| 赣榆县| 临江市| 汝州市| 成安县| 天祝| 芷江| 徐水县| 增城市| 黄山市| 民丰县| 亳州市| 衡水市| 运城市| 邵阳县| 荥阳市| 翁牛特旗| 岱山县|