數(shù)據(jù)處理之數(shù)據(jù)歸一化
我們?yōu)槭裁匆鰯?shù)據(jù)歸一化,主要是數(shù)據(jù)在不同的量綱上,在機器學習領(lǐng)域中,不同的量綱和量綱單位,這樣的數(shù)據(jù)最終會影響到結(jié)果;為了解決這個問題我們要對數(shù)據(jù)做歸一化處理。
歸一化的目的就是使得預(yù)處理的數(shù)據(jù)被限定在一定的范圍內(nèi)(比如[0,1]或者[-1,1]),從而消除樣本數(shù)據(jù)的不良影響。
常用的歸一化算法如下:
1、min-max標準化(Min-Max Normalization)
也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下:

其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當有新數(shù)據(jù)加入時,可能導致max和min的變化,需要重新定義。
2、Z-score標準化方法
這種方法給予原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1,轉(zhuǎn)化函數(shù)為:

其中為μ所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標準差。該種歸一化方式要求原始數(shù)據(jù)的分布可以近似為高斯分布,否則處理的效果會變差。
min-max標準化實現(xiàn)如下:
打印輸出dataframe

打印輸出df_norm

Z-score標準化實現(xiàn)如下:

標簽: