最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)處理方法整理【目前最全】

2023-04-12 16:00 作者:編程小宇e  | 我要投稿

數(shù)據(jù)處理方法

主要采用編寫(xiě)數(shù)據(jù)處理代碼來(lái)對(duì)數(shù)據(jù)進(jìn)行處理步驟,主要采用Python語(yǔ)言,使用相關(guān)的Pandas、Numpy、Scikit-learn等庫(kù)來(lái)進(jìn)行操作,一些代碼實(shí)例如下。


1、缺失數(shù)據(jù)處理

數(shù)據(jù)缺失是指數(shù)據(jù)集中某行記錄或某列特征的變量值存在空值的情況。常用的缺失值處理方法主要包括以下幾種:

(1)刪除法,若數(shù)據(jù)集中某行記錄或某一列特征的數(shù)據(jù)缺失比率大于指定閱值時(shí),可以認(rèn)為該行數(shù)據(jù)或該列特征為無(wú)效數(shù)據(jù)或無(wú)效特征,直接刪除含缺失數(shù)據(jù)的記錄即可。

(2)基于統(tǒng)計(jì)學(xué)變量的填充法,這類(lèi)方法需要根據(jù)特征的類(lèi)型和分布情況決定采用哪種統(tǒng)計(jì)學(xué)變量進(jìn)行填充。例如:特征是離散型的,可以直接通過(guò)眾數(shù)對(duì)缺失值進(jìn)行填充;特征是連續(xù)數(shù)值型并且數(shù)據(jù)分布比較均勻,可以采用平均數(shù)對(duì)缺失值進(jìn)行填充,用全局變量或是屬性的平均值來(lái)代替所有缺失數(shù)據(jù);特征是連續(xù)數(shù)值型但分布傾斜,可以采用中位數(shù)進(jìn)行填充等。

(3)基于插值的填充法,這類(lèi)方法主要是通過(guò)隨機(jī)插值、拉格朗日插值、多項(xiàng)式插值等方法對(duì)缺失的變量值進(jìn)行填充。例如:多項(xiàng)式插值法是通過(guò)構(gòu)建多項(xiàng)式來(lái)擬合現(xiàn)有的數(shù)據(jù),使得所有的樣本數(shù)據(jù)都符合該多項(xiàng)式的分布,需要獲取某個(gè)樣本的缺失值時(shí),通過(guò)求解該多項(xiàng)式來(lái)獲得。


(4)基于模型的填充法,這類(lèi)方法是利用有監(jiān)督的模型或者無(wú)監(jiān)督的模型來(lái)實(shí)現(xiàn)缺失值的填充。例如:K近鄰填充是利用聚類(lèi)的方式來(lái)獲得某個(gè)缺失樣本鄰近的若干個(gè)樣本點(diǎn),通過(guò)對(duì)這些樣本點(diǎn)計(jì)算均值或加權(quán)平均來(lái)進(jìn)行缺失值填充。


(5)熱卡填充法,這類(lèi)方法是在數(shù)據(jù)集中尋找與缺失樣本最相似的樣本點(diǎn),并利用該最相似樣本的變量值對(duì)缺失數(shù)據(jù)進(jìn)行填充。問(wèn)題關(guān)鍵是不同的問(wèn)題可能會(huì)選用不同的標(biāo)準(zhǔn)來(lái)對(duì)相似進(jìn)行判定,以及如何制定這個(gè)判定標(biāo)準(zhǔn)。該方法概念上很簡(jiǎn)單,且利用了數(shù)據(jù)間的關(guān)系來(lái)進(jìn)行空值估計(jì),但缺點(diǎn)在于難以定義相似標(biāo)準(zhǔn),主觀因素較多。

(6)預(yù)測(cè)法,這類(lèi)方法是用預(yù)測(cè)模型來(lái)預(yù)測(cè)每一個(gè)缺失數(shù)據(jù)。用已有數(shù)據(jù)作為訓(xùn)練樣本來(lái)建立預(yù)測(cè)模型,預(yù)測(cè)缺失數(shù)據(jù)。該方法最大限度地利用已知的相關(guān)數(shù)據(jù),是比較流行的缺失數(shù)據(jù)處理技術(shù)。


2、數(shù)據(jù)重采樣

針對(duì)時(shí)序數(shù)據(jù)可采用數(shù)據(jù)重采樣方法,將時(shí)間序列從一個(gè)頻率轉(zhuǎn)換至另一個(gè)頻率的過(guò)程,它主要有兩種實(shí)現(xiàn)方式,分別是降采樣和升采樣,降采樣指將高頻率的數(shù)據(jù)轉(zhuǎn)換為低頻率,升采樣則與其恰好相反,將低頻率數(shù)據(jù)轉(zhuǎn)換到高頻率。


對(duì)于一些高密度傳感器,會(huì)在毫秒級(jí)別產(chǎn)生海量時(shí)序數(shù)據(jù),因此對(duì)此類(lèi)大量數(shù)據(jù)進(jìn)行采樣,將數(shù)據(jù)壓縮到秒、分鐘、小時(shí)等級(jí)別,來(lái)對(duì)數(shù)據(jù)進(jìn)行壓縮,較少數(shù)據(jù)量。

可采用Pandas 提供的 resample() 函數(shù)來(lái)實(shí)現(xiàn)數(shù)據(jù)的重采樣。


3、離群值處理

當(dāng)數(shù)據(jù)中的某個(gè)數(shù)據(jù)點(diǎn)明顯偏離于其他數(shù)據(jù)點(diǎn)的分布或者某個(gè)數(shù)據(jù)點(diǎn)明顯區(qū)別于其他的數(shù)據(jù)點(diǎn)時(shí),將其判定為離群點(diǎn)(異常值),對(duì)離群值可采用異常數(shù)據(jù)檢測(cè)的方法,檢測(cè)異常值并將其進(jìn)行去除。


異常數(shù)據(jù)檢測(cè)主要包括以下幾種方法:

(1)基于統(tǒng)計(jì)分析的方法,通過(guò)特征的描述信息以及特征值范圍來(lái)判斷數(shù)據(jù)是否異常。例如,對(duì)于年齡特征,規(guī)約其值的范圍是[0,200],當(dāng)出現(xiàn)了負(fù)數(shù)或者大于200的數(shù),則判斷為異常數(shù)據(jù)。

(2)基于密度的方法,通過(guò)離群點(diǎn)的局部密度顯著低于大部分近鄰點(diǎn)的特點(diǎn)進(jìn)行判定,適用于非均勻的數(shù)據(jù)集。

(3)基于聚類(lèi)的方法,一般正常的數(shù)據(jù)點(diǎn)呈現(xiàn)“物以類(lèi)聚”的聚合形態(tài),正常數(shù)據(jù)出現(xiàn)在密集的鄰域周?chē)?,而異常點(diǎn)偏離較遠(yuǎn),以此來(lái)對(duì)數(shù)據(jù)進(jìn)行判定異常。

(4)基于樹(shù)的方法,通過(guò)劃分來(lái)判定異常。如孤立森林(Isolation Forest,iForest)被認(rèn)為是最有效的異常檢測(cè)方法之一,該方法是通過(guò)計(jì)算樣本點(diǎn)的異常關(guān)聯(lián)度分?jǐn)?shù)來(lái)進(jìn)行異常判定,若某樣本得到的異常關(guān)聯(lián)度分?jǐn)?shù)較高,且大于閱值時(shí)可以判定其為異常。

(5)基于預(yù)測(cè)的方法,對(duì)時(shí)序數(shù)據(jù)根據(jù)其預(yù)測(cè)出來(lái)的時(shí)序曲線和真實(shí)的數(shù)據(jù)相比,來(lái)判定異常值的出現(xiàn)。


具體一些方法介紹如下:


(1) 基于統(tǒng)計(jì)分布的異常檢測(cè)

數(shù)據(jù)分布模型可以通過(guò)估計(jì)概率分布的參數(shù)來(lái)創(chuàng)建。如果一個(gè)對(duì)象不能很好地同該模型擬合,即如果它很可能不服從該分布,則它是一個(gè)異常。


3σ-法則


假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差,對(duì)原始數(shù)據(jù)進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)差,然后按一定的概率確定一個(gè)區(qū)間,認(rèn)為誤差超過(guò)這個(gè)區(qū)間的就屬于異常值。


(μ?3σ,μ+3σ)區(qū)間內(nèi)的概率為99.74。所以可以認(rèn)為,當(dāng)數(shù)據(jù)分布區(qū)間超過(guò)這個(gè)區(qū)間時(shí),即可認(rèn)為是異常數(shù)據(jù)。


假設(shè)數(shù)據(jù)集由一個(gè)正太分布產(chǎn)生,該分布可以用 N(μ,σ) 表示,其中 μ 是序列的均值,σ是序列的標(biāo)準(zhǔn)差,數(shù)據(jù)落在 (μ-3σ,μ+3σ) 之外的概率僅有0.27%,落在 (μ-4σ,μ+4σ) 之外的區(qū)域的概率僅有0.01%,可以根據(jù)對(duì)業(yè)務(wù)的理解和時(shí)序曲線,找到合適的K值用來(lái)作為不同級(jí)別的異常報(bào)警。


Z-score

Z-score為標(biāo)準(zhǔn)分?jǐn)?shù),測(cè)量數(shù)據(jù)點(diǎn)和平均值的距離,若A與平均值相差2個(gè)標(biāo)準(zhǔn)差,Z-score為2。當(dāng)把Z-score=3作為閾值去剔除異常點(diǎn)時(shí),便相當(dāng)于3sigma。

MA滑動(dòng)平均法


識(shí)別數(shù)據(jù)不規(guī)則性的最簡(jiǎn)單的方法是標(biāo)記偏離分布的數(shù)據(jù)點(diǎn),包括平均值、中值、分位數(shù)和模式。

假定異常數(shù)據(jù)點(diǎn)是偏離平均值的某個(gè)標(biāo)準(zhǔn)偏差,那么我們可以計(jì)算時(shí)間序列數(shù)據(jù)滑動(dòng)窗口下的局部平均值,通過(guò)平均值來(lái)確定偏離程度。這被技術(shù)稱(chēng)為滑動(dòng)平均法(moving average,MA),旨在平滑短期波動(dòng)并突出長(zhǎng)期波動(dòng)?;瑒?dòng)平均還包括累加移動(dòng)平均、加權(quán)移動(dòng)平均、指數(shù)加權(quán)移動(dòng)平均、雙指數(shù)平滑、三指數(shù)平滑等,在數(shù)學(xué)上,nn周期簡(jiǎn)單移動(dòng)平均也可以定義為“低通濾波器”。


該方法有明顯缺陷:數(shù)據(jù)中可能存在與異常行為類(lèi)似的噪聲數(shù)據(jù),所以正常行為和異常行為之間的界限通常不明顯;異?;蛘5亩x可能經(jīng)常發(fā)生變化,基于移動(dòng)平均值的閾值可能并不總是適用。

boxplot箱型圖(分位數(shù)異常檢測(cè))


箱型圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖。主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較,其繪制方法是:先找出一組數(shù)據(jù)的最大值、最小值、中位數(shù)和上下兩個(gè)四分位數(shù)。通過(guò)不同分位數(shù)來(lái)劃分異常值和疑似異常值。


IQR是第三四分位數(shù)減去第一四分位數(shù),大于Q3+1.5IQR之外的數(shù)和小于Q1-1.5*IQR的值被認(rèn)為是異常值。

Grubbs異常檢驗(yàn)


Grubbs測(cè)試是一種從樣本中找出outlier的方法,所謂outlier,是指樣本中偏離平均值過(guò)遠(yuǎn)的數(shù)據(jù),他們有可能是極端情況下的正常數(shù)據(jù),也有可能是測(cè)量過(guò)程中的錯(cuò)誤數(shù)據(jù)。使用Grubbs測(cè)試需要總體是正態(tài)分布的。


算法流程:


①.樣本從小到大排序

②.求樣本的mean和std.dev [均值和標(biāo)準(zhǔn)差]

③.計(jì)算min/max與mean的差距,更大的那個(gè)為可疑值

④.求可疑值的z-score (standard score),如果大于Grubbs臨界值,那么就是outlier;

⑤.Grubbs臨界值可以查表得到[它由兩個(gè)值決定:檢出水平α(越嚴(yán)格越?。?、樣本數(shù)量n],排除outlier,對(duì)剩余序列循環(huán)做①-④步驟。

由于這里需要的是異常判定,只需要判斷tail_avg是否outlier即可。


等等? 由于篇幅太長(zhǎng)需要更多的數(shù)據(jù)處理方法? 點(diǎn)贊+評(píng)論學(xué)習(xí)


數(shù)據(jù)處理方法整理【目前最全】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
太仓市| 内江市| 喀什市| 桂东县| 错那县| 江门市| 乌拉特前旗| 宾川县| 北流市| 察雅县| 敖汉旗| 龙川县| 延吉市| 化州市| 静宁县| 伊春市| 烟台市| 长子县| 昭平县| 乳山市| 石嘴山市| 兖州市| 出国| 河南省| 沙洋县| 金坛市| 梓潼县| 会宁县| 铁岭市| 浏阳市| 阿克陶县| 丹寨县| 穆棱市| 明光市| 贞丰县| 大新县| 临颍县| 科技| 长治县| 邓州市| 汽车|