最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【論文閱讀】CleanML:評(píng)估數(shù)據(jù)清理對(duì) ML 分類任務(wù)影響的研究

2023-08-14 16:06 作者:我不是k_  | 我要投稿

CleanML: A Study for Evaluating the Impact of Data Cleaning on ML Classification Tasks Peng Li, Xi Rao, Jennifer Blase, Yue Zhang, Xu Chu, Ce Zhang arXiv:1904.09483v3 [cs.DB] 5 Apr 2021

摘要:數(shù)據(jù)質(zhì)量影響機(jī)器學(xué)習(xí)(ML)模型的性能,數(shù)據(jù)科學(xué)家在模型訓(xùn)練之前花費(fèi)大量時(shí)間進(jìn)行數(shù)據(jù)清洗。然而,目前尚缺乏對(duì)數(shù)據(jù)清洗如何影響ML的嚴(yán)格研究——ML社區(qū)通常關(guān)注開發(fā)對(duì)某些特定噪聲類型或分布具有魯棒性的ML算法,而數(shù)據(jù)庫(DB)社區(qū)主要研究數(shù)據(jù)清洗本身而不考慮下游ML分析的消費(fèi)方式。我們提出了一個(gè)CleanML研究,系統(tǒng)地探討了數(shù)據(jù)清洗對(duì)ML分類任務(wù)的影響。開源和可擴(kuò)展的CleanML研究目前包括14個(gè)具有真實(shí)錯(cuò)誤的真實(shí)世界數(shù)據(jù)集,五種常見的錯(cuò)誤類型,七種不同的ML模型,以及每種錯(cuò)誤類型的多種清洗算法(包括實(shí)踐中常用的算法和學(xué)術(shù)文獻(xiàn)中的最先進(jìn)解決方案)。我們通過統(tǒng)計(jì)假設(shè)檢驗(yàn)來控制實(shí)驗(yàn)中的隨機(jī)性,并使用Benjamini-Yekutieli(BY)過程來控制錯(cuò)誤發(fā)現(xiàn)率。我們以系統(tǒng)的方式分析結(jié)果,得出許多有趣且非平凡的觀察結(jié)果。我們還提出了多個(gè)未來研究方向,以進(jìn)一步推動(dòng)數(shù)據(jù)清洗和ML之間的交叉學(xué)科研究。


研究目的與問題定義

機(jī)器學(xué)習(xí) (ML) 應(yīng)用程序的質(zhì)量取決于其訓(xùn)練的數(shù)據(jù)質(zhì)量,數(shù)據(jù)清理一直是構(gòu)建高質(zhì)量 ML 模型的基石。

本研究旨在深入探討數(shù)據(jù)清洗對(duì)機(jī)器學(xué)習(xí)分類任務(wù)的影響,并探討如何選擇最適合的清洗方法機(jī)器學(xué)習(xí)模型。數(shù)據(jù)清洗是指在訓(xùn)練或測(cè)試機(jī)器學(xué)習(xí)模型之前,對(duì)數(shù)據(jù)集中的錯(cuò)誤或不一致數(shù)據(jù)進(jìn)行檢測(cè)和修復(fù)的過程。雖然數(shù)據(jù)清洗對(duì)機(jī)器學(xué)習(xí)性能和質(zhì)量至關(guān)重要,但目前尚未進(jìn)行全面且嚴(yán)謹(jǐn)?shù)难芯縼碓u(píng)估其影響。

研究背景

ML領(lǐng)域:一直專注研究噪聲對(duì)ML模型的影響,而不用進(jìn)行數(shù)據(jù)清洗,一方面有研究證明無論從經(jīng)驗(yàn)上還是理論上都能證明ML模型對(duì)少量隨機(jī)噪聲具有魯棒性(robust)。

[5] D. Alistarh, D. Grubic, J. Li, R. Tomioka, and M. Vojnovic. QSGD: Communication-efficient sgd via gradient quantization and encoding. In NIPS, pages 1709–1720, 2017

16] C. De Sa, M. Feldman, C. Re, and K. Olukotun. Understanding and ′ optimizing asynchronous low-precision stochastic gradient descent. In ACM SIGARCH Computer Architecture News, volume 45, pages 561– 574. ACM, 2017.

[34] X. Lian, C. Zhang, H. Zhang, C.-J. Hsieh, W. Zhang, and J. Liu. Can decentralized algorithms outperform centralized algorithms? a case study for decentralized parallel stochastic gradient descent. In NIPS, pages 5330–5340, 2017.

[51] H. Zhang, J. Li, K. Kara, D. Alistarh, J. Liu, and C. Zhang. Zipml: Training linear models with end-to-end low precision, and a little bit of deep learning. In 34th ICML, pages 4035–4043. JMLR. org, 2017. [52] W. Zhang, S. Gupta, X. Lian, and J. Liu. Staleness-aware async-sgd for distributed deep learning. arXiv, 2015.

另一方面,對(duì)于某些非白噪聲,也不是進(jìn)行數(shù)據(jù)清洗,機(jī)器學(xué)習(xí)領(lǐng)域主要關(guān)注于設(shè)計(jì)能夠?qū)μ囟ǚ植嫉脑肼暰哂恤敯粜缘臋C(jī)器學(xué)習(xí)算法。

DB領(lǐng)域:研究具有數(shù)據(jù)清理功能的典型 ML 工作流程對(duì) ML 模型的影響。據(jù)報(bào)道,數(shù)據(jù)科學(xué)家花費(fèi)高達(dá)80%的時(shí)間執(zhí)行各種數(shù)據(jù)清理活動(dòng)[1]。在研究數(shù)據(jù)清理對(duì)下游 ML 模型性能的影響方面,先前的工作有限,他們傾向于關(guān)注一些特定的錯(cuò)誤類型(例如,BoostClean 中的域值錯(cuò)誤)、特定的清理方法(例如,ActiveClean中用于清理的人類預(yù)言機(jī))和/或特定的 ML 模型(例如,在 ActiveClean中使用隨機(jī)梯度下降訓(xùn)練的凸模型和 BoostClean中的加權(quán)集成模型)。

[1] Cleaning big data: Most time-consuming, least enjoyable data science task.?https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/.

方法與實(shí)施方案

本文的目的不是提出一種新的ML數(shù)據(jù)清理方法。相反,目標(biāo)是

(1)針對(duì)不同的錯(cuò)誤類型、清理方法和ML模型,對(duì)數(shù)據(jù)清洗對(duì)下游ML分類模型的影響進(jìn)行首次系統(tǒng)的實(shí)證研究;(2)鑒于我們的實(shí)證發(fā)現(xiàn),為未來的研究提供了一個(gè)起點(diǎn),以推進(jìn)ML清潔領(lǐng)域。

為了實(shí)現(xiàn)這一目標(biāo),研究采用了CleanML關(guān)系數(shù)據(jù)庫模式,用于存儲(chǔ)不同實(shí)驗(yàn)的結(jié)果。數(shù)據(jù)庫包括三個(gè)關(guān)系表:R1、R2和R3,分別考慮不同情境。每個(gè)關(guān)系表中的每條記錄包含以下屬性:

  • 數(shù)據(jù)集:選擇包含不同類型錯(cuò)誤的真實(shí)世界數(shù)據(jù)集,并設(shè)計(jì)相應(yīng)的分類任務(wù)。

  • 錯(cuò)誤類型:指定需清洗的錯(cuò)誤類型,如缺失值、異常值、重復(fù)記錄、不一致和錯(cuò)誤標(biāo)簽。

  • 檢測(cè)方法:選用用于檢測(cè)錯(cuò)誤的自動(dòng)算法,包括實(shí)踐中常用的方法和學(xué)術(shù)文獻(xiàn)中的最先進(jìn)方法。

  • 修復(fù)方法:選用用于修復(fù)錯(cuò)誤的自動(dòng)算法,包括實(shí)踐中常用的方法和學(xué)術(shù)文獻(xiàn)中的最先進(jìn)方法。

  • 機(jī)器學(xué)習(xí)模型:選擇用于分類任務(wù)的機(jī)器學(xué)習(xí)算法,包括七種經(jīng)典且競(jìng)爭(zhēng)力強(qiáng)的模型。

  • 場(chǎng)景:指定數(shù)據(jù)清洗是在訓(xùn)練集上還是測(cè)試集上進(jìn)行,以評(píng)估數(shù)據(jù)清洗對(duì)機(jī)器學(xué)習(xí)在模型開發(fā)或部署階段的影響。

  • 標(biāo)志:指定數(shù)據(jù)清洗對(duì)機(jī)器學(xué)習(xí)性能的影響,有“P”(正面)、“N”(負(fù)面)或“S”(無顯著)三種可能的值,表示清洗后的性能相對(duì)于清洗前分別更高、更低或無顯著差異。

具體實(shí)施方案如下:

  1. 生成性能指標(biāo):根據(jù)實(shí)驗(yàn)規(guī)范,隨機(jī)劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測(cè)試集,執(zhí)行數(shù)據(jù)清洗,訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)模型,并獲取一對(duì)性能指標(biāo)(如準(zhǔn)確率或F1分?jǐn)?shù)),分別表示清洗前后的性能。

  2. 處理隨機(jī)性:重復(fù)上述步驟20次,使用不同的劃分來控制隨機(jī)性。采用配對(duì)樣本t檢驗(yàn)判斷平均性能差異是否顯著,并根據(jù)結(jié)果設(shè)置標(biāo)志屬性。

  3. 控制假發(fā)現(xiàn):考慮到廣泛的研究范圍可能導(dǎo)致多次假設(shè)檢驗(yàn)問題,采用Benjamini-Yekutieli (BY)過程在每個(gè)關(guān)系表中控制假發(fā)現(xiàn)率,確保誤報(bào)率低于預(yù)定閾值。

難點(diǎn)和本文貢獻(xiàn)

(1)ML 模型的準(zhǔn)確性取決于數(shù)據(jù)集、ML 模型、是否應(yīng)用數(shù)據(jù)清理、在何處應(yīng)用數(shù)據(jù)清理(針對(duì)訓(xùn)練數(shù)據(jù)或測(cè)試數(shù)據(jù))以及使用哪種清理算法,需要統(tǒng)一的分析方法

(2)為了使我們的研究反映數(shù)據(jù)清理對(duì)ML的實(shí)際影響,必須使用包含真實(shí)錯(cuò)誤的真實(shí)數(shù)據(jù)集,我們通常沒有真實(shí)干凈的版本。

(3)多重假設(shè)檢驗(yàn)問題。ML 模型本質(zhì)上是概率性的,例如,對(duì)同一數(shù)據(jù)集進(jìn)行不同的訓(xùn)練/測(cè)試拆分可能會(huì)產(chǎn)生完全不同的結(jié)果。確保研究結(jié)果的統(tǒng)計(jì)學(xué)意義是一項(xiàng)重大挑戰(zhàn)。

(4)專注于包括異常值、重復(fù)值、不一致值、標(biāo)簽錯(cuò)誤和缺失值五種錯(cuò)誤

(5)代碼開源

https://chu-data-lab.github.io/CleanML/

實(shí)驗(yàn)性能與發(fā)現(xiàn)

通過對(duì)數(shù)據(jù)庫中的結(jié)果進(jìn)行系統(tǒng)查詢和分析,研究得出了許多有趣且重要的發(fā)現(xiàn),包括:

  • 數(shù)據(jù)清洗通常會(huì)提高或保持機(jī)器學(xué)習(xí)模型的性能,但不當(dāng)或過于簡(jiǎn)化的清洗方法可能導(dǎo)致性能下降。

  • 不同類型的錯(cuò)誤對(duì)機(jī)器學(xué)習(xí)模型的影響程度不同,缺失值和異常值最為嚴(yán)重,而重復(fù)記錄和不一致相對(duì)較輕微。

  • 不同類型的機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)清洗的敏感性不同,基于樹的模型(如隨機(jī)森林和XGBoost)魯棒性較高,基于距離或概率的模型(如k近鄰和樸素貝葉斯)較為敏感。

  • 在訓(xùn)練集上進(jìn)行數(shù)據(jù)清洗通常比在測(cè)試集上進(jìn)行更為有效,可提升模型在未見數(shù)據(jù)上的泛化能力。

  • 模型和清洗方法的選擇可進(jìn)一步提高或保持?jǐn)?shù)據(jù)清洗對(duì)機(jī)器學(xué)習(xí)模型性能的正面影響。

未來研究方向

研究表明,在許多情況下,數(shù)據(jù)清理可以大大提高下游 ML 性能。這表明未來在ML清潔領(lǐng)域有很多研究機(jī)會(huì)。

研究提出了一些未來的研究方向,包括:

  • 針對(duì)下游機(jī)器學(xué)習(xí)模型任務(wù),設(shè)計(jì)更有效和智能的數(shù)據(jù)清洗方法

  • 針對(duì)更多的機(jī)器學(xué)習(xí)任務(wù)和更多的數(shù)據(jù)進(jìn)行測(cè)試

  • 理論化框架的內(nèi)容

  • 評(píng)估數(shù)據(jù)清洗對(duì)機(jī)器學(xué)習(xí)模型可解釋性、可信度和公平性等其他方面的影響。

心得啟發(fā)

the lack of ground-truth (i.e., labeled examples) has been a long-standing challenge in designing general-purpose data cleaning solutions

通用的數(shù)據(jù)清洗通常因?yàn)槿狈round-truth而只能用替代目標(biāo)(最小修復(fù)),這是通用數(shù)據(jù)清洗的瓶頸,如果擁有準(zhǔn)確的地面真實(shí)數(shù)據(jù),那么在數(shù)據(jù)清洗過程中將會(huì)獲得許多好處和優(yōu)勢(shì):

  1. 可靠的標(biāo)準(zhǔn):?有準(zhǔn)確的地面真實(shí)數(shù)據(jù)意味著可以確切地知道哪些數(shù)據(jù)是正確的,可以用它們作為標(biāo)準(zhǔn)來比較和驗(yàn)證其他數(shù)據(jù)。這使得數(shù)據(jù)清洗的過程更為明確和可靠。

  2. 指導(dǎo)修復(fù):?有地面真實(shí)數(shù)據(jù)可以直接指導(dǎo)數(shù)據(jù)修復(fù)的過程??梢允褂眠@些真實(shí)標(biāo)簽來指導(dǎo)算法決定如何更改或修復(fù)可能存在的錯(cuò)誤數(shù)據(jù),從而使數(shù)據(jù)更準(zhǔn)確。

  3. 評(píng)估清洗效果:?擁有地面真實(shí)數(shù)據(jù)允許評(píng)估數(shù)據(jù)清洗的效果??梢詫⑶逑春蟮臄?shù)據(jù)與真實(shí)數(shù)據(jù)進(jìn)行比較,從而衡量清洗過程是否達(dá)到了預(yù)期的改進(jìn)效果。

  4. 決策支持:?地面真實(shí)數(shù)據(jù)可以為業(yè)務(wù)決策提供可靠的支持。基于準(zhǔn)確數(shù)據(jù)的決策更有可能取得成功。

ortunately, in the problem of data cleaning for ML, we have a more clearly defined objective, i.e., to improve the downstream ML model performance.

雖然可能缺乏完全準(zhǔn)確的地面真實(shí)數(shù)據(jù),但我們可以使用下游機(jī)器學(xué)習(xí)模型的性能作為目標(biāo)來指導(dǎo)數(shù)據(jù)清洗的過程。換句話說,通過數(shù)據(jù)清洗來盡量減少對(duì)下游機(jī)器學(xué)習(xí)模型性能的負(fù)面影響為目標(biāo),可以不需要準(zhǔn)確的清洗,只需要對(duì)機(jī)器學(xué)習(xí)任務(wù)負(fù)責(zé)。


【論文閱讀】CleanML:評(píng)估數(shù)據(jù)清理對(duì) ML 分類任務(wù)影響的研究的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
林州市| 任丘市| 汪清县| 柏乡县| 敖汉旗| 泗水县| 平昌县| 巩义市| 阜新市| 杭锦旗| 祥云县| 莱阳市| 永仁县| 台湾省| 永福县| 宝应县| 称多县| 三门峡市| 锡林郭勒盟| 涪陵区| 闵行区| 石屏县| 监利县| 崇信县| 长丰县| 南充市| 涞水县| 上思县| 朝阳县| 安仁县| 富川| 兰溪市| 博爱县| 甘泉县| 泰兴市| 宁海县| 嘉鱼县| 麟游县| 特克斯县| 库伦旗| 华蓥市|