馬哥2022全棧+爬蟲+數(shù)據(jù)分析+AI
數(shù)據(jù)預處理的過程概括起來包括:數(shù)據(jù)審查、數(shù)據(jù)清理、數(shù)據(jù)轉換、數(shù)據(jù)驗證。
第一步:數(shù)據(jù)審查
該步驟檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,變量值的內容是否與研究目的的要求一致,是否全面,包括利用描述性統(tǒng)計分析,檢查各個變量的數(shù)據(jù)類型,變量值的最大值、最小值、平均數(shù)、中位數(shù)等,數(shù)據(jù)個數(shù)、缺失值和空值個數(shù)等。
第二步:數(shù)據(jù)清理
該步驟針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用合適的方法進行清理,同時也包括刪除重復記錄。
第三步:數(shù)據(jù)轉換
數(shù)據(jù)分析強調分析對象的可比性,但不同變量值由于計量單位等不同,使得數(shù)據(jù)不可比,因此需要在數(shù)據(jù)分析前對數(shù)據(jù)進行變換,包括無量綱化處理、線性變換、匯總和聚集、適度概化、規(guī)范化以及屬性構造等。
第四步:數(shù)據(jù)驗證
該步驟的目的是初步評估和判斷數(shù)據(jù)是否滿足統(tǒng)計分析的需要,從而決定是否需要增加或減少數(shù)據(jù)量??梢岳煤唵蔚木€性模型及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關分析、一致性檢驗等方法對數(shù)據(jù)的準確性進行驗證,確保不把錯誤和有偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析模型中。
標簽:
馬哥2022全棧+爬蟲+數(shù)據(jù)分析+AI的評論 (共 條)
