數(shù)據(jù)處理的通用方法思路
概述
???表格由一行或多行單元格組成,用于顯示數(shù)字和其他項以便快速引用和分析。表格中的項被組織為行和列。表頭一般指表格的第一行,指明表格每一列的內(nèi)容和意義。其中行成為記錄,列稱為字段。可以方便的處理和分析日常數(shù)據(jù)。
????表格這種數(shù)據(jù)組織形式,常儲存于以xls,xlsx為主的office文檔,數(shù)據(jù)庫中。
????本篇主要提供個人處理數(shù)據(jù)的一般思路,答疑解惑。
????由于數(shù)據(jù)存在形式不同,處理方法也有所不同,比如:
xls,xlsx文件可以通過excel或者wps內(nèi)置函數(shù),數(shù)據(jù)透視表等功能處理
數(shù)據(jù)庫中的數(shù)據(jù)可以通過sql語句查詢
python可以通過pandas,pyspark等庫處理
等等.........
使用的工具不同,處理過程也有所不同,但是萬變不離其宗,下面通過具體實例說明
? ?
數(shù)據(jù)處理原型機
準(zhǔn)備數(shù)據(jù)--無需清洗,直接可以進行后續(xù)處理的數(shù)據(jù)

所含字段:

字段的數(shù)據(jù)類型,可以分為數(shù)值型與非數(shù)值型
以excel為例
寬表(Wide Table)是指一種橫向存儲數(shù)據(jù)的表格結(jié)構(gòu),每一行代表一個實例或觀察結(jié)果,每一列代表一個屬性或特征。寬表適用于存儲一個實體的多個屬性.
長表(Long Table)是指一種縱向存儲數(shù)據(jù)的表格結(jié)構(gòu),每一行代表一個實例或觀察結(jié)果,每一列代表一個屬性或特征的取值。長表適用于存儲多個實體的多個屬性.

數(shù)據(jù)透視(長表變?yōu)閷挶?
“數(shù)據(jù)透視”功能能夠?qū)⒑Y選、排序和分類匯總等操作依次完成,并生成匯總表格,數(shù)據(jù)透視是一種可以快速匯總大量數(shù)據(jù)的交互式方法。

excel數(shù)據(jù)透視表提供篩選,行,列,值四個標(biāo)簽,供用戶來拖拽放入相應(yīng)的標(biāo)簽來生成匯總數(shù)據(jù).












等等......
數(shù)值型字段放入值標(biāo)簽中可以進行相關(guān)更多的數(shù)學(xué)計算來匯總.
非數(shù)值型放入值標(biāo)簽中可以只可進行統(tǒng)計計算來匯總.
字段放入行,列標(biāo)簽中,會自動進行去重.


通過數(shù)據(jù)透視功能,能將字段中的項升級為字段,由此,長表可以變成寬表.
數(shù)據(jù)逆透視(寬表變?yōu)殚L表)
通過數(shù)據(jù)逆透視功能,能將多個字段降級為兩個字段,一個屬性,一個值.由此,寬表變?yōu)殚L表.

以Mysql為例







等等........,碼累了,參考上面excel說的.
以python為例




等等......,碼累了,參考上面excel說的.

總結(jié)
表格數(shù)據(jù)提供了便于操作匯總的一個數(shù)據(jù)展現(xiàn)形式,無論使用何種方法,表格字段如何不同,表格變形匯總基于透視與逆透視,即長寬表之間的轉(zhuǎn)換.字段數(shù)據(jù)類型可分為數(shù)值型與非數(shù)據(jù)型.
長表便于存儲以及后續(xù)操作,寬表便于展示更多信息.
同樣數(shù)據(jù),在excel里,數(shù)據(jù)庫里,python里的操作方式盡管方式不同,但是都提供了解決對應(yīng)問題及需求,幫助我們得到想要的結(jié)果.以此為基點,打通不同處理方式.
