Python 數(shù)據(jù)分析師的基本修養(yǎng)

數(shù)據(jù)分析師通常都需要借助編程工具整理數(shù)量大而復(fù)雜的數(shù)據(jù),在這些數(shù)據(jù)中挖掘有用的資料。簡(jiǎn)而言之,數(shù)據(jù)分析師就是從凌亂的數(shù)據(jù)中整理出規(guī)則的人,而這樣的工作要求數(shù)據(jù)分析師掌握這些技巧:
業(yè)界知識(shí) - 數(shù)據(jù)分析的基礎(chǔ)就是為行業(yè)服務(wù),足夠的業(yè)界知識(shí)能讓數(shù)據(jù)分析師了解究竟哪些數(shù)據(jù)才能為行業(yè)提供更深入的洞察
編程技巧 - 數(shù)據(jù)分析師需要清楚應(yīng)該使用哪些庫(kù)來(lái)簡(jiǎn)化和處理數(shù)據(jù),進(jìn)而從中找到所需的資料
數(shù)據(jù)分析 - 除了本身的數(shù)據(jù)分析能力,數(shù)據(jù)分析師也需要懂得借助工具來(lái)提取數(shù)據(jù)中的價(jià)值
可視化技能 - 只是提取數(shù)據(jù)是不夠的,數(shù)據(jù)分析師需要把這些數(shù)據(jù)整理好后進(jìn)行可視化,總結(jié)并呈現(xiàn)給他人
這篇文章將使用Python在線運(yùn)行一系列經(jīng)典的數(shù)據(jù)分析案例,讓你對(duì)數(shù)據(jù)分析工具與編程有一定的了解,通過(guò)這些數(shù)據(jù)進(jìn)行可視化并呈現(xiàn)我們所整理的數(shù)據(jù)。
文章中所使用的數(shù)據(jù)和范例代碼已整理到項(xiàng)目文件中,大家只要打開(kāi)就可以開(kāi)始使用Python在線運(yùn)行并查看數(shù)據(jù):https://e2f35f8cd0-share.lightly.teamcode.com
分析數(shù)據(jù)
首先,我們需要使用Python中的Pandas庫(kù)來(lái)讀取 .csv
文件的數(shù)據(jù)。如果你的項(xiàng)目文件中還未安裝pandas,可以參考安裝教程通過(guò) pip install pandas
或Quick Fix一鍵安裝。

讀取數(shù)據(jù)
安裝好Pandas庫(kù)后,我們還需要在編輯區(qū)使用Python代碼 import pandas
導(dǎo)入,然后再通過(guò)下面的代碼讀取數(shù)據(jù)文件。
大家可以使用以下代碼,在編輯器中使用 Python 在線運(yùn)行并查看數(shù)據(jù)效果:

作為數(shù)據(jù)分析師,大家應(yīng)該要知道數(shù)值(Numerical)和分類(Categorical)數(shù)據(jù)之間的區(qū)別。
數(shù)值數(shù)據(jù)顧名思義,指的是具有數(shù)值意義的數(shù)據(jù)。這種數(shù)據(jù)具有實(shí)際測(cè)量的物理意義,比如血糖、血壓、年齡等。
分類數(shù)據(jù)則描述對(duì)象的性質(zhì),比性別、婚姻狀況、家鄉(xiāng)等。我們這次使用的數(shù)據(jù)中,其實(shí)只有“結(jié)果”屬于分類數(shù)據(jù)。在表示分類數(shù)據(jù)時(shí),我們同樣能使用數(shù)字來(lái)進(jìn)行描述,但這些數(shù)據(jù)并沒(méi)有數(shù)學(xué)意義,你不能拿他來(lái)做運(yùn)算。
數(shù)據(jù)可視化
在這個(gè)教程中,我們會(huì)展示一系列使用Python在線運(yùn)行的數(shù)據(jù)可視化效果,大家可以根據(jù)自己的數(shù)據(jù)類型選擇合適的圖表來(lái)呈現(xiàn)。
餅圖

使用Python在線運(yùn)行代碼:SimplePie.py(https://e2f35f8cd0-share.lightly.teamcode.com)
散點(diǎn)圖

使用Python在線運(yùn)行代碼:scatterplot.py(https://e2f35f8cd0-share.lightly.teamcode.com)
折線圖

使用Python在線運(yùn)行代碼:linechart.py(https://e2f35f8cd0-share.lightly.teamcode.com)
柱狀圖

使用Python在線運(yùn)行代碼:multibar.py(https://e2f35f8cd0-share.lightly.teamcode.com)
當(dāng)我們完成數(shù)據(jù)分析和可視化圖表后,我們可以根據(jù)數(shù)據(jù)和圖標(biāo)內(nèi)容,簡(jiǎn)要說(shuō)明數(shù)據(jù)故事。例如:購(gòu)買奔馳的人明顯比寶馬更多、中老年人患糖尿病的比例更高、一月份的冰箱購(gòu)買量遠(yuǎn)比其他月份高等,從而根據(jù)其他數(shù)據(jù)和實(shí)際情況繼續(xù)分析。
數(shù)據(jù)分析師也是人,我們?cè)诜治鰯?shù)據(jù)的時(shí)候有時(shí)也會(huì)帶有一些陷入為主的觀念。然而,數(shù)據(jù)的意義就是為了破除這些迷思。分析數(shù)據(jù)的過(guò)程中,我們需要保持開(kāi)放的態(tài)度,不要讓偏見(jiàn)影響我們的數(shù)據(jù)結(jié)果。