Python做數(shù)據(jù)分析需要學(xué)什么?
下面分別從這四個(gè)方面來(lái)帶大家學(xué)習(xí)數(shù)據(jù)分析:
第一,做數(shù)據(jù)分析要精通Python嗎?
第二,數(shù)據(jù)分析流程是什么?學(xué)什么?
第三,如何培養(yǎng)數(shù)據(jù)分析思維?
第四,數(shù)據(jù)分析書籍推薦
一、數(shù)據(jù)分析要精通Python嗎?
做數(shù)據(jù)分析不必精通Python,但至少要掌握Python基礎(chǔ)內(nèi)容。第一步是要了解一些Python的編程基礎(chǔ),知道Python的數(shù)據(jù)結(jié)構(gòu),什么是向量、列表、數(shù)組、字典等等;了解Python的各種函數(shù)及模塊。

二、數(shù)據(jù)分析流程是什么?學(xué)什么?
一個(gè)完整的數(shù)據(jù)分析項(xiàng)目,大概可以分為這五個(gè)流程:數(shù)據(jù)獲取——數(shù)據(jù)存儲(chǔ)——數(shù)據(jù)清洗——數(shù)據(jù)分析——可視化分析,具體每部分都要掌握什么,下面給大家說(shuō)清楚。
數(shù)據(jù)獲取
數(shù)據(jù)獲取是數(shù)據(jù)分析的第一步,關(guān)于一些內(nèi)部數(shù)據(jù)大家可以找公司內(nèi)部的人去要,其他外部數(shù)據(jù)如市場(chǎng)調(diào)研、競(jìng)品分析這些報(bào)告,大家可以在這些網(wǎng)站獲?。?/p>
艾瑞網(wǎng)-數(shù)據(jù)報(bào)告:https://report.iresearch.cn/
易觀分析-熱門報(bào)告:https://www.analysys.cn/
友盟+數(shù)據(jù)報(bào)告:https://www.umeng.com/reports.html?from=hp
賽迪滿天星行業(yè)報(bào)告:http://www.mtx.cn/#/
世界經(jīng)濟(jì)論壇報(bào)告:https://www.weforum.org/reports
普華永道行業(yè)報(bào)告:https://www.pwccn.com/zh/research-a
數(shù)據(jù)存儲(chǔ)
企業(yè)常用的存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù)有哪些?不同數(shù)據(jù)庫(kù)的存儲(chǔ)區(qū)別又有哪些?下面跟我一起來(lái)了解常見(jiàn)數(shù)據(jù)庫(kù):
Access數(shù)據(jù)庫(kù):是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng);本地桌面型數(shù)據(jù)庫(kù),存儲(chǔ)的數(shù)據(jù)量較少,是小型的數(shù)據(jù)庫(kù);查詢語(yǔ)句為SQL。
MYSQL數(shù)據(jù)庫(kù):是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng);是開(kāi)源的,總體擁有成本低;支持多種操作系統(tǒng);
SQL Server 數(shù)據(jù)庫(kù):是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng);是非開(kāi)源的;中型的數(shù)據(jù)庫(kù);
Oracle數(shù)據(jù)庫(kù):是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng);不是開(kāi)源的;支持多種操作系統(tǒng);
Hive 數(shù)據(jù)庫(kù):是非關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng);數(shù)據(jù)規(guī)模大;主要進(jìn)行離線的大數(shù)據(jù)分析; 查詢語(yǔ)句為HQL;
以上就是幾種常見(jiàn)的數(shù)據(jù)庫(kù)及介紹,方便大家在做數(shù)據(jù)分析的時(shí)候提取數(shù)據(jù)。
數(shù)據(jù)清洗
數(shù)據(jù)清洗是利用相關(guān)技術(shù)將“臟”數(shù)據(jù)轉(zhuǎn)換為滿足質(zhì)量要求的數(shù)據(jù)。下面通過(guò)一張圖描述數(shù)據(jù)清洗的原理。

從圖中可以看出,同一值的不同表示、拼寫錯(cuò)誤、不同的命名習(xí)慣、不合法的值以及空值都會(huì)導(dǎo)致“臟”數(shù)據(jù)出現(xiàn),通過(guò)定義好的數(shù)據(jù)清洗策略和清洗規(guī)則(即數(shù)理統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù)等清洗策略)對(duì)“臟”數(shù)據(jù)進(jìn)行清洗,得到滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。
需要注意的是,數(shù)據(jù)清洗的目的是解決“臟”數(shù)據(jù)問(wèn)題,即不是將“臟”數(shù)據(jù)洗掉,而是將“臟”數(shù)據(jù)洗干凈。干凈的數(shù)據(jù)指的是滿足質(zhì)量要求的數(shù)據(jù)。
數(shù)據(jù)分析與可視化分析
Python中常會(huì)用到一些專門的庫(kù),如NumPy、SciPy、Pandas和Matplotlib。數(shù)據(jù)處理常用到NumPy、SciPy和Pandas,數(shù)據(jù)分析常用到Pandas和Scikit-Learn,數(shù)據(jù)可視化常用到Matplotlib,而對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式挖掘時(shí)則可以使用Pyspark來(lái)調(diào)用Spark集群的資源。
NumPy官方文檔:https://numpy.org/
SciPy官方文檔:https://scipy.org/
Pandas官方文檔:pandas documentation
Matplotlib官方文檔:Matplotlib - Visualization with Python
Scikit-learn官方文檔:scikit-learn: machine learning in Python
Keras官方文檔:the Python deep learning API
三、如何培養(yǎng)數(shù)據(jù)分析思維?
數(shù)據(jù)分析屬于分析思維的一個(gè)子類,有專門的數(shù)據(jù)方法論,只有養(yǎng)成正確的分析思維才能做好數(shù)據(jù)分析。什么是好的分析思維,網(wǎng)上有張圖是這樣的:

第一個(gè)分析思維是依賴經(jīng)驗(yàn)和直覺(jué)的線性思維,第二個(gè)分析思維則注重邏輯推導(dǎo),屬于結(jié)構(gòu)化的思維。這兩種思維也往往會(huì)導(dǎo)致不同的結(jié)果。
除了Excel、Tableau、SQL、Python 等工具技能的學(xué)習(xí),另一個(gè)關(guān)鍵點(diǎn)則是數(shù)據(jù)分析思維的培養(yǎng)。大家在做數(shù)據(jù)分析之前需要構(gòu)建分析框架、理清思路、學(xué)會(huì)運(yùn)用常見(jiàn)的分析方法等結(jié)合具體業(yè)務(wù)進(jìn)行分析。
這需要我們?nèi)プ霭咐?看書來(lái)不斷積累經(jīng)驗(yàn),形成自己的數(shù)據(jù)分析思維。
四、數(shù)據(jù)分析好書推薦
入門篇:《深入淺出數(shù)據(jù)分析》、《利用Python進(jìn)行數(shù)據(jù)分析》、《笨方法學(xué)Python》
工具篇:《零基礎(chǔ)學(xué) SQL》、《R 語(yǔ)言實(shí)戰(zhàn)》、《數(shù)據(jù)圖形化,分析更給力》、《PPT,要你好看》、《金字塔原理》
統(tǒng)計(jì)篇:《深入淺出統(tǒng)計(jì)學(xué)》、《赤裸裸的統(tǒng)計(jì)學(xué)》
進(jìn)階篇:《精益數(shù)據(jù)分析》、《貝葉斯數(shù)據(jù)分析》