六星源課堂:從事數(shù)據(jù)分析,需要掌握哪些技能?
現(xiàn)在數(shù)據(jù)分析那么火,想成為一名合格的數(shù)據(jù)分析師,需要掌握哪些知識(shí)?想要知道數(shù)據(jù)分析師需要具備的技能知識(shí)儲(chǔ)備,我們首先要了解一下數(shù)據(jù)分析師主要做什么,工作的流程是什么。

一般情況下我們將數(shù)據(jù)分析師的工作拆解為7個(gè)過(guò)程:明確需求、獲取數(shù)據(jù)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)建模、數(shù)據(jù)可視化、數(shù)據(jù)分析報(bào)告。在數(shù)據(jù)分析師具體工作中的每個(gè)環(huán)節(jié)都需要具備對(duì)應(yīng)的知識(shí)儲(chǔ)備,下面我就根據(jù)這個(gè)過(guò)程來(lái)一起了解一下數(shù)據(jù)分析師需要掌握哪些知識(shí)吧。
一、明確需求
首先我們需要明確,一切數(shù)據(jù)分析的出發(fā)點(diǎn)都在于有明確的需求,知道自己的目標(biāo)才知道需要收集哪些數(shù)據(jù),才能在數(shù)據(jù)處理、統(tǒng)計(jì)分析等過(guò)程中的重點(diǎn)任務(wù)。因此對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),首先要了解業(yè)務(wù),基于業(yè)務(wù)的數(shù)據(jù)分析才有意義。然而這個(gè)環(huán)節(jié)對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),并沒(méi)有硬核需要掌握的技能,更多的是對(duì)行業(yè)以及具體業(yè)務(wù)的理解和經(jīng)驗(yàn)積累。
二、獲取數(shù)據(jù)
獲取數(shù)據(jù)是數(shù)據(jù)分析必須具備的能力,也是數(shù)據(jù)分析過(guò)程中的數(shù)據(jù)來(lái)源依賴。在這個(gè)環(huán)節(jié)中,數(shù)據(jù)分析師需要掌握數(shù)據(jù)庫(kù)和爬蟲(chóng)兩個(gè)方面的技能。
1、數(shù)據(jù)庫(kù)技能
目前對(duì)于數(shù)據(jù)非常重視的企業(yè)都會(huì)搭建自己的數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)分析師不需要去了解如何搭建開(kāi)發(fā)數(shù)據(jù)庫(kù),但是對(duì)于數(shù)據(jù)庫(kù)的基本使用一定要熟悉,至少能夠完成數(shù)據(jù)的提取工作。
因此需要掌握的知識(shí)有:
1)了解常用的數(shù)據(jù)庫(kù),例如MySQL、Oracle、SQL Server、Mongodb等等。
2)能夠使用基本的SQL語(yǔ)言操作數(shù)據(jù)庫(kù)。
2、網(wǎng)絡(luò)爬蟲(chóng)
很多時(shí)候企業(yè)內(nèi)部獲取到的數(shù)據(jù)不足以完成市場(chǎng)調(diào)研類的工作,甚至部分企業(yè)不具備數(shù)據(jù)庫(kù),這時(shí)就需要數(shù)據(jù)分析師能夠通過(guò)網(wǎng)絡(luò)采集到自己想要使用的數(shù)據(jù)。常見(jiàn)的方法就是通過(guò)爬蟲(chóng)。
因此需要掌握的知識(shí)有:
1)爬蟲(chóng)開(kāi)發(fā),雖然很多編程語(yǔ)言都可以完成爬蟲(chóng)工作,但是作為非純技術(shù)類的崗位,建議大家優(yōu)選Python。相對(duì)來(lái)說(shuō)Python入門(mén)簡(jiǎn)單易學(xué),開(kāi)發(fā)效率高更適合數(shù)據(jù)分析師。當(dāng)然如果爬取任務(wù)過(guò)于復(fù)雜,可以提出需求讓技術(shù)部門(mén)協(xié)助完成。
2)基本的前端知識(shí),使用爬蟲(chóng)獲取數(shù)據(jù)時(shí)必須掌握一定量的前端知識(shí),需要掌握HTML、CSS、JavaScript、HTTP原理等知識(shí),以便順利完成爬取數(shù)據(jù)的工作。
三、數(shù)據(jù)處理
一般情況下我們獲取到的數(shù)據(jù)會(huì)出現(xiàn)各種問(wèn)題,例如數(shù)據(jù)格式錯(cuò)誤、數(shù)據(jù)丟失,數(shù)據(jù)缺失等等,這樣混亂多樣化的數(shù)據(jù)不能夠直接用來(lái)進(jìn)行分析和建模,因此我們需要根據(jù)一定的規(guī)則對(duì)數(shù)據(jù)進(jìn)行處理,也可以說(shuō)是清洗數(shù)據(jù)。在數(shù)據(jù)處理過(guò)程中使用的方法有很多,一般根據(jù)數(shù)據(jù)量的大小使用不同的途徑,例如Excel處理、數(shù)據(jù)庫(kù)處理、Python程序化處理。
1、Excel處理
Excel是最簡(jiǎn)單的數(shù)據(jù)處理工具,在數(shù)據(jù)量并不是很大的情況下(一般指數(shù)據(jù)不超過(guò)1萬(wàn)條),而且沒(méi)有過(guò)于復(fù)雜的數(shù)據(jù)結(jié)構(gòu),我們可以直接采用Excel進(jìn)行數(shù)據(jù)處理。
因此需要掌握的知識(shí)有:
Excel基本使用,包括函數(shù)、數(shù)據(jù)透視等常用的技能。
2、數(shù)據(jù)庫(kù)處理
對(duì)于數(shù)據(jù)量大,但是數(shù)據(jù)結(jié)構(gòu)相對(duì)簡(jiǎn)單的數(shù)據(jù)處理,我們可以采用數(shù)據(jù)庫(kù)SQL進(jìn)行處理,如果使用數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)清洗,基本可以在獲取數(shù)據(jù)階段直接完成。
3、Python程序化處理
對(duì)于數(shù)據(jù)量大,而且數(shù)據(jù)結(jié)構(gòu)非常復(fù)雜的我們一般建議采用Python技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理。Python編程中有非常強(qiáng)大的第三方庫(kù),pandas和numpy是目前公認(rèn)的數(shù)據(jù)處理能力強(qiáng)大的技術(shù)。
因此需要掌握的知識(shí)有:
1)Python基礎(chǔ)技能,想使用Python首先要掌握它的基礎(chǔ)。
2)Python第三方庫(kù)的應(yīng)用,主要就是上文提到的pandas和numpy了。
四、統(tǒng)計(jì)分析
數(shù)據(jù)統(tǒng)計(jì)分析是數(shù)據(jù)分析過(guò)程中的核心部分。在這個(gè)過(guò)程中,我們需要使用各種各樣的數(shù)據(jù)分析理論,最簡(jiǎn)單的求和、求平均值、求方差標(biāo)準(zhǔn)差等等指標(biāo),還有對(duì)某些特征之間進(jìn)行相關(guān)性分析、列聯(lián)分析、假設(shè)檢驗(yàn)等等。
因此需要掌握的知識(shí)有:
1)統(tǒng)計(jì)分析必備的理論知識(shí)。包括均數(shù)、中位數(shù)、眾數(shù)等等,這里就不再贅述。
2)掌握常用的工具,例如SPSS/SAS等。
3)當(dāng)然像Python、R語(yǔ)言也是需要掌握的。
五、數(shù)據(jù)建模
數(shù)據(jù)建??赡艽蠹也⒉皇煜?,在我們定性的理解數(shù)據(jù)之后,想要量化的找出數(shù)據(jù)之間存在的關(guān)系,以便做出相應(yīng)的預(yù)測(cè)或者分類,這時(shí)就需要我們通過(guò)數(shù)據(jù)結(jié)合統(tǒng)計(jì)算法、機(jī)器學(xué)習(xí)來(lái)訓(xùn)練模型。
因此需要掌握的知識(shí)有:
1)數(shù)據(jù)建模相關(guān)的統(tǒng)計(jì)學(xué)知識(shí),例如線性回歸、決策樹(shù)、隨機(jī)森林等等。
2)機(jī)器學(xué)習(xí)相關(guān)的算法,什么監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等等都要了解。
3)Python開(kāi)發(fā),大部分?jǐn)?shù)據(jù)模型都可以在Python的第三方庫(kù)Scikit-learn中發(fā)現(xiàn),因此Python依舊是必不可少的技能。
六、數(shù)據(jù)可視化
數(shù)據(jù)可視化能夠讓數(shù)據(jù)分析師之外的人直觀的看到數(shù)據(jù)分析的結(jié)果,也是數(shù)據(jù)分析價(jià)值最直接的體現(xiàn)方式。目前能夠完成數(shù)據(jù)可視化的工具有Excel、tableau、R語(yǔ)言、Python語(yǔ)言等等。
因此需要掌握的知識(shí)有:
1)Excel圖形化處理,俗稱插入圖標(biāo)。當(dāng)然也包括數(shù)據(jù)透視相關(guān)的內(nèi)容。
2)tableau是一款專門(mén)從事數(shù)據(jù)可視化的軟件工具。
3)R語(yǔ)言和Python語(yǔ)言都是通過(guò)編程的方式實(shí)現(xiàn)可視化。
七、數(shù)據(jù)分析報(bào)告
數(shù)據(jù)分析報(bào)告就是整個(gè)數(shù)據(jù)分析過(guò)程的結(jié)尾工作。將數(shù)據(jù)分析所得到的結(jié)論以報(bào)告的形式展示給相關(guān)的領(lǐng)導(dǎo)同事。雖然說(shuō)這個(gè)過(guò)程不涉及到太多的技術(shù)能力,但是作為數(shù)據(jù)分析師的寫(xiě)作能力,語(yǔ)言表達(dá)能力決定了這份數(shù)據(jù)分析報(bào)告的最終價(jià)值。
因此需要掌握的知識(shí)有:
1)文案協(xié)作
2)總結(jié)概括能力。
綜合以上在數(shù)據(jù)分析過(guò)程各個(gè)階段中需要具備的技能,我們可以了解數(shù)據(jù)分析師需要掌握的技能包括:統(tǒng)計(jì)學(xué)想干知識(shí)、數(shù)學(xué)理論知識(shí)、數(shù)據(jù)庫(kù)知識(shí)、SPSS/SAS、tableau、R語(yǔ)言或Python語(yǔ)言等等。
以上就是本次分享的全部?jī)?nèi)容,想學(xué)習(xí)更多Python技巧,歡迎持續(xù)關(guān)注六星源課堂!