盤點6個主流的數(shù)據(jù)分析工具,及優(yōu)缺點對比
本文來跟大家聊聊關(guān)于數(shù)據(jù)分析工具的事兒。
市面上用來做數(shù)據(jù)分析的工具蠻多的,包括Python、Excel、SPSS、MATLAB、R、BI等等,以下挑幾個比較主流的工具,盡量客觀的聊聊他們的優(yōu)缺點。
01 Microsoft Excel
想要了解如何用Excel做數(shù)據(jù)分析的伙伴,可以去網(wǎng)上查~
02 Python
雖說Python是一種面向?qū)ο?、解釋型計算機程序設(shè)計語言,本身的數(shù)據(jù)分析功能并不強,但它是開源而且免費的。
Python的“平臺模式”帶來了大量的充滿熱情的用戶,用戶越多,軟件的生命力就越強,發(fā)展也越快,這可以看作是軟件生態(tài)的“人口紅利”。

優(yōu)點:
開源且免費
當(dāng)下最熱門的數(shù)據(jù)分析工具,用戶多經(jīng)驗多,尋求幫助也容易很多
擁有強大的分析庫
爬蟲能力特別優(yōu)秀,適合做網(wǎng)絡(luò)數(shù)據(jù)采集
“即使不懂原理也能調(diào)用復(fù)雜高級算法”
相對比較友善,對于想寫幾行代碼的非專業(yè)人士是比較好的選擇
缺點:
emmm......在我看來Python并沒有什么大的缺點。像哪些版本兼容問題、內(nèi)存消耗大等都不算是大的問題。如果要從技術(shù)上來說:
由于Python的各類工具過于強大,很多時候一個算法可以在好幾個庫里找到函數(shù),然后就容易把自己搞暈
畢竟不是鼠標(biāo)點點菜單就能生成分析結(jié)果的界面式工具,還是要一行行敲代碼的,或多或少有一點技術(shù)要求。
如果想要尋求那種簡單拖拉拽兩下就能能生成分析結(jié)果的界面式工具,可以往下看。
找了一份Python學(xué)習(xí)框架,有需要的可以參考一下:

03 R
R和Python都屬于“平臺模式”——來自世界各地的開發(fā)者都可以貢獻(xiàn)自己開發(fā)的工具包。但R語言更像是綜合性較強的一類數(shù)據(jù)分析工具。
江湖傳言,“會用R是成為一名成熟的數(shù)據(jù)分析師的重要標(biāo)志?!?strong>因為只要入了門,R的功能就能很大程度地幫助使用者實現(xiàn)各種數(shù)據(jù)分析需求。
優(yōu)點:
依然是免費且開源
專業(yè),專業(yè),專業(yè),科研前沿的大神用R的比用Python更多
各行各業(yè)有專業(yè)的工具庫,模塊十分齊全
界面能力很不錯
靈活性很強,甩SPSS好幾條街
缺點:
專業(yè)度高,學(xué)習(xí)難度也高
對數(shù)學(xué)基礎(chǔ)有一定要求,所以像我這種文科出身,看到算法就頭疼的,不太建議
因為R語言是開源的,誰都可以上傳數(shù)據(jù)包,如果分不清可能用到不靠譜的數(shù)據(jù)包
對于沒有數(shù)學(xué)和編程基礎(chǔ)的新手小白,不建議從R入手,容易變成入門到放棄。

分享幾個學(xué)習(xí)資料:
Python
Python基礎(chǔ)編程,Magnus Lie Hetland;
像計算機科學(xué)家一樣思考Python,Allen B. Downey;
官方文檔,包括其他常用數(shù)據(jù)分析module的官方文檔(很多教程就是根據(jù)官方文檔改編過來的);
R
R語言實戰(zhàn),Robert I. Kabacoff
Advanced R,Hadley Wickham
Cran Task Views:?https://cran.r-project.org/web/views/
04 BI
嚴(yán)格來說,BI并不完全等于數(shù)據(jù)分析,BI與數(shù)據(jù)分析是有共同交集的兩個領(lǐng)域。數(shù)據(jù)分析是BI的一個重要組成部分,BI是數(shù)據(jù)分析的一個典型應(yīng)用。
BI是一套完整的解決方案,用來將企業(yè)中現(xiàn)有的數(shù)據(jù)進(jìn)行有效的整合,快速準(zhǔn)確的提供報表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策。數(shù)據(jù)倉庫、報表查詢、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等。
像題主所說的帆軟BI工具,數(shù)據(jù)透視、圖表制作這些功能都是封裝好的,可以直接拿來套用,整個過程就是連數(shù)據(jù),設(shè)計模板, web展示。圖表是內(nèi)設(shè)好的或者開發(fā)對接Hcharts/Echarts/D3圖標(biāo)庫。

如果僅僅是做日常業(yè)務(wù)的數(shù)據(jù)分析,直接用模板套其實也完全夠用了,比如這種:儀表盤模板

優(yōu)點:
成本相對更低
兼容性強,支持多種數(shù)據(jù)源
可視化大屏易在觀感上給人留下震撼印象,便于營造某些獨特氛圍、打造儀式感
響應(yīng)速度更快,能處理的數(shù)據(jù)量也很大
缺點:
這種自助式數(shù)據(jù)分析雖然也是需要一定的學(xué)習(xí)時間成本,但相比上面其他數(shù)據(jù)分析工具來說,整個上手過程還是比較快的,所以這點我可以接受。
05 MATLAB
Matlab是一個商業(yè)數(shù)學(xué)軟件,在數(shù)值計算方面首屈一指。隨著里面各種庫的擴展,它在圖像處理、信號處理、量化金融、工程仿真等方面都優(yōu)秀到了讓人忘記這是個數(shù)學(xué)軟件。

優(yōu)點:
特別適合圖像類的數(shù)據(jù)分析,工具庫全,計算快,展示還好看;
也有人工智能、神經(jīng)網(wǎng)絡(luò)什么的工具庫可以調(diào)用;
在工程方面的分析分析優(yōu)秀,特別是結(jié)合Simulink進(jìn)行仿真,那是真的效果飛起;
MATLAB語法比Python更加靈活一些,編程難度也還行,中等吧,不算很復(fù)雜,偏C,但更簡單。
缺點:
最大的不足就是貴,是真的很貴,反正我是買不起。
MATLAB太龐大了,基本包的安裝就要占用10G,對于我這電腦總共才128G,平時多余空間就很少多余10個G的普通人,不太友善;
MATLAB是面向?qū)ο笳Z言,入門難度不高,但要學(xué)精還是小有難度的。
06 SPSS
SPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計軟件,它最突出的特點就是操作界面極為友好,輸出結(jié)果美觀漂亮。
SPSS既可以像Excel一樣鼠標(biāo)點一點菜單就出結(jié)果,也能想Python一樣通過編程出結(jié)果,老少皆宜。

優(yōu)點:
SPSS的數(shù)據(jù)接口比較好,特別是和Excel的兼容性較好,基本上一看就懂怎么用;
內(nèi)置算法國際認(rèn)可度比較高,凡是用SPSS軟件完成的計算和統(tǒng)計分析,可以不必說明算法,;
內(nèi)置豐富的統(tǒng)計分析方法,適用于統(tǒng)計分析類的數(shù)據(jù)分析。
缺點:
想讀透SPSS給出的分析結(jié)果,需要比較扎實的統(tǒng)計學(xué)知識;
SPSS雖然結(jié)果可以直接輸出圖形,但樣式比較有限,相對于MATLAB數(shù)據(jù)可視化能力較弱;
基本上只能用于結(jié)構(gòu)化數(shù)據(jù)分析,對于圖形、視頻分析、文本數(shù)據(jù),力不從心;
SPSS也是收費的,至于多少錢就不清楚了,個人長期用的是試用
不管是Python、Excel、SPSS、SAS、MATLAB、hadoop、R等等,至少熟練使用一到兩個,了解一兩個,并知道每個的最適合使用場景就好了。至于怎么用,萬事不懂問百度,要不就谷歌也行,如果要熟悉某個工具,最好就是多逛逛技術(shù)論壇,多拿項目練練
以上。
參考資料:cxd1301《數(shù)據(jù)分析用什么工具好》