數(shù)據(jù)分析第4篇|數(shù)據(jù)分析流程詳解:數(shù)據(jù)分析五步曲

內(nèi)容導航
1?引子
故事1:
故事2:
2 數(shù)據(jù)分析五步曲
第一:明確分析目的
第二步:數(shù)據(jù)采集
第三步:數(shù)據(jù)處理
第四步:數(shù)據(jù)分析
第五步:數(shù)據(jù)決策
1 引子
故事1:
2013年,Netflix 出品了一部電視劇《紙牌屋》,由于該劇的題材和演員陣容備受矚目,因此備受期待。
然而,投入巨資制作的《紙牌屋》是否會成功,這對 Netflix 來說是一個重大的未知數(shù)。
于是,Netflix 開始利用他們的用戶數(shù)據(jù)來預測該劇的成功率。
他們首先分析了許多成功的電視劇,研究它們的主題、演員、導演、劇本等各個方面,然后根據(jù)這些信息來制定他們的投資策略。
最終,Netflix 決定了制作《紙牌屋》。
故事2:

有部電影叫做《逆流而上》(The Big Short),又叫太空頭。
這部電影的主題是2007-2008年的金融危機,主要講述了一群華爾街的交易員和投資者如何通過對美國房地產(chǎn)市場的數(shù)據(jù)分析和預測,成功地賺取了大量的財富。
這些人在金融市場上被稱為“押注房地產(chǎn)崩盤的人”。
這些人通過分析房貸債務人的信用記錄和償債能力,發(fā)現(xiàn)了很多問題,比如很多房主都沒有足夠的還款能力,貸款機構(gòu)卻還在不斷地向他們發(fā)放高利貸款,這意味著這些人的貸款很可能會違約,導致金融市場崩盤。
他們的分析結(jié)果最終得到了證實,導致了金融市場的巨大動蕩和崩盤,而這些人也因此賺取了大量的財富。
通過這兩個簡短的故事,你應該已經(jīng)基本了解了數(shù)據(jù)分析在商業(yè)方面的重要性。
今天就來和大家詳細講一講數(shù)據(jù)分析的五個核心流程。
2 數(shù)據(jù)分析五步曲
在上面的案例中,相信你已經(jīng)了解到數(shù)據(jù)分析的五個核心流程了。
下面就詳細講一下。
第一:明確分析目的
明確分析目的是數(shù)據(jù)分析的第一步,也是最重要的一步。
因為它直接影響著整個數(shù)據(jù)分析的過程,進而影響數(shù)據(jù)分析結(jié)果。
在這一步,你需要確定需求和問題,明確數(shù)據(jù)分析的目標,因為一切分析的都是以解決問題為核心。
很多新手最容易犯的錯誤就是忽略或者輕視了這一步,導致分析目的不明確,把分析重心放在用什么樣的分析圖表,什么樣的分析方法,而不是放到探究數(shù)據(jù)背后的真相。
明確分析目的前提是定義問題。
我們在日常的工作中經(jīng)常會被各種問題困擾,大多時候你的問題都不是我在上面案例中提到的那么簡單,它不是非黑即白,也不是非對即錯,能夠找到問題的本質(zhì)也是一項難能可貴的能力。
這里推薦大家有空的時候讀一本書《你的燈亮著嗎?》。
這本書的作者是杰拉爾德·溫伯格,他是軟件領(lǐng)域著名專家之一,美國計算機名人堂代表人物, Weinberg & Weinberg顧問公司的負責人。
他目前已經(jīng)出版了超過30本廣受歡迎的著作,在全球有非常龐大的讀者群體。
通過這本書你可以get到兩個點:
1.在遇到問題階段不要是一上來就立即解決問題,而是應該先去定義問題
2.真正能夠高效解決問題的關(guān)鍵點,是從兩個方面去思考:問題該由誰解決以及和問題的來源是什么
這本書在開頭講了一個故事,從這個故事里你就能了解到,定義真正的問題并沒有那么簡單。
這里放個引子,你可以自行閱讀。

第二步:數(shù)據(jù)采集
數(shù)據(jù)采集也是數(shù)據(jù)分析流程中非常關(guān)鍵的一步,也是數(shù)據(jù)分析的基礎(chǔ)。
數(shù)據(jù)采集指的是從不同來源獲取原始數(shù)據(jù),并將其轉(zhuǎn)化為可分析的數(shù)據(jù)集合。
數(shù)據(jù)的準確性、完整性和時效性對數(shù)據(jù)分析的質(zhì)量和結(jié)果影響非常大。
有句話叫:Garbage in garbage out,表達的就是這個意思。
數(shù)據(jù)采集是一個偏技術(shù)的活,而且不同的研究需要不同的數(shù)據(jù),不在這里作過多說明。
對于個人來說,我們一般會使用第三方數(shù)據(jù)服務,例如政府統(tǒng)計局、市場研究機構(gòu)、社交媒體等
第三步:數(shù)據(jù)處理
世界上第一臺計算機的發(fā)明者查爾斯·巴貝奇,在他1864年的隨筆文集中記錄了這樣一件事,他曾經(jīng)因為有人認為在輸入錯誤數(shù)據(jù)的情況下計算機依然能夠給出正確答案而錯愕不止。
很顯然,如果是錯誤的數(shù)據(jù),無論得出的答案是正確的還是錯誤的都是不能作為決策依據(jù)的。
數(shù)據(jù)處理是指將收集到的原始數(shù)據(jù)進行清洗、轉(zhuǎn)換、整合、分析和存儲等一系列操作,以便于后續(xù)的數(shù)據(jù)分析和決策。
數(shù)據(jù)處理也是數(shù)據(jù)分析流程中至關(guān)重要的一環(huán),因為只有經(jīng)過正確處理的數(shù)據(jù)才能用于后續(xù)的分析和決策,否則分析的結(jié)果可能會被誤導或失真。
同時,數(shù)據(jù)處理也是數(shù)據(jù)分析流程中最為耗時和繁瑣的一環(huán),需要耐心和細心地進行操作。
如果你還不知道什么是數(shù)據(jù)處理,再看我推出的這些小工具,這些小工具無一例外地都是用來幫助你解決某一個數(shù)據(jù)處理場景下的問題的:
快如閃電:一鍵合并excel文件中所有工作表
你還在手動拆分Excel工作表嗎?教你一招,一鍵搞定!
地址標準化、地址解析有這個工具就夠了|EasyGeo全新升級,支持win10兼容win7!
第四步:數(shù)據(jù)分析
在這一步,數(shù)據(jù)分析就是特指使用上面經(jīng)過處理后的數(shù)據(jù)進行分析的過程。
一般我們借助各種數(shù)據(jù)分析方法結(jié)合數(shù)據(jù)分析工具(如Excel、Python、PoweBI,SQL)對數(shù)據(jù)進行探索笥分析,最終形成數(shù)據(jù)分析報告。
常見的數(shù)據(jù)分析類型有四種:
1 描述性數(shù)據(jù)分析
2 探索性數(shù)據(jù)分析
3 指導性數(shù)據(jù)分析
4 預測性數(shù)據(jù)分析
我們已經(jīng)在《數(shù)據(jù)分析第2篇|深入理解:探究四種常見的數(shù)據(jù)分析類型》中詳細說明。
一般而言,如果你是為了畢業(yè)論文,最常使用的是:「描述性數(shù)據(jù)分析+指導性數(shù)據(jù)分析」,或者「描述性數(shù)據(jù)分析+探索性數(shù)據(jù)分析」。
當然了,這些本質(zhì)都是一些分析框架,如果你不知道怎么選擇,那就回歸到數(shù)據(jù)分析的本質(zhì):解決問題,然后結(jié)合自己的需要選擇一個最適合你的數(shù)據(jù)分析方法。
對于初學者而言,如果你不知道怎么開始,那就使用模板。
例如你在寫畢業(yè)論文,你的學校一般會提供類似的模板論文,照著填充內(nèi)容就可以了。
如果你是工作需要,你所在的部門也一般會有類似的運營分析模板,照著填充內(nèi)容就可以了。
第五步:數(shù)據(jù)決策
一般而言第五步完成后,輔助數(shù)據(jù)決策的結(jié)論也就出來了。
這個結(jié)論通常比較簡短,甚至只有幾句話。
你如果需要別人信服你的結(jié)論,就需要在第四步的時候完成詳細的數(shù)據(jù)分析報告,提供數(shù)據(jù)支撐。
這里我推薦大家讀一讀渾水機構(gòu)做空瑞幸咖啡的分析報告。
https://www.yuque.com/soaringsoul/data_analysis/rrz692icbpiywspe?singleDoc#?《渾水做空瑞幸咖啡報告 (中文版)》
2020年4月,全球最大的中概股做空機構(gòu)之一的渾水公司發(fā)布了一份名為《瑞幸咖啡:一場騙局》的報告,指控瑞幸咖啡存在虛構(gòu)銷售、財務造假等嚴重問題。
這份報告震驚了整個資本市場,瑞幸咖啡股價在當日暴跌逾80%,市值蒸發(fā)超過30億美元。
渾水公司在報告中主要提出了以下幾點指控(也就是我們數(shù)據(jù)分析五步曲中的數(shù)據(jù)分析結(jié)論):
瑞幸咖啡虛構(gòu)銷售額,涉嫌財務造假;
瑞幸咖啡的實際門店數(shù)量遠低于宣傳的數(shù)量;
瑞幸咖啡的財務報表存在問題,主要體現(xiàn)在虛構(gòu)銷售、虛構(gòu)收入和惡意燒錢等方面;
瑞幸咖啡高管存在內(nèi)幕交易行為。

這份報告可以作為一份非常好的數(shù)據(jù)分析入門學習資料和案例,涵蓋了數(shù)據(jù)分析的整個流程,建議閱讀學習。