散文網(wǎng) » 科技 »學(xué)習(xí) » 數(shù)據(jù)分析小白必看：1種通用的數(shù)據(jù)分析思路~

數(shù)據(jù)分析小白必看：1種通用的數(shù)據(jù)分析思路~

2020-01-18 15:09 作者:愛數(shù)據(jù)分析社區(qū) 0人讀過 | 我要投稿

數(shù)據(jù)分析是一個龐大的工程，有的時候過于抽象且依賴經(jīng)驗。本文是筆者對學(xué)習(xí)和實踐數(shù)據(jù)分析的一個總結(jié)，希望提供一種通用的數(shù)據(jù)分析思路，并在分析思路的每個步驟中介紹相關(guān)的分析算法及其應(yīng)用場景，對于算法只做淺層次的介紹，待讀者在實際使用中自行深入了解。

本文主要針對剛剛接觸數(shù)據(jù)分析或者面對一堆數(shù)據(jù)不知道如何下手的讀者，經(jīng)驗豐富的數(shù)據(jù)分析師們可以跳過。同時，本文介紹的分析思路由于筆者的經(jīng)驗和知識有一定的局限性，希望讀者在分析中合理參考。

在進行數(shù)據(jù)分析之前，首先應(yīng)該做好以下準備：

一、熟悉業(yè)務(wù)、了解數(shù)據(jù)來源

這一點是數(shù)據(jù)分析的前提。數(shù)據(jù)分析，除了我們面對的數(shù)據(jù)之外，更多的是這些數(shù)據(jù)背后隱藏的各種業(yè)務(wù)。

二、明確分析的目的

數(shù)據(jù)分析不是模型算法和可視化的堆砌，而是有目的地發(fā)現(xiàn)某種現(xiàn)象，支撐某些決策。所以在分析之前，一定要明確自己分析的目的，切忌照搬其他的項目的分析內(nèi)容，或者隨意組合手上的分析模型算法，這樣會導(dǎo)致分析結(jié)果華而不實。

三、多視角觀察

要想達到某種分析目的，需要從多個視角觀察數(shù)據(jù)，這樣不僅可以對數(shù)據(jù)整體有個全面的了解，也有助于發(fā)現(xiàn)潛在的信息。例如當我們需要找出潛在的會員的時候，最直接的當然是消費比較多但還不是會員的人。

但從促銷活動的角度看，那些熱衷購買打折商品的人很大概率也是潛在的會員，因為加入會員他們會獲得更多的折扣，這是他們希望的。同時，從推薦系統(tǒng)的角度看，那些對推薦系統(tǒng)推薦的商品滿意的人，也不太會拒絕你推薦他加入會員。

做好準備工作后，接下來就進入正題，開始分析：

四、它是什么？

數(shù)據(jù)分析一定是針對某一些對象的，就像消費記錄針對的是某一店鋪。那首先要做的，就是通過數(shù)據(jù)來描述這一對象。就像了解一個人一樣，首先要了解他是個怎樣的人，然后便是他的特點，比如我的一位朋友是個學(xué)霸，他的特點就是每晚學(xué)習(xí)到12點，每科成績基本滿分。所以，主要從兩個方面關(guān)注一個對象，整體描述和特征：

1. 基礎(chǔ)統(tǒng)計

統(tǒng)計是最直接的方法，而且應(yīng)用起來也很簡單。常用的方法有總和、平均數(shù)、最大最小值、中位數(shù)、方差、增長率、類型占比、分布、頻率頻次等等。這里不多做介紹。

2. 聚類

“物以類聚，人以群分”，聚類屬于非監(jiān)督學(xué)習(xí)，聚類可以將一組數(shù)據(jù)分成多個類別，每個類別內(nèi)部的數(shù)據(jù)相似，但兩個類別之間相異。聚類有助于發(fā)現(xiàn)數(shù)據(jù)分布上的特點，可以大量減少分析的數(shù)據(jù)量。比如在軌跡分析和預(yù)測中，通過聚類，我們會發(fā)現(xiàn)某個人主要出現(xiàn)在三個地方，宿舍周圍、食堂周圍、教學(xué)樓周圍，那么當我們預(yù)測他在哪的時候，就可以從對無數(shù)經(jīng)緯度坐標的分析變成對三個地點的分析。

3. 特征分析

特征工程是很龐大，正如描述的那樣，數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限，而模型和算法只能逼近這個上限而已。特征工程包含了特征提取和特征選擇，由于其算法眾多且比較復(fù)雜，這里不一一介紹。特征分析首先要明確分析的單位，包括時間、空間和類型等等。就像軌跡預(yù)測中，分析每十分鐘的所在地要比分析每秒鐘的經(jīng)緯度坐標要實際得多，而分析每小時的所在地又太過粗糙。

五、它發(fā)生了什么？

它發(fā)生了什么包含正常和異常，而我們通常會更加關(guān)注異常，這里也著重于異常分析。它發(fā)生了什么與它是什么在分析思路和方法上是一致的，只是針對不同的階段，比如時間上本月與上月。

對于異常分析，主要有兩部分，發(fā)現(xiàn)異常和推送預(yù)警。推送預(yù)警比較簡單，只要注意預(yù)警的級別和推送的人。而異常發(fā)現(xiàn)，除了能直接觀察的異常，比如我們的學(xué)霸這次居然有一科沒及格，更多的需要注意暗物質(zhì)。所謂暗物質(zhì)，就是無法直接觀測的現(xiàn)象和關(guān)聯(lián)。

還是拿我們的學(xué)霸君說，這次他依舊像往常一樣全部考了滿分，這是正常的，然而我們發(fā)現(xiàn)他這次考試的復(fù)習(xí)時間只有以往的一半，這就不正常了，而我們又發(fā)現(xiàn)這次考試題目很簡單，所以這又正常了？錯，它依舊是異常，因為考試前學(xué)霸君并不知道考試的難度，所以對于復(fù)習(xí)時間減半依舊是異常。所以，重要的事說多遍，一定要熟悉業(yè)務(wù)和多視角觀察。

在異常判斷的時候，通常會根據(jù)具體的業(yè)務(wù)設(shè)置一些系數(shù)，通過這些系數(shù)的突變來發(fā)現(xiàn)潛在的異常。回到剛剛那個例子，我們可以簡單的用成績與復(fù)習(xí)時間的比值作為系數(shù)。這些系數(shù)在軌跡分析中尤為重要，例如我們要分析一個人的軌跡是否異常，首先會看他是否出現(xiàn)在從來沒去過的地方，如果沒有，第二步則用一個軌跡的向量去分析。

例如通過聚類，我們的學(xué)霸君主要出現(xiàn)在教室、圖書館、寢室三個地方，每個地方呆的時間假設(shè)都是每天8小時，那這時候就形成一個（8，8，8）的向量，而今天學(xué)霸的向量是（2，2，20），通過計算兩個向量的距離來發(fā)現(xiàn)異常，通常是歐式距離和余弦距離。

六、為什么發(fā)生？

每當發(fā)生什么的時候，我們都會問一句為什么？為什么是對數(shù)據(jù)的深層次挖掘與診斷，精確的問題診斷有利于正確的決策。一般可以用到以下的方法：

1. 趨勢、同比環(huán)比

這是很簡單的方法，既觀察其過去和其他周期的情況，這里不多介紹。

2. 下鉆

下鉆絕對是最常用且有效的找原因的辦法，既一層層抽絲撥繭，直到找到最根源的原因。只是在下鉆的過程中，一定要注意下鉆的區(qū)域和方向，就像挖井一樣，并不是隨便找個地方向任何方向打下去就會出水的。

就拿某商場的銷售額下降來說，要找出銷售額下降的原因，首先會想到去找那些銷量減少最多的商品，比如我們發(fā)現(xiàn)咖啡減少最多，為什么咖啡減少呢，因為氣溫變高，人們更偏愛冷飲了。

但是對比去年前年，每年這個時候咖啡都會減少，而取而代之的是冷飲的增加，它恰好彌補了咖啡的減少。所以這時我們需要變化思路，去尋找那些以往銷量很好而當下銷量很少的產(chǎn)品。而為了不犯上述的錯誤，我們可以分為多個層次下鉆，既一開始只關(guān)注大的分類的變化，如服裝、飲食等等，再從變化較大的類開始繼續(xù)下鉆。

3. 相關(guān)分析

相關(guān)分析是對不同特征或數(shù)據(jù)間的關(guān)系進行分析，發(fā)現(xiàn)業(yè)務(wù)的關(guān)鍵影響和驅(qū)動因素。例如時間到春運了，車票就不好買了一樣。相關(guān)分析常用的方法有協(xié)方差、相關(guān)系數(shù)、回歸和信息熵等，其中相關(guān)系數(shù)和回歸也可以用于下面將會提到的預(yù)測。其中相關(guān)是回歸的前提，相關(guān)系數(shù)表示了兩個變量有關(guān)系，而回歸則表示兩個變量是何種關(guān)系。其中相關(guān)系數(shù)與回歸也可以延伸到典型相關(guān)分析（多元）與多元回歸。

七、它還會發(fā)生什么？

它還會發(fā)生什么就是純粹的預(yù)測了，預(yù)測的算法有很多，但也并不是說所有的預(yù)測都需要借助難以理解的算法。比如萬精油的趨勢、增長率、同比環(huán)比、基本概率等，有的時候就很能說明問題。但在這里，還是介紹一些常用的預(yù)測方法：

1. 特別的點

對于實時性和連續(xù)性要求不高的預(yù)測，這絕對是最省心省力的辦法，但是這與具體的業(yè)務(wù)深度掛鉤，所以，重要的事說多遍，一定要熟悉業(yè)務(wù)和多視角觀察。

比如，我有件事情必須要給我的領(lǐng)導(dǎo)當面匯報，然而他經(jīng)常不在辦公室，不是在開會就是去現(xiàn)場了，或者正在哪見某個客戶，然而清楚的是，他每天早上8:30-9:00之間一定會來公司打卡，那我只要這段時間在打卡機旁候著就一定能見上他一面。

2. 分類與回歸

分類與回歸都是通過已知的數(shù)據(jù)構(gòu)建和驗證一個函數(shù)f，使得y=f（x），對于未知的x，通過f預(yù)測y，不同在于回歸的輸出是連續(xù)的而分類的輸出是離散的。例如，我們預(yù)測明天的溫度是回歸，而預(yù)測明天是下雨天還是晴天則是分類。分類方法有邏輯回歸、決策樹、支持向量機，而回歸一般會用到線性回歸。

八、該怎么辦？

該怎么辦是數(shù)據(jù)分析的最終目的。大多數(shù)情況下，當知道了問題出在哪，為什么出這個問題的時候，都知道接下來該怎么辦了。那么接下來就介紹一些即使知道哪出問題了也不知道該怎么辦的時候可以用的方法：

1. 擬合與圖論

這是在做路線規(guī)劃的時候最常用的，比如某商場頻發(fā)商品被偷的事件，我們發(fā)現(xiàn)有幾個地方的商品特容易被偷，那可以將這些地方串連起來，擬合成一條巡邏的路線給保安。同樣，也可以通過構(gòu)建圖并用求最短路徑的算法（Dijkstra、Floyd等）構(gòu)建巡邏的路徑。

2. 協(xié)同過濾

協(xié)同過濾屬于是利用集體智慧的辦法，就像那個經(jīng)典的面試題一樣，當你遇到一個誰也沒遇到過的問題時，你該怎么辦？那就是問那些比你更厲害的人他們會怎么辦。

協(xié)同過濾最多的是用在推薦引擎之中，一般的方式是尋找一個用戶的n個相似用戶，然后推薦給這個用戶他相似用戶喜歡的產(chǎn)品，或者找到當前用戶喜歡的前n個物品，然后挑選出和這n個物品相似的m個物品推薦給當前用戶。即使不用在推薦，它的思想也很容易延伸在其他方面，比如一個新手偵探不知道這個案件怎么破，那可以去看看柯南君類似的案件破案的步驟。

end.

作者：暮之雪