用好增強(qiáng)分析,數(shù)據(jù)分析事半功倍

如果還沒有聽過增強(qiáng)分析的概念,那么你在數(shù)據(jù)分析領(lǐng)域的信息可能需要更新了。
在螞蟻集團(tuán)工作的4年期間,伴隨著內(nèi)部的分析平臺(tái)從單純的可視化工具,一步步開發(fā)出增強(qiáng)分析的各種能力和組件,我始終是第一批吃螃蟹的那撥人。
今天就和大家聊一聊,增強(qiáng)分析給我的日常工作帶來了什么樣的變化,順便展望一下未來的趨勢(shì)。
1?什么是增強(qiáng)分析
增強(qiáng)分析,是由全球最具權(quán)威的IT研究與顧問咨詢公司Gartner,在2017年提出的一個(gè)概念。
增強(qiáng)分析指的是利用機(jī)器學(xué)習(xí)和自然語言處理的技術(shù),將數(shù)據(jù)準(zhǔn)備、洞察展現(xiàn)等過程自動(dòng)化,從而降低數(shù)據(jù)使用門檻,讓業(yè)務(wù)人員也能完成數(shù)據(jù)交互,得出分析結(jié)論。
大家熟悉的Tableau、PowerBI等可視化工具都在探索增強(qiáng)分析的應(yīng)用。
2017年,我在螞蟻的客戶體驗(yàn)和權(quán)益保障事業(yè)部做數(shù)據(jù)分析。當(dāng)時(shí)數(shù)據(jù)團(tuán)隊(duì)頻繁遇到需要對(duì)單個(gè)指標(biāo)進(jìn)行多維度下鉆并計(jì)算貢獻(xiàn)度的分析場(chǎng)景。
于是我們找到了內(nèi)部的DeepInsight分析平臺(tái)技術(shù)部門,在2018年初,合作產(chǎn)出了第一個(gè)分析組件:樹狀圖,邁出了增強(qiáng)分析的第一步。
接下來以螞蟻集團(tuán)內(nèi)部的分析平臺(tái)為例,對(duì)比一下增強(qiáng)分析和早期的可視化,有什么不同。圖片出自《螞蟻企業(yè)級(jí)BI增強(qiáng)分析白皮書》。

平時(shí)我們用到的可視化圖表是這樣的:

而在增強(qiáng)分析的幫助下,我們能夠快速獲取不同時(shí)段、不同維度的統(tǒng)計(jì)數(shù)據(jù)、同環(huán)比變化、貢獻(xiàn)度和事件歸因:

2 增強(qiáng)分析,強(qiáng)在哪里?
早些年,可視化工具的后臺(tái)處理能力還十分有限,導(dǎo)致我們畫圖的時(shí)候,只能接入清洗好的統(tǒng)計(jì)數(shù)據(jù)。
數(shù)據(jù)分析師的工作流程一般都是:想好要畫什么圖->清洗出對(duì)應(yīng)的數(shù)據(jù)->可視化后臺(tái)接入數(shù)據(jù)源->繪制圖表。
想展示全國(guó)每個(gè)城市的銷售額,需要洗出一張銷售額統(tǒng)計(jì)表;想展示每個(gè)商品大類的毛利,就再洗一張毛利統(tǒng)計(jì)表。
假設(shè)某天業(yè)務(wù)突然提出,想要在一張圖里面,看到每個(gè)商品大類的毛利和毛利率,數(shù)據(jù)分析師就要重新洗一張表。
如果某類商品的毛利率下滑,業(yè)務(wù)想知道具體的原因,那么這張圖沒法解釋,數(shù)據(jù)分析師只能再次清洗數(shù)據(jù),做下鉆分析。
而增強(qiáng)分析的后臺(tái)能夠接入幾百萬行的明細(xì)數(shù)據(jù),后臺(tái)計(jì)算以秒級(jí)響應(yīng),展示在前端的圖表上。
有了強(qiáng)大的算力支持,加上增強(qiáng)分析內(nèi)置的計(jì)算字段功能的升級(jí),很多需要在數(shù)據(jù)清洗階段完成的計(jì)算(比方說排名、留存率等等),現(xiàn)在也可以放在可視化的后臺(tái)去做了,這樣就大大的提高了分析的靈活度。
回到上面的業(yè)務(wù)需求,只需要接入一張包含銷售和毛利的明細(xì)表,通過計(jì)算字段的功能,設(shè)置出“毛利率”(毛利/銷售額)這個(gè)指標(biāo),就可以滿足了,不需要再次清洗和接入數(shù)據(jù)。
更方便的是,只要這張明細(xì)表包含商品大類的下鉆維度(例如商品SKU),就可以實(shí)現(xiàn)毛利率的下鉆歸因。
由于所有數(shù)據(jù)都來自于一張明細(xì)表,數(shù)據(jù)一致性的問題也能得到很好的解決,再也不需要開會(huì)之前先拉著各方對(duì)數(shù)據(jù)口徑了。
一些描述性的統(tǒng)計(jì),以及貢獻(xiàn)度的計(jì)算,都可以由增強(qiáng)分析后臺(tái)完成。所見即所得,業(yè)務(wù)截個(gè)圖,直接就能拿去用。
我在阿里做社區(qū)團(tuán)購(gòu)業(yè)務(wù)的時(shí)候,就是靠著這樣一張明細(xì)寬表和增強(qiáng)分析,搞定了業(yè)務(wù)80%的日常看數(shù)和分析的需求。

以下列舉了這張寬表能支持的部分需求:
1)DAU、新用戶、客單價(jià)、GMV等核心指標(biāo)的數(shù)值與趨勢(shì),有業(yè)務(wù)目標(biāo)時(shí),還能追蹤完成進(jìn)度;
2)每周GMV的波動(dòng)歸因,by 區(qū)域、商品品類、地推人員... 用到的組件形式如下,每張卡片包含實(shí)際數(shù)值和變化率,能夠按照表字段之間的映射關(guān)系展開到子節(jié)點(diǎn),并展示對(duì)父節(jié)點(diǎn)的貢獻(xiàn)度;

3)不同營(yíng)銷活動(dòng)的達(dá)成情況與GMV貢獻(xiàn);
4)商品的坑產(chǎn),不同區(qū)域賣得好的商品SKU;
5)xx區(qū)域因特殊原因交通管制,無法履約,需要導(dǎo)出批量退款的訂單;
6)不同網(wǎng)格倉(cāng),購(gòu)買了冷藏冷凍品的用戶,退貨件數(shù)占比與7日留存率的相關(guān)性;
我就是用這個(gè)分析證明了某個(gè)城市的網(wǎng)格倉(cāng)服務(wù)質(zhì)量存在問題,幫助省域負(fù)責(zé)人推動(dòng)一個(gè)網(wǎng)格倉(cāng)更換供應(yīng)商,一個(gè)網(wǎng)格倉(cāng)更換地址,和業(yè)務(wù)建立了良好的合作關(guān)系。
詳情可以參考去年11月2日,《業(yè)務(wù)方知讓我取數(shù),不聽我的建議怎么辦?》這期內(nèi)容。
7)疑似刷單的團(tuán)點(diǎn)、用戶、商品清單
3?如何用好增強(qiáng)分析?
不難發(fā)現(xiàn),增強(qiáng)分析能夠發(fā)揮這么大的作用,主要就是在于這張寬表的搭建。
這一方面需要比較完善的數(shù)據(jù)基建;另一方面,對(duì)于數(shù)據(jù)分析師的業(yè)務(wù)理解也有很高的要求,知道哪些維度對(duì)于業(yè)務(wù)的分析是有參考意義的。
以上文提到的疑似刷單為例:
為什么會(huì)出現(xiàn)刷單的現(xiàn)象?是因?yàn)槠脚_(tái)為了獲取新用戶,會(huì)拿出少量SKU(例如:雞蛋、土豆、可樂、抽紙、牙膏等等)來做新人活動(dòng),犧牲部分利潤(rùn),以獲取用戶的增長(zhǎng)。
而可樂、抽紙、牙膏這類保質(zhì)期長(zhǎng)、易存放、銷路廣、不愁賣的商品(俗稱標(biāo)品),一旦活動(dòng)價(jià)格打得過低(例如:一罐可樂券后僅1元),存在套利空間,就會(huì)吸引一些商家或者黑灰產(chǎn)批量注冊(cè)新賬號(hào),統(tǒng)一下單到一個(gè)團(tuán)點(diǎn),用于囤積貨品。
因此,刷單的行為,在數(shù)據(jù)上會(huì)有如下特征:
某個(gè)新人活動(dòng)單品(如可樂)的件數(shù)占比過高
這個(gè)單品的銷售集中在少數(shù)幾個(gè)團(tuán)點(diǎn)
這些團(tuán)點(diǎn)幾乎沒有老用戶下單,新用戶占絕大多數(shù)
這些新用戶只買了一件新人活動(dòng)單品,沒有購(gòu)買任何其他的商品
我們就可以按照這樣的排查順序,做出可視化看板,利用增強(qiáng)分析,對(duì)單品件數(shù)占比的異動(dòng)設(shè)置提示,然后業(yè)務(wù)就可以自己查看并采取行動(dòng)了。
通常地推主管會(huì)安排對(duì)涉事團(tuán)點(diǎn)的排查,必要時(shí)進(jìn)行強(qiáng)制關(guān)閉;營(yíng)銷和商品主管會(huì)重新評(píng)估商品的活動(dòng)力度,防止出現(xiàn)負(fù)毛利的情況。
歸根結(jié)底,社區(qū)團(tuán)購(gòu)做的是存量用戶的復(fù)購(gòu)生意,前期犧牲利潤(rùn)以獲取用戶的增長(zhǎng),不是為了DAU和新用戶的數(shù)字增長(zhǎng),而是為了獲取未來有可能長(zhǎng)期復(fù)購(gòu)的真實(shí)用戶。
所以,對(duì)用戶健康度的關(guān)注,對(duì)于業(yè)務(wù)的健康發(fā)展有至關(guān)重要的作用,是早期的一項(xiàng)重要工作。
而有些區(qū)域,為了完成新用戶的目標(biāo),甚至故意變著法兒縱容刷單的行為。我和部分區(qū)域的地推小組長(zhǎng)聊過,他們都開玩笑說是化學(xué)拉新。
一段時(shí)間后,這些區(qū)域的DAU、GMV,都呈現(xiàn)出非常不健康的形態(tài),無異于自毀長(zhǎng)城。
因?yàn)闃I(yè)務(wù)早期發(fā)展,需要關(guān)注用戶的健康度,所以需要對(duì)刷單行為進(jìn)行監(jiān)控;因?yàn)樗斡猩鲜龅臉I(yè)務(wù)邏輯,所以明細(xì)表中,需要是否新用戶、商品SKU、團(tuán)點(diǎn)id、團(tuán)點(diǎn)所屬地推人員等維度的字段。
以上就是設(shè)計(jì)明細(xì)寬表時(shí)的典型思路。
有了增強(qiáng)分析之后,業(yè)務(wù)就不需要因?yàn)槿粘5囊恍┲笜?biāo)統(tǒng)計(jì)、波動(dòng)歸因等問題來麻煩分析師了,數(shù)據(jù)分析師是不是就沒事做了呢?
我把節(jié)省出的時(shí)間,用來深入研究核心用戶該怎么定義,他們經(jīng)常購(gòu)買什么樣的商品,是怎么一步步對(duì)平臺(tái)產(chǎn)生粘性的;我對(duì)現(xiàn)有的指標(biāo)體系進(jìn)行優(yōu)化,讓每個(gè)職能團(tuán)隊(duì)都和總目標(biāo)產(chǎn)生關(guān)聯(lián),通過數(shù)據(jù)輔助的方式,解決團(tuán)隊(duì)中的協(xié)同問題。
這類事情,才是數(shù)據(jù)分析師產(chǎn)生深度業(yè)務(wù)價(jià)值的體現(xiàn)。