“小而美”的數(shù)據(jù)治理實(shí)踐

來(lái)源:一個(gè)數(shù)據(jù)人的自留地
作者:edan
01
背景與適用范圍
從服務(wù)體驗(yàn)出發(fā)做數(shù)據(jù)治理:數(shù)據(jù)服務(wù)于業(yè)務(wù),因?yàn)闃I(yè)務(wù)是在不斷的發(fā)展,所以當(dāng)數(shù)據(jù)建設(shè)到了一定階段的時(shí)候,各種問(wèn)題隨之而來(lái),既有底層數(shù)據(jù)模型過(guò)于冗余、鏈路過(guò)于復(fù)雜等問(wèn)題,也有業(yè)務(wù)側(cè)使用數(shù)據(jù)時(shí)的體驗(yàn)問(wèn)題。
當(dāng)大家談到數(shù)據(jù)治理時(shí),常常都想從根本出發(fā)解決問(wèn)題,指定一系列指標(biāo)規(guī)范,建模規(guī)范,借助元數(shù)據(jù)管理工具完成強(qiáng)制實(shí)施。開(kāi)發(fā)側(cè)做了很多動(dòng)作,但往往會(huì)出現(xiàn)業(yè)務(wù)側(cè)無(wú)感,形成開(kāi)發(fā)同學(xué)自嗨的局面。
筆者在實(shí)踐過(guò)程中從用戶體驗(yàn)的角度出發(fā),推動(dòng)數(shù)據(jù)治理的落地,讓業(yè)務(wù)同學(xué)直接體驗(yàn)到數(shù)據(jù)治理帶來(lái)的數(shù)據(jù)服務(wù)升級(jí)。
由于本文所講的內(nèi)容,更多是業(yè)務(wù)線服務(wù)(數(shù)據(jù) BP)中沉淀的經(jīng)驗(yàn),所以對(duì)服務(wù)于具體業(yè)務(wù)線的數(shù)據(jù)開(kāi)發(fā)/產(chǎn)品更有借鑒意義。
02
方法論
2.1
現(xiàn)狀分析
項(xiàng)目背景:筆者服務(wù)的業(yè)務(wù)對(duì)于數(shù)據(jù)的使用 90% 的場(chǎng)景都基于自助計(jì)算,但目前指標(biāo)維度數(shù)據(jù)易用性較差,導(dǎo)致業(yè)務(wù)使用成本高,甚至多次因?yàn)橹笜?biāo)混亂而取錯(cuò)數(shù)。
核心原因主要有兩個(gè):一方面建設(shè)過(guò)程中,對(duì)于核心指標(biāo)體系不清晰,所以拓展了很多階段性的指標(biāo)維度;另一方面由于業(yè)務(wù)經(jīng)歷多年的發(fā)展,數(shù)倉(cāng)圍繞許多 “曇花一現(xiàn)” 項(xiàng)目做過(guò)建設(shè),業(yè)務(wù)下線后指標(biāo)維度未做梳理下線。
項(xiàng)目目標(biāo):針對(duì)業(yè)務(wù)相關(guān)的數(shù)據(jù)集(基于業(yè)務(wù)線劃分的指標(biāo)維度集合)做指標(biāo)維度的治理,降低數(shù)據(jù)集使用的難度;并沉淀出一套適用業(yè)務(wù)服務(wù)體系的數(shù)據(jù)集治理 sop 雛形。
2.2
項(xiàng)目過(guò)程方法
2.2.1 問(wèn)題體系化梳理貼合業(yè)務(wù)實(shí)際使用情況,梳理指標(biāo)維度當(dāng)前存在四類問(wèn)題:
1)大量命名擂臺(tái)的指標(biāo)(中體內(nèi)容量/內(nèi)容量/中臺(tái)內(nèi)容量-去重),從表面完全看不出具體差異。有新老模型的原因,也有不同場(chǎng)景下對(duì)應(yīng)的元數(shù)據(jù)系統(tǒng)中取數(shù)方式不一樣的原因;
2)復(fù)合指標(biāo)冗余嚴(yán)重:比如 “新增中臺(tái)發(fā)布態(tài)內(nèi)容量” 類指標(biāo)非常多,可以考慮通過(guò)維度組合核心指標(biāo)的方案實(shí)現(xiàn)(限定「是否當(dāng)日新增內(nèi)容」維度下的「中臺(tái)發(fā)布態(tài)內(nèi)容量」);
3)指標(biāo)命名不規(guī)范(如:信息流_侵入態(tài)曝光_七日留存率,并不知道是什么動(dòng)作到什么動(dòng)作的留存);
4)指標(biāo)注釋無(wú)法說(shuō)明其真實(shí)意思(中臺(tái)內(nèi)容量:“中臺(tái)內(nèi)容量(狀態(tài)不限)”。其實(shí)底層是限定了發(fā)布態(tài)的)。
2.2.2 多方協(xié)作出方案1)商業(yè)分析同學(xué)基于對(duì)業(yè)務(wù)的理解,歸納出核心指標(biāo)維度體系;
2)數(shù)據(jù)產(chǎn)品對(duì)出現(xiàn)以上四類問(wèn)題的指標(biāo)維度做重點(diǎn)標(biāo)注說(shuō)明;
3)業(yè)務(wù)方根據(jù)指標(biāo)維度的使用熱度及業(yè)務(wù)需要,確認(rèn)指標(biāo)是否可以下線;
4)數(shù)據(jù)開(kāi)發(fā)對(duì)于可以簡(jiǎn)化通過(guò)維度組合計(jì)算的指標(biāo)給出建議(比如:「是否當(dāng)日新增內(nèi)容」維度 與「中臺(tái)發(fā)布態(tài)內(nèi)容量」指標(biāo)做出新增內(nèi)容漏斗,原先的新增指標(biāo)可以砍掉)。
整個(gè)過(guò)程由數(shù)據(jù)產(chǎn)品經(jīng)理發(fā)起主導(dǎo),其他角色的同學(xué)從自己的專業(yè)知識(shí)上提建議。
2.2.3 由淺及深做落地優(yōu)先做指標(biāo)維度的表層治理,提升業(yè)務(wù)側(cè)可感知的數(shù)據(jù)體驗(yàn),對(duì)應(yīng)不同的情況應(yīng)用層做三類動(dòng)作:1)不規(guī)范指標(biāo)重命名(對(duì)于命名不易理解,不規(guī)范的指標(biāo)維度,按照公司標(biāo)準(zhǔn)重新做命名);
2)無(wú)用指標(biāo)/數(shù)據(jù)模型下線(部分指標(biāo)維度不再使用的模型做字段下線;對(duì)應(yīng)所有指標(biāo)均已經(jīng)確認(rèn)可下線的模型做模型下線);
3)同義不同名維度/維指標(biāo)做整合(舉例:筆者所在團(tuán)隊(duì),造成同義不同名的維度的原因主要是因?yàn)榍捌跀?shù)據(jù)建設(shè)不規(guī)范,例如對(duì)城市名稱維度,不同事實(shí)表模型接入了不同的城市維度表,而不同維度表中對(duì)該字段有不同的命名,我們需要對(duì)各事實(shí)表模型中用到的維度表做統(tǒng)一即可)。
在指標(biāo)維度表層治理完成后,數(shù)倉(cāng)進(jìn)一步展開(kāi)數(shù)據(jù)鏈路的優(yōu)化工作,做深層的數(shù)據(jù)治理,更多幫助提升底層數(shù)據(jù)建設(shè)效率、數(shù)據(jù)生產(chǎn)效率。
2.3
項(xiàng)目效果
項(xiàng)目結(jié)束后,業(yè)務(wù)指標(biāo)從 200+ 個(gè)精簡(jiǎn)至約 80 個(gè),維度從 150+ 個(gè)精簡(jiǎn)至約 70 個(gè)。治理成果上線后業(yè)務(wù)側(cè)反饋:“確實(shí)提效了!再也不用擔(dān)心點(diǎn)錯(cuò)指標(biāo)了。同時(shí)讓其他協(xié)同的業(yè)務(wù)方用數(shù)據(jù)集的時(shí)候也降低了溝通成本”。
03
總結(jié)
項(xiàng)目實(shí)踐中值得總結(jié)的思想:
?治理實(shí)施思路上 “以客戶為中心”。由表及里實(shí)施治理,先從業(yè)務(wù)最能感知到的指標(biāo)維度層做精簡(jiǎn)操作;其次再提高業(yè)務(wù)使用過(guò)程中的速度體驗(yàn),從底層根本去治理數(shù)倉(cāng)鏈路,同時(shí)達(dá)到長(zhǎng)期降低數(shù)據(jù)開(kāi)發(fā)成本的效果。
?協(xié)作過(guò)程中遵循 “合作共贏” 的原則,協(xié)同 ba 及業(yè)務(wù)方一起思考優(yōu)化方案,不僅從多角度保證了最終實(shí)施成果的可靠性,也能讓相關(guān)方感知到數(shù)據(jù)治理這個(gè)非常底層的工作。最終才得以讓治理項(xiàng)目獲得斐然的成果。
關(guān)注我即刻了解更多數(shù)據(jù)分析知識(shí)
更多數(shù)據(jù)分析內(nèi)容
掃描碼即可了解
