企業(yè)數(shù)字化管理中,數(shù)據(jù)治理到底怎么“治”
隨著信息化、數(shù)字化的理念、技術及其應用在社會的方方面面進行擴散,數(shù)據(jù)的規(guī)模和豐富程度已經(jīng)達到了一個新的高度,所以當下如何更進一步利用好數(shù)據(jù),充分發(fā)揮數(shù)據(jù)的價值,將其真正變?yōu)楦哔|(zhì)量的數(shù)據(jù)資產(chǎn)成為了企業(yè)要面對的重要問題,這也就是數(shù)據(jù)治理項目如此火熱的原因。
數(shù)據(jù)治理是一個龐大的工程,數(shù)據(jù)開發(fā)人員要積極介入整個數(shù)據(jù)的上下游流程,理解多個系統(tǒng)的內(nèi)在邏輯,才能建設出高質(zhì)量的數(shù)倉,并打造數(shù)據(jù)驅(qū)動型的業(yè)務。
數(shù)據(jù)治理的目標
雖然數(shù)據(jù)治理很復雜,在企業(yè)中的實際成功率也并不高,但大多數(shù)企業(yè)的數(shù)據(jù)治理目標其實很簡單,就是不斷提升數(shù)據(jù)質(zhì)量,規(guī)范數(shù)據(jù)生產(chǎn)、存儲、處理、分析等數(shù)據(jù)生命周期的過程,讓企業(yè)能夠更方便的利用數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為信息和知識,形成企業(yè)的重要資產(chǎn)。

所以說,企業(yè)進行數(shù)據(jù)治理不需要考慮太多數(shù)據(jù)治理有什么意義,而是應該轉(zhuǎn)而思考規(guī)劃數(shù)據(jù)治理項目應該有什么樣的目標,從而實現(xiàn)什么樣的企業(yè)發(fā)展,給整個數(shù)據(jù)治理項目劃出一個方向。
這樣一來企業(yè)進行數(shù)據(jù)治理整個項目就可以轉(zhuǎn)化為一個個目標,企業(yè)在將數(shù)據(jù)價值化的過程中,影響數(shù)據(jù)價值的主要原因是數(shù)據(jù)質(zhì)量過低,導致數(shù)據(jù)分析結(jié)果可信度低、準確性差,所以提高數(shù)據(jù)質(zhì)量是大多數(shù)企業(yè)共同的目標。
如何數(shù)據(jù)治理
(一)上報治理
作為數(shù)據(jù)的源頭,上報的質(zhì)量直接關系著數(shù)倉的質(zhì)量。有沒有、對不對、準不準是上報發(fā)展過程中依次要解決的問題。解決這個矛盾的方向是標準化采集上報工具和簡單可執(zhí)行的上報規(guī)范流程。有條件的業(yè)務可以開發(fā)自己的采集上報工具(SDK),完成上報時機、采集參數(shù)位置的統(tǒng)一,將開發(fā)人員從每個埋點的重復開發(fā)工作中解放出來。若場景比較復雜,很難用工具進行標準化,或者數(shù)據(jù)開發(fā)人力不足,無法維持上報工具的開發(fā)與維護,可以根據(jù)自己的業(yè)務特征,制定一套簡單可執(zhí)行的上報規(guī)范。其中簡單可執(zhí)行是設計的核心,一定要讓開發(fā)人員一看就明白該怎做,否則在規(guī)范設計人員看來很簡單的東西,推廣到幾十上百人時就會變成一場理解成本災難,那么理解的統(tǒng)一又成了一個問題。
?

(二)參數(shù)治理
大型業(yè)務的上報參數(shù),可能已有上千個之多。原因在于不同場景下的運營和產(chǎn)品團隊可能是獨立的,就導致了即使2個參數(shù)的相似度高達90%,但上報的字段名卻是不同的。
這就是上報混亂的另一個問題:參數(shù)膨脹。對于存量業(yè)務,從熟悉業(yè)務參數(shù)到找到相似參數(shù)并進行整合,上下游配合修改,是一個比較長且比較耗費人力的操作,看到收益前的投入會非常大,但如果評估出來的收益更大,那么就需要決策者有足夠的定力,去持續(xù)投入和推動。更加優(yōu)雅的方式應該是前端框架的功能模塊化,相同的模塊具有相同的功能和上報參數(shù)命名。
(三)指標治理
指標治理來到了數(shù)倉層面,同樣是由于缺乏統(tǒng)一規(guī)范,導致相似度很高的指標,以不同的名稱在多張表中呈現(xiàn),給下游的使用帶來疑惑。
解決的方向之一是建立統(tǒng)一指標庫,新增指標需要進行評審才能加入指標庫并進行開發(fā)。更健康的方式應該是加深數(shù)倉和下游團隊彼此的理解和信任,有些比較定制化的業(yè)務指標,可以由業(yè)務方先行計算并驗證其可行性,不需要從一開始就固化在數(shù)倉層面;經(jīng)過驗證并確認有效的,數(shù)倉人員要想辦法將其融合進現(xiàn)有數(shù)倉。
?

(四)流程治理
在業(yè)務已經(jīng)比較成熟的數(shù)據(jù)團隊內(nèi),規(guī)范化數(shù)據(jù)開發(fā)流程可以一定程度上避免野蠻開發(fā),提高迭代效率。DataOps是一種協(xié)作數(shù)據(jù)管理實踐,將數(shù)據(jù)開發(fā)、管理、分析、運營融為一體的方法論,通過更好的協(xié)作和自動化來改善組織對于數(shù)據(jù)的使用。
(五)成本優(yōu)化
因為一些歷史原因,有些數(shù)據(jù)表和計算任務的使用率很低或者高度重復,造成了計算和存儲資源的浪費,就像每次搬家的時候往往能發(fā)現(xiàn)一大堆從來沒用過的東西。
1、計算資源優(yōu)化
定期回顧數(shù)倉計算任務,合并類似的計算任務。
基礎流水的解析,在實時任務保障穩(wěn)定的前提下,離線任務可以不用例行化執(zhí)行,僅作為實時任務的備份。
合理設置計算任務的所需資源,避免任務申請遠超于實際需求的計算資源。
適當?shù)赜靡晥D代替實際計算。
?

2、存儲資源優(yōu)化
根據(jù)數(shù)據(jù)表下游使用情況,合理設置生命周期。
針對下游數(shù)據(jù)使用的時效性,合理選擇存儲引擎。
及時下線數(shù)倉中已失效的字段。
適當?shù)厥褂靡晥D代替實體表。
(六)價值循環(huán)
數(shù)據(jù)治理的最終目標是更大程度地發(fā)揮數(shù)據(jù)價值,融入數(shù)據(jù)價值循環(huán)中促進正反饋。其中數(shù)據(jù)團隊的話語權(quán)是能夠進行深度數(shù)據(jù)治理的先決條件,數(shù)據(jù)治理的成果一般在兩三年后才能慢慢顯現(xiàn),屬于長期價值投入,如果沒有一定的基礎是無法堅持下去的。數(shù)據(jù)治理的結(jié)果是數(shù)據(jù)質(zhì)量的提升,進而可以在部分場景下產(chǎn)生業(yè)務決策,促進收入的增長。在這種正向驅(qū)動的作用下,數(shù)據(jù)的價值進一步凸顯,數(shù)據(jù)團隊也有更多的資源來繼續(xù)提升數(shù)據(jù)質(zhì)量和服務水平。
?

數(shù)據(jù)不是萬能的。在強內(nèi)容質(zhì)量、特定人群共識、外部公司協(xié)作等場景下,無法僅通過數(shù)據(jù)大幅提升業(yè)務的關鍵指標,這時更關鍵的業(yè)務驅(qū)動力來源于產(chǎn)品設計的和運營管理,此時數(shù)據(jù)團隊更多的時候是提供基礎的運營數(shù)據(jù)分析,以輔助和建議為主。
?