賈喜順數(shù)據(jù)治理實戰(zhàn)
從幾百個大數(shù)據(jù)項目提煉濃縮而成?快速了解數(shù)據(jù)治理全流程
數(shù)據(jù)接入標準
目前企業(yè)主要的數(shù)據(jù)分布在流量日志,關系型數(shù)據(jù)/非關系型數(shù)據(jù)庫,第三方的一些數(shù)據(jù),例如爬蟲。
流量日志:首先已經(jīng)要制定埋點規(guī)范,如果有埋點系統(tǒng)來約束整個埋點生命周期當然最好,如果沒有至少了做到有文檔維護,規(guī)范制定了還需要強制執(zhí)行,埋點完成以后,要進行埋點正確性校驗,最好能做到各個環(huán)節(jié)有負責人簽字確認。埋點往往是很多企業(yè)的痛點,不規(guī)范的埋點,會導致后期修改起來很麻煩,不好統(tǒng)一維護,并且會給模型層兼容帶來很大的挑戰(zhàn),并且從問題的根因出發(fā),發(fā)現(xiàn)埋點問題不應該模型層來兼容,而是應該推動埋點去改正。埋點其實是一個很復雜的工程,本文不做詳細描述。
關系型數(shù)據(jù)/非關系型數(shù)據(jù)庫:企業(yè)會建立許多獨立,但是之間又有聯(lián)系的業(yè)務系統(tǒng),就拿電商來說,有交易,物流,售后,供應鏈,商家,會員,品牌等諸多的業(yè)務系統(tǒng),當一個公司發(fā)展到一定程度,甚至會出現(xiàn)多個領域業(yè)務的拓展。那么這一類數(shù)據(jù)如何接入到大數(shù)據(jù)里面呢,一般來講現(xiàn)在大數(shù)據(jù)倉庫都是使用hive搭建,當然底層還是用HDFS來進行存儲。其實有許多接入數(shù)據(jù)的工具,類似于sqoop,dataX,或者公司自己自研的工具。不管用什么工具,都要做到接入數(shù)據(jù)的規(guī)范。比如說:統(tǒng)一工具,統(tǒng)一明細層命名,統(tǒng)一多少數(shù)據(jù)量是全量,多少是增量等,一般在數(shù)據(jù)接入層,在數(shù)據(jù)模型設計當中會單獨設立一層stage(緩沖層),再上層才是ods層,stage層主要作用可以用于修復ods層數(shù)據(jù),增量stage合并ods層數(shù)據(jù)成為全量數(shù)據(jù)等作用??梢愿鶕?jù)自己的業(yè)務特點,制定適用的標準。
第三方數(shù)據(jù):一般多為一些非結(jié)構化數(shù)據(jù),處理方法也有很多種,暫不詳述。