數(shù)據(jù)治理實(shí)戰(zhàn)課程從幾百個(gè)大數(shù)據(jù)項(xiàng)目提煉濃縮而成
數(shù)據(jù)接入標(biāo)準(zhǔn)
目前企業(yè)主要的數(shù)據(jù)分布在流量日志,關(guān)系型數(shù)據(jù)/非關(guān)系型數(shù)據(jù)庫,第三方的一些數(shù)據(jù),例如爬蟲。
流量日志:首先已經(jīng)要制定埋點(diǎn)規(guī)范,如果有埋點(diǎn)系統(tǒng)來約束整個(gè)埋點(diǎn)生命周期當(dāng)然最好,如果沒有至少了做到有文檔維護(hù),規(guī)范制定了還需要強(qiáng)制執(zhí)行,埋點(diǎn)完成以后,要進(jìn)行埋點(diǎn)正確性校驗(yàn),最好能做到各個(gè)環(huán)節(jié)有負(fù)責(zé)人簽字確認(rèn)。埋點(diǎn)往往是很多企業(yè)的痛點(diǎn),不規(guī)范的埋點(diǎn),會(huì)導(dǎo)致后期修改起來很麻煩,不好統(tǒng)一維護(hù),并且會(huì)給模型層兼容帶來很大的挑戰(zhàn),并且從問題的根因出發(fā),發(fā)現(xiàn)埋點(diǎn)問題不應(yīng)該模型層來兼容,而是應(yīng)該推動(dòng)埋點(diǎn)去改正。埋點(diǎn)其實(shí)是一個(gè)很復(fù)雜的工程,本文不做詳細(xì)描述。
關(guān)系型數(shù)據(jù)/非關(guān)系型數(shù)據(jù)庫:企業(yè)會(huì)建立許多獨(dú)立,但是之間又有聯(lián)系的業(yè)務(wù)系統(tǒng),就拿電商來說,有交易,物流,售后,供應(yīng)鏈,商家,會(huì)員,品牌等諸多的業(yè)務(wù)系統(tǒng),當(dāng)一個(gè)公司發(fā)展到一定程度,甚至?xí)霈F(xiàn)多個(gè)領(lǐng)域業(yè)務(wù)的拓展。那么這一類數(shù)據(jù)如何接入到大數(shù)據(jù)里面呢,一般來講現(xiàn)在大數(shù)據(jù)倉庫都是使用hive搭建,當(dāng)然底層還是用HDFS來進(jìn)行存儲(chǔ)。其實(shí)有許多接入數(shù)據(jù)的工具,類似于sqoop,dataX,或者公司自己自研的工具。不管用什么工具,都要做到接入數(shù)據(jù)的規(guī)范。比如說:統(tǒng)一工具,統(tǒng)一明細(xì)層命名,統(tǒng)一多少數(shù)據(jù)量是全量,多少是增量等,一般在數(shù)據(jù)接入層,在數(shù)據(jù)模型設(shè)計(jì)當(dāng)中會(huì)單獨(dú)設(shè)立一層stage(緩沖層),再上層才是ods層,stage層主要作用可以用于修復(fù)ods層數(shù)據(jù),增量stage合并ods層數(shù)據(jù)成為全量數(shù)據(jù)等作用。可以根據(jù)自己的業(yè)務(wù)特點(diǎn),制定適用的標(biāo)準(zhǔn)。