由表及里的解讀數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)作為商業(yè)智能BI系統(tǒng)中的一部分,已經(jīng)成長(zhǎng)為了企業(yè)信息化建設(shè)中必不可少的重要支撐,在可見的未來,數(shù)據(jù)倉(cāng)庫(kù)還會(huì)隨著信息化、數(shù)字化技術(shù)、理念、應(yīng)用的落地,繼續(xù)成長(zhǎng)。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間變化但信息本身相對(duì)穩(wěn)定的數(shù)據(jù)集合,用于支持管理決策過程。其本質(zhì)就是完成從面向業(yè)務(wù)過程數(shù)據(jù)的組織管理到面向業(yè)務(wù)分析數(shù)據(jù)的組織和管理的轉(zhuǎn)變過程,也是商業(yè)智能BI中數(shù)據(jù)倉(cāng)庫(kù)的主要作用。

?數(shù)據(jù)倉(cāng)庫(kù)的六大現(xiàn)狀
1、缺失業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型清單與變更同步
沒有對(duì)已歸集到數(shù)倉(cāng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型記錄,業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型發(fā)送變更也沒有對(duì)數(shù)倉(cāng)知會(huì),更多是出現(xiàn)問題后或者是數(shù)據(jù)使用者事后告知數(shù)倉(cāng)。
2、業(yè)務(wù)部門數(shù)據(jù)自理
有些部門繞過數(shù)倉(cāng)直接接入上游數(shù)據(jù)源,搭建各自的小數(shù)倉(cāng),從而導(dǎo)致數(shù)據(jù)孤島、重復(fù)計(jì)算、口徑不一致。
3、存在業(yè)務(wù)盲區(qū)
有些業(yè)務(wù)需要專業(yè)知識(shí)背景如:財(cái)務(wù);有些業(yè)務(wù)規(guī)則保密級(jí)別高,無法對(duì)非業(yè)務(wù)相關(guān)員公開業(yè)務(wù)邏輯,如風(fēng)控;因此無法系統(tǒng)梳理這些業(yè)務(wù)實(shí)體與實(shí)體之間關(guān)系,提煉指標(biāo),共享數(shù)據(jù)。
?

4、流程規(guī)范缺少
沒有流程與規(guī)范指引數(shù)據(jù)開發(fā)者根據(jù)流程對(duì)數(shù)據(jù)進(jìn)行規(guī)范化建設(shè),導(dǎo)致數(shù)據(jù)分層分類不清晰,數(shù)據(jù)混亂;命名不規(guī)范,同義不同名,同名不同義;數(shù)據(jù)重復(fù)建設(shè),冗余數(shù)據(jù)多。
5、沒有體系化技術(shù)設(shè)計(jì)
無論是離線或?qū)崟r(shí)數(shù)據(jù)采集、處理與分發(fā)都缺少體系化設(shè)計(jì)與搭建;例如在離線與實(shí)時(shí)對(duì)同一數(shù)據(jù)源進(jìn)行采集;無差別對(duì)所有數(shù)據(jù)源每次全量抽取與 DWD 到 DWS 層無差別全量計(jì)算;T+1 與每小時(shí)批處理煙囪開發(fā),同一寬表離線與實(shí)時(shí)煙囪開發(fā)、重復(fù)計(jì)算與存儲(chǔ);對(duì)不同應(yīng)用場(chǎng)景無差別使用相同存儲(chǔ)與計(jì)算等等;
6、影響無互相隔離
數(shù)倉(cāng)數(shù)據(jù)存儲(chǔ)與計(jì)算,沒有與數(shù)據(jù)應(yīng)用服務(wù)存儲(chǔ)與技術(shù)隔離,存在互相之間資源搶占與問題被放大情況;同時(shí)也存在數(shù)倉(cāng)底層模型設(shè)計(jì)很難兼容數(shù)據(jù)應(yīng)用層模型設(shè)計(jì)需求
數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施步驟
●?需求分析
需求分析是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目最重要的一個(gè)環(huán)節(jié),數(shù)倉(cāng)說到底還是服務(wù)于業(yè)務(wù),支撐于業(yè)務(wù):
?

1、盡可能與業(yè)務(wù)方/客戶方一起分析需求,從而正確理解實(shí)際的業(yè)務(wù)需求。
2、必須實(shí)事求是地將數(shù)據(jù)倉(cāng)庫(kù)所能實(shí)現(xiàn)的目標(biāo)和不容易解決的問題與協(xié)商清楚。
3、需求方群體的分類
4、需求調(diào)研的再完美,也避免不了需求變更。
●?邏輯分析
數(shù)據(jù)倉(cāng)庫(kù)在邏輯上可以分成操作型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)集市層、數(shù)據(jù)分析應(yīng)用層和報(bào)表展示層。
?

●?設(shè)計(jì)ODS系統(tǒng)
ODS數(shù)據(jù)緩沖區(qū)ODS數(shù)據(jù)緩沖區(qū)是業(yè)務(wù)數(shù)據(jù)流動(dòng)過程的第一個(gè)存儲(chǔ)區(qū),實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)從各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源中將數(shù)據(jù)抽取出來,并且裝載到ODS數(shù)據(jù)緩沖區(qū)的這一過程,從而實(shí)現(xiàn)統(tǒng)一的全局的企業(yè)數(shù)據(jù)平臺(tái),為以后的數(shù)據(jù)抽取、清洗、轉(zhuǎn)換過程打下堅(jiān)實(shí)的基礎(chǔ)。
ODS數(shù)據(jù)緩沖區(qū)的ETL規(guī)則一般只進(jìn)行簡(jiǎn)單的匯總、計(jì)算,或者從操作型數(shù)據(jù)庫(kù)中直接抽取而中間不進(jìn)行任何轉(zhuǎn)化。ODS 統(tǒng)一信息視圖區(qū)的數(shù)據(jù)一般都是從ODS數(shù)據(jù)緩沖區(qū)中抽取過來的。
●?數(shù)據(jù)倉(cāng)庫(kù)建模
概念模型主要是模型設(shè)計(jì)人員對(duì)業(yè)務(wù)規(guī)則的理解,是最高層次的數(shù)據(jù)模型,幾乎涵蓋了業(yè)務(wù)所有的核心概念和重要的主題,為以后邏輯模型的建設(shè)打下了基礎(chǔ)。邏輯模型是對(duì)概念模型的分解、細(xì)化,將數(shù)據(jù)主題劃分成一個(gè)個(gè)的實(shí)體和實(shí)體關(guān)系,一般將第三范式作為設(shè)計(jì)的模板。
?

?

●?數(shù)據(jù)集市建模
一般數(shù)據(jù)集市模型的建設(shè)是基于需求分析得到的結(jié)果,數(shù)據(jù)集巾的建模主要針對(duì)事實(shí)表和維表的設(shè)計(jì)。
●?數(shù)據(jù)源分析
所謂數(shù)據(jù)源分析,就是對(duì)源數(shù)據(jù)進(jìn)行分析和總結(jié),得出源數(shù)據(jù)的范圍、格式、更新方式、更新頻率和質(zhì)量好壞的過程。數(shù)據(jù)源分析是指通過需求調(diào)研得知業(yè)務(wù)數(shù)據(jù)源的基本情況,并且加以詳細(xì)說明,具體內(nèi)容包括數(shù)據(jù)源中存在哪些物理表,表之間的關(guān)系和表中每個(gè)字段的數(shù)據(jù)類型和含義等。一般來說,業(yè)務(wù)數(shù)據(jù)源通常會(huì)有數(shù)據(jù)不完整、口徑不一致,或者各個(gè)數(shù)據(jù)源存在業(yè)務(wù)規(guī)則不統(tǒng)一的情況。
●?數(shù)據(jù)的獲取與整合
數(shù)據(jù)的獲取與整合存在于數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中的各個(gè)階段。數(shù)據(jù)倉(cāng)庫(kù)很重要的一個(gè)作用就是將散落在各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)整合起來,不規(guī)范的數(shù)據(jù)規(guī)范起來,以一種便于分析和應(yīng)用的方式放到數(shù)據(jù)倉(cāng)庫(kù)里,供前端應(yīng)用分析。
?

ETL 過程實(shí)際上就是數(shù)據(jù)流動(dòng)的過程,即從不同的數(shù)據(jù)源流向統(tǒng)一的目標(biāo)數(shù)據(jù)庫(kù)。數(shù)據(jù)的獲取與整合是完成數(shù)據(jù)倉(cāng)庫(kù)建設(shè)取復(fù)雜的過程,它關(guān)系到數(shù)據(jù)的質(zhì)量,是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目建設(shè)的根基。
●?數(shù)據(jù)應(yīng)用和報(bào)表展現(xiàn)
現(xiàn)在一般都是采用專業(yè)的低代碼的報(bào)表工具來做報(bào)表,提升開發(fā)效率,側(cè)重應(yīng)用分析。公司負(fù)責(zé)報(bào)表分析這塊的項(xiàng)目人員,那針對(duì)報(bào)表延伸出來的工作,報(bào)表需求分析、指標(biāo)體系規(guī)劃、以及各位為經(jīng)營(yíng)為管理為基層人員的報(bào)表分類,還有圍繞業(yè)務(wù)的分層設(shè)計(jì)。
?


對(duì)于基層員工,報(bào)表使用的最多的就是錄數(shù)據(jù),查詢數(shù)據(jù)。對(duì)于企業(yè)管理層,更多的說是進(jìn)行指標(biāo)的監(jiān)控,做的業(yè)績(jī)分析。而這一過程,也是通過數(shù)據(jù)使管理層可以更容易的按照標(biāo)準(zhǔn)的管理方法進(jìn)行決策。
?