淺談關(guān)于數(shù)據(jù)倉庫的理解,聊聊數(shù)據(jù)倉庫到底是什么?
不知不覺間,我們的生活中已經(jīng)充滿了數(shù)據(jù),各種崗位例如運營、市場、營銷上也都喜歡在職位要求加上一條利用數(shù)據(jù)、亦或是懂得數(shù)據(jù)分析。事實上,數(shù)據(jù)已經(jīng)成為了構(gòu)建現(xiàn)代社會的基本生產(chǎn)要素,并且因為不受自然環(huán)境的限制,已經(jīng)成為了人們對未來社會發(fā)展方向的共識。也正是這些,所以數(shù)據(jù)倉庫的討論的開始逐步增加。
近幾年的時間里,因為自助BI、敏捷BI的興起,很多企業(yè)在部署商業(yè)智能BI的時候,經(jīng)常會詢問是否需要建設(shè)數(shù)據(jù)倉庫,一時間數(shù)據(jù)倉庫成為了商業(yè)智能BI中的負(fù)面影響源頭。其實這主要是因為很多人不太明白數(shù)據(jù)倉庫到底在商業(yè)智能BI項目中發(fā)揮了什么作用,所以引發(fā)了很多爭論。
在討論數(shù)據(jù)倉庫前,我有一個問題,有數(shù)據(jù)倉庫的話,商業(yè)智能BI就不能自助分析、不能敏捷開發(fā)了嗎?商業(yè)智能BI的數(shù)據(jù)倉庫聽起來和數(shù)據(jù)庫也差不多,是不是換了個名頭?數(shù)據(jù)倉庫中備受重視的維度、指標(biāo)又是什么,對于企業(yè)有何意義?下面我們帶著問題淺談下商業(yè)智能BI數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫是什么
事實上,很多人在看到數(shù)據(jù)倉庫的第一眼,就把數(shù)據(jù)倉庫當(dāng)成了數(shù)據(jù)庫。當(dāng)然這也很正常,畢竟從名字來看這兩者確實區(qū)別不大,真正區(qū)分兩者的是定位、作用等更深一層的東西。不過在這里還是先解釋數(shù)據(jù)倉庫的概念,不同之處后邊會進行詳細(xì)講解。
數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間變化但信息本身相對穩(wěn)定的數(shù)據(jù)集合,用于支持管理決策過程。其本質(zhì)就是完成從面向業(yè)務(wù)過程數(shù)據(jù)的組織管理到面向業(yè)務(wù)分析數(shù)據(jù)的組織和管理的轉(zhuǎn)變過程,也是商業(yè)智能BI中數(shù)據(jù)倉庫的主要作用。
數(shù)據(jù)倉庫就像企業(yè)的總的大倉庫,能夠存儲不同來源、不同格式的數(shù)據(jù),并且可以通過ETL和數(shù)據(jù)模型,對數(shù)據(jù)進行高質(zhì)量的篩選,分級分類進行存儲。具有很強的穩(wěn)定性,不會頻繁的進行增刪改等操作,能夠反應(yīng)歷史變化。
用通俗的話來說就是數(shù)據(jù)倉庫就像一個終端的大倉庫,其他小倉庫的各種貨品會通過各種方式統(tǒng)一存儲到這里,然后通過倉庫位置的劃分、貨品的擺放進行歸納分類,實現(xiàn)規(guī)范、標(biāo)準(zhǔn)的從存放,到分類,再到使用的完整過程。
數(shù)據(jù)倉庫和數(shù)據(jù)庫有什么不同
其實數(shù)據(jù)倉庫和數(shù)據(jù)庫跟現(xiàn)實中的倉儲系統(tǒng)是有很多相似之處的,企業(yè)各部門的數(shù)據(jù)庫就相當(dāng)于一個個小的產(chǎn)業(yè)庫,對應(yīng)了企業(yè)的各個部門。而數(shù)據(jù)倉庫相當(dāng)于是一個終端倉庫,其中存儲的物品是由各個小的倉庫運送的,是各個數(shù)據(jù)庫的集合體,一個更大的綜合數(shù)據(jù)庫。

此外,數(shù)據(jù)庫和數(shù)據(jù)倉庫最不同的還是服務(wù)對象和作用。上邊也提到了,數(shù)據(jù)庫基本上是服務(wù)于各個部門,是業(yè)務(wù)信息系統(tǒng)的附屬品,也就是我們常在信息化建設(shè)初期中提到的ERP、OA、CRM等業(yè)務(wù)系統(tǒng)。這些數(shù)據(jù)庫是服務(wù)于各種業(yè)務(wù)系統(tǒng)以及業(yè)務(wù)軟件,主要是通過業(yè)務(wù)流程發(fā)揮作用。
而數(shù)據(jù)倉庫就不一樣了,它不是服務(wù)于業(yè)務(wù)信息化系統(tǒng)的,它是服務(wù)于分析型應(yīng)用的。更多的是通過各種商業(yè)智能BI前端可視化分析工具或者報表工具來訪問數(shù)據(jù)倉庫,最終是面向報表查詢,數(shù)據(jù)分析服務(wù),為業(yè)務(wù)人員提供復(fù)盤、預(yù)測,為企業(yè)管理人員提供決策信息的。
數(shù)據(jù)倉庫建模方式
在Kimball和Inmon兩位數(shù)據(jù)倉庫領(lǐng)域大佬不同方向的經(jīng)驗指導(dǎo)下,數(shù)據(jù)倉庫的建模已經(jīng)是一個成熟的體系,可以根據(jù)需求選擇不同的方式,既有三范式 3NF 建模,也有維度建模比如星型或雪花型的建模方式。

數(shù)據(jù)倉庫還有著分層結(jié)構(gòu),每個分層結(jié)構(gòu)都有各自的作用,比如經(jīng)??吹降腛DS 層、Trans 層、Dimension 層、Data Mart 層等,都是為了將數(shù)據(jù)從大海中進行篩選,從分散到集中進行高度匯總,形成一個個的主題,為后續(xù)的前端數(shù)據(jù)可視化分析提供數(shù)據(jù)的支撐。
數(shù)據(jù)倉庫為了業(yè)務(wù)分析的目的,因此需要拉通各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù),保留大量歷史數(shù)據(jù),同時為了分析效率的提升改變了傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)組織形式,例如利用適合于分析型模型的Kimball維度建模方式來組織底層數(shù)據(jù)架構(gòu)。

數(shù)據(jù)倉庫服務(wù)于商業(yè)智能BI分析,通過商業(yè)智能BI前端可視化分析工具來訪問,是其中不可或缺的一部分。并且在長期的建設(shè)中,商業(yè)智能BI已經(jīng)形成了一套直接零代碼配置并完成數(shù)倉建模的整個過程,進行了完整的產(chǎn)品化,解決了困難的架構(gòu)與模型的問題。
數(shù)據(jù)倉庫作為商業(yè)智能BI系統(tǒng)中的一部分,已經(jīng)成長為了企業(yè)信息化建設(shè)中必不可少的重要支撐,在可見的未來,數(shù)據(jù)倉庫還會隨著信息化、數(shù)字化技術(shù)、理念、應(yīng)用的落地,繼續(xù)成長。