聊聊數(shù)據(jù)倉庫是什么
隨著數(shù)據(jù)通過各種方式創(chuàng)造了巨大價(jià)值,各領(lǐng)域的企業(yè)開始不斷挖掘數(shù)據(jù)的作用,數(shù)據(jù)的重要性得到了社會(huì)各界的共同認(rèn)可。像我們熟知的數(shù)據(jù)治理、數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)以及數(shù)據(jù)資產(chǎn)都是因?yàn)閿?shù)據(jù)地位不斷提升,企業(yè)開始重視起數(shù)據(jù)全生命周期流程,才開始在企業(yè)內(nèi)大規(guī)模實(shí)施的。因此,了解數(shù)據(jù)倉庫就尤為重要了。
?

數(shù)據(jù)倉庫是什么
事實(shí)上,很多人在看到數(shù)據(jù)倉庫的第一眼,就把數(shù)據(jù)倉庫當(dāng)成了數(shù)據(jù)庫。當(dāng)然這也很正常,畢竟從名字來看這兩者確實(shí)區(qū)別不大,真正區(qū)分兩者的是定位、作用等更深一層的東西。不過在這里還是先解釋數(shù)據(jù)倉庫的概念,不同之處后邊會(huì)進(jìn)行詳細(xì)講解。
數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化但信息本身相對穩(wěn)定的數(shù)據(jù)集合,用于支持管理決策過程。其本質(zhì)就是完成從面向業(yè)務(wù)過程數(shù)據(jù)的組織管理到面向業(yè)務(wù)分析數(shù)據(jù)的組織和管理的轉(zhuǎn)變過程,也是商業(yè)智能BI中數(shù)據(jù)倉庫的主要作用。
?

數(shù)據(jù)倉庫就像企業(yè)的總的大倉庫,能夠存儲(chǔ)不同來源、不同格式的數(shù)據(jù),并且可以通過ETL和數(shù)據(jù)模型,對數(shù)據(jù)進(jìn)行高質(zhì)量的篩選,分級(jí)分類進(jìn)行存儲(chǔ)。具有很強(qiáng)的穩(wěn)定性,不會(huì)頻繁的進(jìn)行增刪改等操作,能夠反應(yīng)歷史變化。
用通俗的話來說就是數(shù)據(jù)倉庫就像一個(gè)終端的大倉庫,其他小倉庫的各種貨品會(huì)通過各種方式統(tǒng)一存儲(chǔ)到這里,然后通過倉庫位置的劃分、貨品的擺放進(jìn)行歸納分類,實(shí)現(xiàn)規(guī)范、標(biāo)準(zhǔn)的從存放,到分類,再到使用的完整過程。
?數(shù)據(jù)倉庫中的數(shù)據(jù)治理
數(shù)據(jù)倉庫中的數(shù)據(jù)治理以解決實(shí)際業(yè)務(wù)問題為導(dǎo)向,以提升數(shù)據(jù)資產(chǎn)的管理水平和使用效率為目標(biāo),并以元數(shù)據(jù)為驅(qū)動(dòng),連接數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理各個(gè)階段,形成統(tǒng)一、完善、覆蓋數(shù)據(jù)全生命周期的數(shù)據(jù)治理體系。數(shù)據(jù)倉庫中的數(shù)據(jù)治理主要針對以下問題。
第一,數(shù)據(jù)分散、雜亂,無法理解。很多企業(yè)業(yè)務(wù)線眾多,數(shù)據(jù)源分散,且各系統(tǒng)間無法打通,成為信息孤島;數(shù)據(jù)收集標(biāo)準(zhǔn)不相同,數(shù)據(jù)零散地存儲(chǔ)在各個(gè)業(yè)務(wù)系統(tǒng)中,難以形成全局?jǐn)?shù)據(jù)聯(lián)動(dòng)。
?

第二,數(shù)據(jù)收集渠道單一,模式落后,效率低,成本高。業(yè)務(wù)增長帶來數(shù)據(jù)增長,傳統(tǒng)數(shù)據(jù)管理模式難以應(yīng)對大數(shù)據(jù)增長。從渠道上來說,傳統(tǒng)數(shù)據(jù)收集渠道單一、落后、偏線下化;從方式上來說,很多企業(yè)收集信息的手段仍停留在手工收集階段,效率低、成本高且造成數(shù)據(jù)不匹配。
第三,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,缺乏分析工具,數(shù)據(jù)難運(yùn)用。一方面,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一導(dǎo)致整合困難,難以進(jìn)行全局聯(lián)動(dòng);另一方面,缺乏數(shù)據(jù)分析工具,僅靠數(shù)據(jù)專業(yè)人才難以滿足企業(yè)需求,且難以看到數(shù)據(jù)的實(shí)時(shí)變化及價(jià)值。這兩方面的因素導(dǎo)致難以真正實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展,提升運(yùn)營管理水平。
第四,系統(tǒng)落后,難以滿足數(shù)據(jù)管理需求,存在數(shù)據(jù)風(fēng)險(xiǎn)隱患。在數(shù)據(jù)井噴式增長的當(dāng)下,眾多企業(yè)未能跟上隨數(shù)據(jù)增長而變化的需求,難以滿足監(jiān)管要求,同時(shí)存在數(shù)據(jù)隱患及風(fēng)險(xiǎn)問題
數(shù)據(jù)倉庫建模方式
在Kimball和Inmon兩位數(shù)據(jù)倉庫領(lǐng)域大佬不同方向的經(jīng)驗(yàn)指導(dǎo)下,數(shù)據(jù)倉庫的建模已經(jīng)是一個(gè)成熟的體系,可以根據(jù)需求選擇不同的方式,既有三范式 3NF 建模,也有維度建模比如星型或雪花型的建模方式。
?

數(shù)據(jù)倉庫還有著分層結(jié)構(gòu),每個(gè)分層結(jié)構(gòu)都有各自的作用,比如經(jīng)??吹降腛DS 層、Trans 層、Dimension 層、Data Mart 層等,都是為了將數(shù)據(jù)從大海中進(jìn)行篩選,從分散到集中進(jìn)行高度匯總,形成一個(gè)個(gè)的主題,為后續(xù)的前端數(shù)據(jù)可視化分析提供數(shù)據(jù)的支撐。
數(shù)據(jù)倉庫為了業(yè)務(wù)分析的目的,因此需要拉通各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù),保留大量歷史數(shù)據(jù),同時(shí)為了分析效率的提升改變了傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)組織形式,例如利用適合于分析型模型的Kimball維度建模方式來組織底層數(shù)據(jù)架構(gòu)。
?

數(shù)據(jù)倉庫服務(wù)于商業(yè)智能BI分析,通過商業(yè)智能BI前端可視化分析工具來訪問,是其中不可或缺的一部分。并且在長期的建設(shè)中,商業(yè)智能BI已經(jīng)形成了一套直接零代碼配置并完成數(shù)倉建模的整個(gè)過程,進(jìn)行了完整的產(chǎn)品化,解決了困難的架構(gòu)與模型的問題。
數(shù)據(jù)倉庫對于企業(yè)的價(jià)值
數(shù)據(jù)倉庫能實(shí)現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持,從根本上把運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或知識(shí)),并且在恰當(dāng)?shù)臅r(shí)候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕?/span>
數(shù)據(jù)倉庫定義:面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合;
面向主題:是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。
集成的:是指數(shù)據(jù)倉庫中的信息不是從各個(gè)業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
?

反映歷史變化:數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時(shí)點(diǎn)到當(dāng)前各個(gè)階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
?