數(shù)字時代,你還不了解數(shù)據(jù)倉庫嗎?
事實上,很多人在看到數(shù)據(jù)倉庫的第一眼,就把數(shù)據(jù)倉庫當(dāng)成了數(shù)據(jù)庫。當(dāng)然這也很正常,畢竟從名字來看這兩者確實區(qū)別不大,真正區(qū)分兩者的是定位、作用等更深一層的東西。今天我們就來詳細了解一下數(shù)據(jù)倉庫,從概念、特點、優(yōu)點等方面介紹一下。
?
數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間變化但信息本身相對穩(wěn)定的數(shù)據(jù)集合,用于支持管理決策過程。其本質(zhì)就是完成從面向業(yè)務(wù)過程數(shù)據(jù)的組織管理到面向業(yè)務(wù)分析數(shù)據(jù)的組織和管理的轉(zhuǎn)變過程,也是商業(yè)智能BI中數(shù)據(jù)倉庫的主要作用。

數(shù)據(jù)倉庫就像企業(yè)的總的大倉庫,能夠存儲不同來源、不同格式的數(shù)據(jù),并且可以通過ETL和數(shù)據(jù)模型,對數(shù)據(jù)進行高質(zhì)量的篩選,分級分類進行存儲。具有很強的穩(wěn)定性,不會頻繁的進行增刪改等操作,能夠反應(yīng)歷史變化。
用通俗的話來說就是數(shù)據(jù)倉庫就像一個終端的大倉庫,其他小倉庫的各種貨品會通過各種方式統(tǒng)一存儲到這里,然后通過倉庫位置的劃分、貨品的擺放進行歸納分類,實現(xiàn)規(guī)范、標(biāo)準(zhǔn)的從存放,到分類,再到使用的完整過程。
數(shù)據(jù)倉庫的特點
1.主題性
數(shù)據(jù)倉庫是一般從用戶實際需求出發(fā),將不同平臺的數(shù)據(jù)源按設(shè)定主題進行劃分整合,與傳統(tǒng)的面向事務(wù)的操作型數(shù)據(jù)庫不同,具有較高的抽象性。
2.集成性
數(shù)據(jù)倉庫中存儲的數(shù)據(jù)大部分來源于傳統(tǒng)的數(shù)據(jù)庫,但并不是將原有數(shù)據(jù)簡單的直接導(dǎo)入,而是需要進行預(yù)處理。這是因為事務(wù)型數(shù)據(jù)中的數(shù)據(jù)一般都是有噪聲的、不完整的和數(shù)據(jù)形式不統(tǒng)一的。這些“臟數(shù)據(jù)”的直接導(dǎo)入將對在數(shù)據(jù)倉庫基礎(chǔ)上進行的數(shù)據(jù)挖掘造成混亂。“臟數(shù)據(jù)”在進入數(shù)據(jù)倉庫之前必須經(jīng)過抽取、清洗、轉(zhuǎn)換才能生成從面向事務(wù)轉(zhuǎn)而面向主題的數(shù)據(jù)集合。數(shù)據(jù)集成是數(shù)據(jù)倉庫建設(shè)中最重要,也是最為復(fù)雜的一步。
?

3.穩(wěn)定性
數(shù)據(jù)倉庫中的數(shù)據(jù)主要為決策者分析提供數(shù)據(jù)依據(jù)。決策依據(jù)的數(shù)據(jù)是不允許進行修改的。即數(shù)據(jù)保存到數(shù)據(jù)倉庫后,用戶僅能通過分析工具進行查詢和分析,而不能修改。數(shù)據(jù)的更新升級主要都在數(shù)據(jù)集成環(huán)節(jié)完成,過期的數(shù)據(jù)將在數(shù)據(jù)倉庫中直接篩除。
4.動態(tài)性
數(shù)據(jù)倉庫數(shù)據(jù)會隨時間變化而定期更新,不可更新是針對應(yīng)用而言,即用戶分析處理時不更新數(shù)據(jù)。每隔一段固定的時間間隔后,抽取運行數(shù)據(jù)庫系統(tǒng)中產(chǎn)生的數(shù)據(jù),轉(zhuǎn)換后集成到數(shù)據(jù)倉庫中。隨著時間的變化,數(shù)據(jù)以更高的綜合層次被不斷綜合,以適應(yīng)趨勢分析的要求。當(dāng)數(shù)據(jù)超過數(shù)據(jù)倉庫的存儲期限,或?qū)Ψ治鰺o用時,從數(shù)據(jù)倉庫中刪除這些數(shù)據(jù)。
數(shù)據(jù)倉庫建模方式
在Kimball和Inmon兩位數(shù)據(jù)倉庫領(lǐng)域大佬不同方向的經(jīng)驗指導(dǎo)下,數(shù)據(jù)倉庫的建模已經(jīng)是一個成熟的體系,可以根據(jù)需求選擇不同的方式,既有三范式 3NF 建模,也有維度建模比如星型或雪花型的建模方式。

數(shù)據(jù)倉庫還有著分層結(jié)構(gòu),每個分層結(jié)構(gòu)都有各自的作用,比如經(jīng)??吹降腛DS 層、Trans 層、Dimension 層、Data Mart 層等,都是為了將數(shù)據(jù)從大海中進行篩選,從分散到集中進行高度匯總,形成一個個的主題,為后續(xù)的前端數(shù)據(jù)可視化分析提供數(shù)據(jù)的支撐。
數(shù)據(jù)倉庫為了業(yè)務(wù)分析的目的,因此需要拉通各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù),保留大量歷史數(shù)據(jù),同時為了分析效率的提升改變了傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)組織形式,例如利用適合于分析型模型的Kimball維度建模方式來組織底層數(shù)據(jù)架構(gòu)。

數(shù)據(jù)倉庫服務(wù)于商業(yè)智能BI分析,通過商業(yè)智能BI前端可視化分析工具來訪問,是其中不可或缺的一部分。并且在長期的建設(shè)中,商業(yè)智能BI已經(jīng)形成了一套直接零代碼配置并完成數(shù)倉建模的整個過程,進行了完整的產(chǎn)品化,解決了困難的架構(gòu)與模型的問題。
數(shù)據(jù)倉庫作為商業(yè)智能BI系統(tǒng)中的一部分,已經(jīng)成長為了企業(yè)信息化建設(shè)中必不可少的重要支撐,在可見的未來,數(shù)據(jù)倉庫還會隨著信息化、數(shù)字化技術(shù)、理念、應(yīng)用的落地,繼續(xù)成長。
數(shù)據(jù)倉庫的優(yōu)點
1、提供加強的商業(yè)智能(BI)
利用從各種數(shù)據(jù)源提供的數(shù)據(jù),管理人員和高管們將不再需要憑著有限的數(shù)據(jù)或他們的直覺做出商業(yè)決策。此外,“數(shù)據(jù)倉庫及相關(guān)商業(yè)智能(BI)可直接用于包括市場細分、庫存管理、財務(wù)管理、銷售這樣的業(yè)務(wù)流程中?!?/span>
2、可節(jié)省時間
業(yè)務(wù)用戶可以在一個地方快速訪問許多數(shù)據(jù)源,他們就在關(guān)鍵方案上迅速做出知情的決策,而不會用浪費寶貴的時間從多種數(shù)據(jù)源中檢索數(shù)據(jù)。
不僅如此,業(yè)務(wù)主管們可以在很少或者根本沒有IT的支持下自己查詢數(shù)據(jù)—節(jié)約了更多的時間和資金。
?

3、能提高數(shù)據(jù)的質(zhì)量和一致性
一個數(shù)據(jù)倉庫的實施包括將數(shù)據(jù)從眾多的數(shù)據(jù)源系統(tǒng)中轉(zhuǎn)換成共同的格式。由于每個來自各個部門的數(shù)據(jù)被標(biāo)準(zhǔn)化了,每個部門將會產(chǎn)生與所有其它部門符合的結(jié)果。所以你可以對你數(shù)據(jù)的準(zhǔn)確性更有信心。而準(zhǔn)確的數(shù)據(jù)是強大的商業(yè)決策的基礎(chǔ)。
4、能提供歷史的智慧
一個數(shù)據(jù)倉庫儲存了大量的歷史數(shù)據(jù),所以你可以通過分析不同的時期和趨勢來做出對未來的預(yù)測。這些數(shù)據(jù)通常不能被存儲在一個交易型的數(shù)據(jù)庫里或用來從一個交易系統(tǒng)中生成報表。
5、能創(chuàng)建高的投資回報率
最后,最值得一提的是投資回報率。已經(jīng)安裝了數(shù)據(jù)倉庫和完善了商業(yè)智能(BI)系統(tǒng)的企業(yè)比沒有在商業(yè)智能(BI)系統(tǒng)和數(shù)據(jù)倉庫投資的企業(yè)能產(chǎn)生更多的利潤和節(jié)約更多的資金。而這應(yīng)該成為高級管理層快速加入到數(shù)據(jù)倉庫這個潮流中的足夠理由。