數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的幾點(diǎn)建議
數(shù)據(jù)分析領(lǐng)域有一句經(jīng)典名言“垃圾進(jìn),垃圾出”,以此來(lái)警醒業(yè)務(wù)和技術(shù)部門(mén)重視數(shù)據(jù)質(zhì)量,進(jìn)而強(qiáng)化數(shù)據(jù)治理。當(dāng)前涉及大型數(shù)據(jù)集(數(shù)據(jù)倉(cāng)庫(kù))的主流BI服務(wù),雖然在前端儀表盤(pán)制作前就會(huì)對(duì)后臺(tái)數(shù)據(jù)服務(wù)進(jìn)行梳理,并設(shè)法構(gòu)建數(shù)據(jù)處理的底層公共庫(kù),但仍然存在一下常見(jiàn)問(wèn)題:
?
1.中間數(shù)據(jù)的計(jì)算結(jié)果沒(méi)有共享,無(wú)法實(shí)現(xiàn)字段結(jié)果的復(fù)用
?
2.對(duì)多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行整合的能力不足
?
3. 基層數(shù)據(jù)清洗必須建立在對(duì)業(yè)務(wù)邏輯十分清晰的基礎(chǔ)上(對(duì)于技術(shù)人員往往有較高要求)
?
下面是針對(duì)于以上問(wèn)題,提出的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的相關(guān)建議及審核清單。
?
1.充分進(jìn)行調(diào)研準(zhǔn)備,明確倉(cāng)庫(kù)邏輯與主題
?
數(shù)據(jù)倉(cāng)庫(kù)在建立之初的關(guān)鍵不是技術(shù)的選型和實(shí)施,而是對(duì)業(yè)務(wù)部門(mén)進(jìn)行充分調(diào)研。業(yè)務(wù)人員往往在一開(kāi)始并不了解自己的需求在技術(shù)層面的實(shí)現(xiàn)效果,為此,充分地溝通,了解他們想要解決的問(wèn)題和各個(gè)指標(biāo)間的關(guān)聯(lián)和含義,才能明確各個(gè)主體下的查詢(xún)分析需求。
?
此外,你還需要與業(yè)務(wù)人員確認(rèn)以下內(nèi)容:
?
·技術(shù)操作的頻率:業(yè)務(wù)人員每隔多久做一次查詢(xún)分析。
?
·在系統(tǒng)中的數(shù)據(jù)的保存時(shí)限(月和年限)
?
·用戶(hù)查詢(xún)數(shù)據(jù)的主要方式,如時(shí)間維度上的自然年和財(cái)政年。
?
·用戶(hù)能接受的響應(yīng)時(shí)間是多長(zhǎng)(多少秒還是幾小時(shí)?)。
?
2.選擇滿(mǎn)足數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)要求的軟件平臺(tái)
?
對(duì)于數(shù)據(jù)倉(cāng)庫(kù)www。datacvg。com/Solution/Detail/422398323076905而言,業(yè)界往往是傳統(tǒng)BI企業(yè)產(chǎn)品做得較為出色,擁有豐富的工具集,但前端展示笨重,開(kāi)發(fā)部署周期較長(zhǎng)。而敏捷BI產(chǎn)品(如tableau和qlik)往往不具備處理數(shù)據(jù)倉(cāng)庫(kù)的能力,其在數(shù)據(jù)庫(kù)層面的建模能力幾乎為0,如果采取“混搭”方案(如tableau+SSIS),往往會(huì)出現(xiàn)兼容不佳等諸多問(wèn)題。
?
對(duì)于平臺(tái)選型,以下是一些公認(rèn)的選擇標(biāo)準(zhǔn):
?
·廠(chǎng)商的背景和支持能力,能否提供全方位的技術(shù)支持和咨詢(xún)服務(wù)。
?
·數(shù)據(jù)庫(kù)對(duì)大數(shù)據(jù)量(TB級(jí))的支持程度。
?
·數(shù)據(jù)庫(kù)對(duì)并行操作的支持程度。
?
·數(shù)據(jù)倉(cāng)庫(kù)的建模工具的完備程度,是否支持對(duì)元數(shù)據(jù)的管理。
?
·能否提供支持大數(shù)據(jù)量的數(shù)據(jù)加載、轉(zhuǎn)換、傳輸工具(ETT)。
?
·是否提供完整的決策支持工具集,滿(mǎn)足數(shù)據(jù)倉(cāng)庫(kù)中各類(lèi)用戶(hù)的需要。
?
·前端的報(bào)表展現(xiàn)和開(kāi)發(fā)是否足夠敏捷高效。
?
當(dāng)前業(yè)界普遍認(rèn)可的集成BI產(chǎn)品是Microstrategy(MSTR),從數(shù)據(jù)倉(cāng)庫(kù)建模到前端展示,其均具備最高級(jí)別的產(chǎn)品技術(shù)實(shí)力,其技術(shù)水平常年得到國(guó)際各大技術(shù)測(cè)評(píng)的認(rèn)可,是集傳統(tǒng)BI和敏捷BI工具優(yōu)勢(shì)于一身的優(yōu)秀產(chǎn)品。
?
3.優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型
?
數(shù)據(jù)倉(cāng)庫(kù)的基本設(shè)計(jì)邏輯已是老生常談,此處不做贅述。當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)更需要考的是性能問(wèn)題。在數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程中和建成后,都需要對(duì)性能進(jìn)行監(jiān)控,并隨著需求和數(shù)據(jù)量的變更進(jìn)行調(diào)整。
?
當(dāng)前優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)性能的主要方法是:
?
·整合各數(shù)據(jù)表的范式,進(jìn)行必要的合并。
?
·通過(guò)增加匯總表避免數(shù)據(jù)的動(dòng)態(tài)匯總。
?
·通過(guò)冗余字段將表連接的數(shù)量控制在3~5個(gè)。
?
·用ID碼而非描述信息作為鍵值。
?
·數(shù)據(jù)表分區(qū)管理。