數(shù)倉設(shè)計(jì)復(fù)雜度評估
? ? ? ? BI數(shù)倉的死法有很多種,建BI數(shù)倉的人不專業(yè)是常見的第一種死法;人員離職沒有交接以及交接不完全也是常見的第二種死法;還有一種常見的死法就是管理層不重視BI數(shù)倉基礎(chǔ)建設(shè),在領(lǐng)導(dǎo)眼里就是個(gè)取數(shù)的,給個(gè)需求想已最快的速度要給結(jié)果,結(jié)果是能以最快的速度給出來,但不是通過數(shù)倉給出的結(jié)果而是直接從ODS層SQL數(shù)據(jù)集存一張表到數(shù)據(jù)集DM層,直接跳過DW層。
????????當(dāng)管理層不重視BI數(shù)倉基礎(chǔ)建設(shè)的時(shí)候,出現(xiàn)前面說的第一種、第二種死法就在正常不過了。一般情況這種都是出現(xiàn)在那種不大不小的企業(yè),如果是小型企業(yè)那一個(gè)人就能搞定BI數(shù)倉所有的事情;中型企業(yè)在人員都熟悉業(yè)務(wù)的情況下2—3人是可以頂?shù)米〉?;大型企業(yè)就另說了分工會很細(xì)人員配置至少10+至100+。
????????目前市場上的情況可以說是非常復(fù)雜,中小型企業(yè)需要全能型人才,大型私企國企需要專業(yè)人才只要在BI數(shù)倉各個(gè)工種之間某個(gè)工種擅長就行了,就好好當(dāng)一顆螺絲釘,言外之意就是老子有錢養(yǎng)得起你,你要是走了我可以出更高的價(jià)錢招一個(gè)更專業(yè)的人來做螺絲釘。中小型企業(yè)出現(xiàn)大量爛尾的BI數(shù)倉,只有少部分公司外購的業(yè)務(wù)系統(tǒng)然后BI也從同樣的公司外購,也就是說乙方公司賣給你業(yè)務(wù)系統(tǒng)也賣給你BI系統(tǒng)這樣就不用招BI人員了解業(yè)務(wù)系統(tǒng)表業(yè)務(wù)模塊及數(shù)據(jù)流,這種的爛尾的概率非常小。
????????最近對一家中小型企業(yè)的爛尾數(shù)倉進(jìn)行研究,完全符合我前面講的三種死法,我選擇了歷史遺留的兩個(gè)DW庫進(jìn)行研究,這個(gè)兩個(gè)歷史的DW庫有太多的故事這里不敘說。
????????這里我講一下我對爛尾數(shù)倉進(jìn)行研究的心得:一開始我根本不知道怎么入手梳理,只能每天想一點(diǎn)點(diǎn)辦法出來,也就是每周推進(jìn)一小步的樣子,思考問題不僅僅是腦力活還是一個(gè)體力活,很容易餓。數(shù)據(jù)治理是另外一套方法論這里只單純的針對數(shù)倉。
????????第一個(gè)思考點(diǎn)從元數(shù)據(jù)入手思考如何快速的拿到有多少張表?表里有多少列?表里面的列有多少是寫了列說明?庫里有多少存儲過程、視圖?存儲過程、視圖調(diào)用了哪些表?有哪些ETL包作用于這個(gè)庫?ETL包里面有哪些表被調(diào)用?
????????第二個(gè)思考點(diǎn)從數(shù)據(jù)質(zhì)量入手每天表的數(shù)據(jù)量情況?每天表的數(shù)據(jù)量增長情況?每天表列數(shù)據(jù)空值率情況?
????????第三個(gè)思考點(diǎn)從數(shù)倉變化入手每天表增加、修改的情況?每天表列增刪改情況?每天表列數(shù)據(jù)類型刪改情況?
????????第四個(gè)思考點(diǎn)從數(shù)據(jù)來源收入手 數(shù)倉的表數(shù)據(jù)從哪些庫哪些表過來的?
????????第五個(gè)思考點(diǎn)從BI報(bào)表入手 數(shù)倉的表被哪些BI報(bào)表使用了?
?????? 這五個(gè)思考點(diǎn)我在《低代碼數(shù)倉開發(fā)平臺》具體實(shí)現(xiàn)了多少后面在說,下面是我研究爛尾數(shù)倉復(fù)雜度整出來的兩張圖,第一張圖花點(diǎn)時(shí)間能勉強(qiáng)梳理清楚數(shù)據(jù)全鏈路過程:來源—業(yè)務(wù)邏輯—數(shù)倉設(shè)計(jì)—數(shù)據(jù)集市—報(bào)表 。第二張圖說實(shí)話我有點(diǎn)絕望。如果說第一張圖的數(shù)倉設(shè)計(jì)復(fù)雜度1顆星的話,那么第二張圖的數(shù)倉設(shè)計(jì)復(fù)雜度5顆星。

