數(shù)棧數(shù)據(jù)中臺(tái)專欄(一) :淺析數(shù)據(jù)中臺(tái)策略與建設(shè)實(shí)踐

本文作者:張旭
袋鼠云合伙人、技術(shù)總監(jiān)、數(shù)據(jù)中臺(tái)事業(yè)部副總經(jīng)理,花名:老虎。在袋鼠云工作期間,深入了解客戶需求,負(fù)責(zé)多個(gè)大數(shù)據(jù)項(xiàng)目的落地實(shí)施,如貴州茅臺(tái)、新華書店、輕松籌、貴州交警等等,對(duì)于企業(yè)應(yīng)用大數(shù)據(jù)的痛點(diǎn)具有清晰的了解和豐富的實(shí)踐經(jīng)驗(yàn)。
數(shù)據(jù)中臺(tái)是什么?
數(shù)據(jù)中臺(tái)建設(shè)的價(jià)值在哪里?
數(shù)據(jù)中臺(tái)和傳統(tǒng)數(shù)倉還有數(shù)據(jù)中心有什么區(qū)別?
這幾乎是筆者最近被別人問到的最多的問題。之所以有這些疑問,其一是不懂的同學(xué)真心想了解,其二是懂的同學(xué)對(duì)我們的考驗(yàn)。

數(shù)據(jù)中臺(tái),解決數(shù)據(jù)“存”、“通”、“用”難題
讓一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化
具體而說,數(shù)據(jù)中臺(tái)并不是一個(gè)跨時(shí)代的全新理念,就好比筆者當(dāng)年學(xué)習(xí)SOA一樣,發(fā)現(xiàn)其實(shí)質(zhì)還是組件化,模塊化,是設(shè)計(jì)模式與業(yè)務(wù)端的應(yīng)用。數(shù)據(jù)中臺(tái)建設(shè)的基礎(chǔ)還是數(shù)據(jù)倉庫和數(shù)據(jù)中心,并且在數(shù)倉模型的設(shè)計(jì)上也是一脈傳承,之所以我們現(xiàn)在處處推崇數(shù)據(jù)中臺(tái)建設(shè)及應(yīng)用,一個(gè)是因?yàn)閿?shù)據(jù)中臺(tái)確實(shí)有過人之處,另一個(gè)是這套模型在阿里體現(xiàn)了巨大的應(yīng)用價(jià)值。
首先先總結(jié)一下數(shù)據(jù)中臺(tái)策略中的幾個(gè)過人之處
第一:數(shù)據(jù)匯聚,承上啟下。
數(shù)據(jù)中臺(tái)策略的基本理念是,將所有的數(shù)據(jù)匯聚到數(shù)據(jù)中臺(tái),以后的每個(gè)數(shù)據(jù)應(yīng)用(無論是指標(biāo)和分析類的,還是畫像類和大數(shù)據(jù)類的)統(tǒng)統(tǒng)從數(shù)據(jù)中臺(tái)獲取數(shù)據(jù),如果數(shù)據(jù)中臺(tái)沒有,那么數(shù)據(jù)中臺(tái)就負(fù)責(zé)把數(shù)據(jù)找來,如果數(shù)據(jù)中臺(tái)找不來,就說明當(dāng)前真沒有這個(gè)數(shù)據(jù),數(shù)據(jù)應(yīng)用也就無從展開。
按照這種模式,如果企業(yè)中數(shù)據(jù)應(yīng)用數(shù)量大于3-5個(gè),那么數(shù)據(jù)中臺(tái)將整體上節(jié)約30%的成本,隨著數(shù)據(jù)應(yīng)用的增長(zhǎng),這樣節(jié)約的成本還會(huì)更大。傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)中心,如果做得比較好,設(shè)計(jì)到位的話,也會(huì)做完整的數(shù)據(jù)模型設(shè)計(jì),但是往往偏重于設(shè)計(jì)和技術(shù),在執(zhí)行的過程中,很難保障數(shù)據(jù)的全,也很難保證數(shù)據(jù)應(yīng)用不跨過數(shù)據(jù)中心,重新做數(shù)據(jù)的話,那么后期數(shù)據(jù)則會(huì)比較混亂。
相對(duì)而言,數(shù)據(jù)中臺(tái)策略中更加強(qiáng)調(diào)數(shù)據(jù)的“全”以及數(shù)據(jù)中臺(tái)組織與數(shù)據(jù)應(yīng)用組織之間的協(xié)作關(guān)系,從設(shè)計(jì)、組織、建設(shè)、流程角度保障了模式的落地。
? ? ?

袋鼠云數(shù)據(jù)中臺(tái)策略
第二:縱觀大局,推動(dòng)全局
數(shù)據(jù)業(yè)務(wù)在企業(yè)中應(yīng)當(dāng)是一個(gè)完整業(yè)務(wù),是一個(gè)亟需提高定位的業(yè)務(wù),是企業(yè)的戰(zhàn)略業(yè)務(wù)。
所以數(shù)據(jù)中臺(tái)策略應(yīng)當(dāng)對(duì)應(yīng)企業(yè)的數(shù)據(jù)戰(zhàn)略,并提供更有力的支撐,而不是僅僅停留在把數(shù)據(jù)找到,把數(shù)據(jù)清洗,把數(shù)據(jù)算出來。
所以,構(gòu)建數(shù)據(jù)中臺(tái)建設(shè),需要詳實(shí)了解企業(yè)的數(shù)據(jù)情況,數(shù)據(jù)需求以及構(gòu)建數(shù)據(jù)業(yè)務(wù)的推動(dòng)藍(lán)圖。
上述內(nèi)容應(yīng)當(dāng)通過相互銜接的七個(gè)數(shù)據(jù)服務(wù)進(jìn)行完整的構(gòu)建以及推動(dòng)。
袋鼠云數(shù)據(jù)中臺(tái)七大數(shù)據(jù)服務(wù)
數(shù)據(jù)資源規(guī)劃及獲取
盤點(diǎn)數(shù)據(jù)資源、規(guī)劃數(shù)據(jù)資源、獲取數(shù)據(jù)資源,并將所有數(shù)據(jù)資源進(jìn)行完整呈現(xiàn);
數(shù)據(jù)質(zhì)量分析及提升
從基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、大數(shù)據(jù)視角綜合分析當(dāng)前的數(shù)據(jù)質(zhì)量問題;
基于中臺(tái)策略的數(shù)據(jù)整體建模與數(shù)據(jù)資產(chǎn)管理
企業(yè)可根據(jù)數(shù)據(jù)資源規(guī)劃報(bào)告指導(dǎo)后續(xù)數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)管理平臺(tái)的建設(shè),最終服務(wù)于企業(yè)數(shù)據(jù)應(yīng)用場(chǎng)景。
實(shí)體畫像及標(biāo)簽引擎
?對(duì)用戶、產(chǎn)品、客商、營銷各主題域進(jìn)行標(biāo)簽提取,將其特征數(shù)字化,為后續(xù)進(jìn)行精準(zhǔn) 營銷和用戶畫像提供必要條件。
數(shù)據(jù)指標(biāo)體系梳理及計(jì)算(BI)
構(gòu)建企業(yè)標(biāo)簽體系,著重分析當(dāng)前需要但是無法獲取到的指標(biāo),描述使用不便的指標(biāo),分析問題原因,繪制數(shù)據(jù)供應(yīng)鏈條;
數(shù)據(jù)應(yīng)用規(guī)劃及實(shí)現(xiàn)(DI)
基于當(dāng)前外部數(shù)據(jù)、IOT數(shù)據(jù)、非結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行大數(shù)據(jù)應(yīng)用的規(guī)劃,并論證實(shí)現(xiàn)過程和進(jìn)行成本評(píng)估。一旦評(píng)估通過可以幫助企業(yè)進(jìn)行大數(shù)據(jù)應(yīng)用的完整開發(fā)和落地。
數(shù)據(jù)可視化大屏
數(shù)據(jù)可視化大屏,講述數(shù)據(jù)背后的價(jià)值。在最短的時(shí)間內(nèi)用最具沖擊力的視覺語言,將企業(yè)最重要的數(shù)據(jù)/信息傳遞給最重要的人。

袋鼠云數(shù)據(jù)中臺(tái)七大數(shù)據(jù)服務(wù)
通過上述服務(wù)內(nèi)容,希望將企業(yè)數(shù)據(jù)資源情況完整展現(xiàn),數(shù)據(jù)問題展現(xiàn),數(shù)據(jù)資產(chǎn)情況展現(xiàn),數(shù)據(jù)需求展現(xiàn)(傳統(tǒng)數(shù)據(jù)分析方面、大數(shù)據(jù)應(yīng)用方面)從而繪制一張完整的數(shù)據(jù)供應(yīng)鏈地圖,最終利用這張地圖,輔助數(shù)據(jù)業(yè)務(wù)推進(jìn)。
第三:技術(shù)升級(jí)、應(yīng)用便捷
大數(shù)據(jù)平臺(tái)在很長(zhǎng)一段時(shí)間,甚至直至現(xiàn)在都還是以開源產(chǎn)品為主流的狀況,開源產(chǎn)品使用費(fèi)力,配置繁瑣,導(dǎo)致大數(shù)據(jù)開發(fā)門檻高,數(shù)據(jù)應(yīng)用受到嚴(yán)重阻礙,甚至在很多地方一直把大數(shù)據(jù)技術(shù)平臺(tái)和傳統(tǒng)的數(shù)倉做區(qū)別對(duì)待,認(rèn)為大數(shù)據(jù)產(chǎn)品的特點(diǎn)是流式計(jì)算和處理非結(jié)構(gòu)化數(shù)據(jù)。
其實(shí)大數(shù)據(jù)產(chǎn)品如果能夠降低使用門檻的話,會(huì)迅速替代傳統(tǒng)數(shù)倉的技術(shù)產(chǎn)品。傳統(tǒng)數(shù)倉無論在海量數(shù)據(jù)處理能力,節(jié)點(diǎn)擴(kuò)展能力,實(shí)時(shí)計(jì)算能力,軟件購買和維護(hù)成本等諸多方面都無法與當(dāng)前的大數(shù)據(jù)平臺(tái)進(jìn)行抗衡。
目前業(yè)內(nèi)比較典型的就是阿里云數(shù)加平臺(tái),數(shù)加平臺(tái)基本讓數(shù)據(jù)開發(fā)者能夠像使用傳統(tǒng)數(shù)據(jù)庫一樣的使用大數(shù)據(jù)平臺(tái)了,所有操作方式都是通過可視化界面進(jìn)行,大部分的開發(fā)都是通過SQL語句來實(shí)現(xiàn)。當(dāng)筆者使用數(shù)加產(chǎn)品時(shí),總是回想起第一次使用java IDE(JBuild、Eclipse) 產(chǎn)品時(shí)的感受。
袋鼠云數(shù)據(jù)中臺(tái)產(chǎn)品(數(shù)棧)客觀的說則是一款輕量化的,可私有部署的類數(shù)加產(chǎn)品,用以解決基于私有云的大數(shù)據(jù)平臺(tái)的管理和開發(fā)問題。
數(shù)據(jù)中臺(tái)產(chǎn)品在與數(shù)加產(chǎn)品功能對(duì)比上不分伯仲,同時(shí)又基于私有云大數(shù)據(jù)應(yīng)用的特點(diǎn)定制開發(fā)了諸多功能以及數(shù)據(jù)治理模塊用以推動(dòng)企業(yè)整體數(shù)據(jù)化進(jìn)程。

袋鼠云數(shù)棧產(chǎn)品體系


袋鼠云數(shù)棧產(chǎn)品一覽
袋鼠云數(shù)據(jù)中臺(tái)建設(shè)與策略已經(jīng)脫離了一個(gè)單純的產(chǎn)品概念范疇,更多的是關(guān)注于企業(yè)的整體數(shù)據(jù)化建設(shè)工作,希望通過數(shù)棧產(chǎn)品和七大數(shù)據(jù)服務(wù)貼身參與用戶全方位與全過程的數(shù)據(jù)化建設(shè)。同時(shí)我們期待這樣的數(shù)據(jù)化建設(shè)應(yīng)當(dāng)是高效率,高應(yīng)用價(jià)值和低成本的。
數(shù)棧是云原生—站式數(shù)據(jù)中臺(tái)PaaS,我們?cè)趃ithub和gitee上有一個(gè)有趣的開源項(xiàng)目:FlinkX,F(xiàn)linkX是一個(gè)基于Flink的批流統(tǒng)一的數(shù)據(jù)同步工具,既可以采集靜態(tài)的數(shù)據(jù),也可以采集實(shí)時(shí)變化的數(shù)據(jù),是全域、異構(gòu)、批流一體的數(shù)據(jù)同步引擎。大家喜歡的話請(qǐng)給我們點(diǎn)個(gè)star!star!star!
github開源項(xiàng)目:https://github.com/DTStack/flinkx
gitee開源項(xiàng)目:https://gitee.com/dtstack_dev_0/flinkx