數(shù)棧數(shù)據(jù)中臺專欄(二) :數(shù)據(jù)資源規(guī)劃與獲取

本文作者:古明
10年以上技術應用經(jīng)驗沉淀,在金融、政府、互聯(lián)網(wǎng)行業(yè)領域具有資深背景。曾擔任過多個大型項目的項目經(jīng)理或咨詢總監(jiān),服務過云上貴州、浙江交通運輸廳、天弘基金、新網(wǎng)銀行等多家大型企事業(yè)單位。
數(shù)據(jù)是未來社會最重要的資源之一。近年來由于互聯(lián)網(wǎng)與大數(shù)據(jù)技術的不斷發(fā)展,越來越多的企業(yè)也漸漸意識到對數(shù)據(jù)的開發(fā)和利用在企業(yè)發(fā)展過程中變得越來越重要。
但是由于企事業(yè)部門之間的系統(tǒng)分散開發(fā)或者些單位系統(tǒng)重建或引進系統(tǒng)開發(fā)項目,導致很多單位內(nèi)部之間的信息不能共享,產(chǎn)生數(shù)據(jù)與信息孤島;或者沒有統(tǒng)一的數(shù)據(jù)規(guī)范和標準,造成數(shù)據(jù)整合的不便。數(shù)據(jù)還僅僅停留在散亂的資源階段,離數(shù)據(jù)“變現(xiàn)”,形成數(shù)據(jù)資產(chǎn)的理想階段,還相距甚遠。
為解決上述問題,就需要企業(yè)自身進行合理有效的數(shù)據(jù)資源規(guī)劃,梳理清楚企業(yè)自身的“數(shù)據(jù)家底“,從而掌握企業(yè)當前數(shù)據(jù)資源的詳實狀況,明確企業(yè)的數(shù)據(jù)種類、未來可能獲取的數(shù)據(jù)種類,以及這些數(shù)據(jù)的數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)用途等等。
數(shù)據(jù)資源規(guī)劃是數(shù)據(jù)治理,數(shù)據(jù)建模,數(shù)據(jù)資產(chǎn)管理,數(shù)據(jù)指標體系規(guī)范等工作的前置環(huán)節(jié)和必要條件,因此數(shù)據(jù)資源規(guī)劃的作用至關重要,包括數(shù)據(jù)資源梳理、數(shù)據(jù)資源規(guī)劃實施、數(shù)據(jù)資源可視化、數(shù)據(jù)資源分析報告四部分內(nèi)容。

數(shù)據(jù)資源梳理:即企業(yè)需要梳理清楚:數(shù)據(jù)來自誰,用在何處,如何存儲?一般而言,業(yè)內(nèi)會從三個維度,來對數(shù)據(jù)資源進行分類管理,數(shù)據(jù)產(chǎn)生主體、數(shù)據(jù)來源、存儲形式等。

2018年5月25日生效的GDPR法案要求,?企業(yè)必須明確滿足數(shù)據(jù)主體的信息權,獲取權,糾正權,限制處理權,反對權,刪除權和數(shù)據(jù)可移動權等。
為了滿足法案要求,合規(guī),企業(yè)首先就要知道自己有哪些數(shù)據(jù),數(shù)據(jù)存儲在哪里,需要一個完整的數(shù)據(jù)地圖,對每一個信息進行分類,為企業(yè)提供一個所有物理和數(shù)字信息的360度的視圖,確保企業(yè)可有快速定位,評估和監(jiān)控正在進行的基礎上的所有數(shù)據(jù)。

袋鼠云數(shù)據(jù)資源規(guī)劃與獲取服務,則無疑在思路、技術上都可以滿足企業(yè)GDPR法案合規(guī)需求。
企業(yè)內(nèi)外部數(shù)據(jù)資源可通過不同的渠道和方式獲取,內(nèi)部數(shù)據(jù)資源大多通過企業(yè)內(nèi)部業(yè)務和應用系統(tǒng)數(shù)據(jù)庫為數(shù)據(jù)源,外部數(shù)據(jù)資源主要通過埋點、爬蟲等技術手段來獲取。
埋點數(shù)據(jù):通過App或網(wǎng)站埋點采集用戶行為數(shù)據(jù),典型的埋點數(shù)據(jù)應用場景包括用戶行為分析,線上廣告營銷轉(zhuǎn)化率分析等。
爬蟲數(shù)據(jù):使用爬蟲程序獲取第三方系統(tǒng)或網(wǎng)站的數(shù)據(jù),典型的爬蟲數(shù)據(jù)可應用于網(wǎng)絡輿情分析和價格監(jiān)測等場景。
日志數(shù)據(jù):借助日志采集工具采集機器和應用產(chǎn)生的日志數(shù)據(jù),典型的日志數(shù)據(jù)可用于系統(tǒng)服務異常監(jiān)控,安全合規(guī)審計等場景。
數(shù)據(jù)資源規(guī)劃實施:
企業(yè)在數(shù)據(jù)資源規(guī)劃與獲取的過程中,除了需要企業(yè)內(nèi)部提供有效的組織保障,包括數(shù)據(jù)管理人員、數(shù)據(jù)分析人員和業(yè)務使用人員之間的緊密協(xié)作,而且還需要全面的對整個企業(yè)或政府部門組織需求分析調(diào)研,這樣才可有效幫助企業(yè)理清數(shù)據(jù)資源家底,明確數(shù)據(jù)資源獲取與使用的方式方法。
數(shù)據(jù)資源可視化:
在數(shù)據(jù)中臺理念下,我們所指的數(shù)據(jù)資源規(guī)劃和獲取一定是企業(yè)全局性的考量和行為?!盃恳话l(fā)而動全身”這必然會牽扯到各部門和各層級組織架構的利益。
如果能將現(xiàn)有數(shù)據(jù)資源梳理結果進行可視化呈現(xiàn),讓各子公司、各部門、各業(yè)務需求方都可以清晰了解自身數(shù)據(jù)資源現(xiàn)狀,以及要滿足自身數(shù)據(jù)應用需求,還需要獲取哪些數(shù)據(jù)資源,還需要增加多少量的數(shù)據(jù)存儲空間,還需要補充哪些外部數(shù)據(jù),現(xiàn)有數(shù)據(jù)質(zhì)量又如何,則可以大規(guī)模提高企業(yè)數(shù)據(jù)資源利用的效率。

數(shù)據(jù)資源分析報告:
企業(yè)以前對自身數(shù)據(jù)資源的認識是模糊的,企業(yè)需要一份完整詳備的數(shù)據(jù)資源分析報告,指導后續(xù)數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)管理平臺的建設,最終服務于企業(yè)數(shù)據(jù)應用場景。為了滿足客戶的這一需求痛點,袋鼠云便將數(shù)據(jù)資源分析報告作為“數(shù)據(jù)資源規(guī)劃與獲取服務”的交付產(chǎn)出物之一。
數(shù)據(jù)資源規(guī)劃與獲取是袋鼠云數(shù)據(jù)中臺7大服務中的基礎服務之一,從數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn),還必須經(jīng)過數(shù)據(jù)治理和數(shù)據(jù)整體建模,即我們數(shù)據(jù)中臺專欄下期要講的,基于數(shù)據(jù)中臺策略的數(shù)據(jù)整體建模和數(shù)據(jù)資產(chǎn)管理。
數(shù)棧是云原生—站式數(shù)據(jù)中臺PaaS,我們在github和gitee上有一個有趣的開源項目:FlinkX,F(xiàn)linkX是一個基于Flink的批流統(tǒng)一的數(shù)據(jù)同步工具,既可以采集靜態(tài)的數(shù)據(jù),也可以采集實時變化的數(shù)據(jù),是全域、異構、批流一體的數(shù)據(jù)同步引擎。大家喜歡的話請給我們點個star!star!star!
github開源項目:https://github.com/DTStack/flinkx
gitee開源項目:https://gitee.com/dtstack_dev_0/flinkx