CDGA|0基礎如何做好大數(shù)據(jù)治理?

從1969年開始,互聯(lián)網(wǎng)已經(jīng)走過了PC、移動,向產(chǎn)業(yè)互聯(lián)網(wǎng)時代邁進,人類活動被全面數(shù)字化。
數(shù)字化技術革命給商業(yè)帶來前所未有的機會,大數(shù)據(jù)讓我們更懂用戶和這個世界,這一切看上去很美好,但是危機已經(jīng)在悄然中來臨。

隨著業(yè)務的發(fā)展,數(shù)據(jù)規(guī)模也在以滾雪球的速度膨脹,帶來了一系列棘手的問題:
1. 高昂的成本支出
據(jù)測算,存儲1PB數(shù)據(jù)的硬件投入總成本在80萬左右,對于那些業(yè)務遍布全國的互聯(lián)網(wǎng)公司來說數(shù)據(jù)量達到60-80PB是很常見的事,這就意味著一年的存儲成本要花5000-8000萬左右。而且數(shù)據(jù)中心的機架容量是有限的,建設新的數(shù)據(jù)中心不是易事。這一切都在制約著企業(yè)的發(fā)展,吞噬著企業(yè)的利潤。
2. 數(shù)據(jù)質(zhì)量風險增加
海量的數(shù)據(jù)帶來了復雜的鏈路依賴,數(shù)據(jù)質(zhì)量風險瀕臨失控。隨著數(shù)據(jù)量的增長,運維壓力也越來越大,故障告警次數(shù)顯著增多。
3. 組織協(xié)作出現(xiàn)問題
龐大的數(shù)據(jù)規(guī)模,紛亂的命名和存儲,以及理不清的業(yè)務邏輯,讓團隊協(xié)同越來越難,推進大型項目需要參與的團隊人數(shù)越來越多。體現(xiàn)在企業(yè)集中力量辦大事的能力逐漸喪失。
4. 數(shù)據(jù)孤島開始出現(xiàn)
想要獲得一項指標,找不同的人可以得到不同的查詢結果,這其中出現(xiàn)的問題主要是口徑對焦。不同的人對于業(yè)務的理解也并不相同,缺少統(tǒng)一的標準,這是很多公司發(fā)展過程中都存在的問題。
數(shù)據(jù)不好找,找到不敢用、不能用,迫使業(yè)務只能選擇重復建設資產(chǎn),而重復建設資產(chǎn)更進一步加劇了數(shù)據(jù)不好找不好用的問題,形成了惡性循環(huán),數(shù)據(jù)孤島壁壘越壘越高。
這一系列的問題如果任由其繼續(xù)發(fā)展,數(shù)據(jù)對于業(yè)務只會變成雞肋,甚至會成為企業(yè)的負債。
數(shù)據(jù)治理的目標
數(shù)據(jù)治理是一項復雜的工程,想要做好數(shù)據(jù)治理首先要做的事是定好目標。關于數(shù)據(jù)治理的目標,可以簡單理解——數(shù)據(jù)治理的目標就是要讓數(shù)據(jù)成為資產(chǎn)而不是負債。

?數(shù)據(jù)資產(chǎn)是能給企業(yè)帶來經(jīng)濟效益的資源。想要讓數(shù)據(jù)成為資產(chǎn),不外乎是”開源”、”節(jié)流”,前者指的是釋放數(shù)據(jù)價值,為業(yè)務帶來增長,后者指的是節(jié)約成本。這里的節(jié)約成本不單單是涉及到數(shù)據(jù)存儲成本,還包括了管理成本、數(shù)據(jù)風險成本等隱形的部分,讓數(shù)據(jù)變成高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)治理的核心
幾乎所有關于數(shù)據(jù)治理的定義都在談論建立”組織”、明確”權責”、制定”方法/制度/標準”。事實上,數(shù)據(jù)之所以需要治理,問題的根源在于”無序”。而數(shù)據(jù)治理的核心就是制定數(shù)據(jù)世界的游戲規(guī)則,讓數(shù)據(jù)世界重歸有序。
1. 組織設計
明確數(shù)據(jù)治理的權責是開展數(shù)據(jù)治理工作的首要步驟。因為一切問題都可以歸根于人的問題。資源的調(diào)動,制度的設計、執(zhí)行、監(jiān)督,最終都要落實在人上。很多時候問題難以推進,原因就在于人的重視不夠,級別不夠,相關方不配合。

2. 規(guī)則制定
規(guī)則規(guī)范的制定是開始具體工作的前提,目的在于統(tǒng)一標準,打破由于標準不一致帶來的數(shù)據(jù)孤島問題。
某金融科技獨角獸制定了三項核心規(guī)范:”數(shù)據(jù)資產(chǎn)必須先定義后研發(fā)”、”數(shù)據(jù)資產(chǎn)不能重復建設”、”應用資產(chǎn)依賴公共服務資產(chǎn)建設”。這三項核心規(guī)范具備綱領性質(zhì),易于記憶和傳播。
在核心規(guī)范指導下,更貼近于執(zhí)行層面的,有一系列更詳細的指導規(guī)范。例如如何保障指標的一致性、如何確保標簽資產(chǎn)實現(xiàn)互通互享、如何避免數(shù)據(jù)資產(chǎn)重復建設等。
3. 機制設計
機制設計的目的是解決組織協(xié)作的效率問題,可以分成研發(fā)協(xié)作機制和數(shù)據(jù)互通機制兩方面來講。
研發(fā)協(xié)作機制:要解決的是”找誰做(資源問題),如何做(架構問題),何時做(排期問題),如何用(溝通問題)”,建議采用獨立資源統(tǒng)一架構統(tǒng)一排期模式,輸出產(chǎn)物為數(shù)據(jù)中臺全景圖和操作手冊。
數(shù)據(jù)互通機制:遵循”寬進嚴出、全鏈路可追蹤可審計”的策略原則,兼顧效率提升和安全風控兩方面。
數(shù)據(jù)治理的實施
1. 存儲優(yōu)化
數(shù)據(jù)膨脹是大數(shù)據(jù)治理最先要解決的問題,它直接關系到成本問題,解法是進行存儲優(yōu)化,也就是設計規(guī)范化的存儲策略,提高數(shù)據(jù)的共享程度。
從空間方面思考:
第一個關鍵詞是合并,即合并冗余表。一方面是掃描數(shù)據(jù)表的依賴關系,上游表相似,表字段也相似,判斷可能是冗余表,只留一個。另一方面把高度重合的表合并,從小表變大表。
第二個關鍵詞是舍棄,即舍棄冗余字段。有些字段并沒有多大存儲意義,或者可以從其他來源處獲取,可以從數(shù)據(jù)表中剔除。
第三個關鍵詞是拆分,即內(nèi)容壓縮。例如通過一個數(shù)據(jù)壓縮節(jié)點把大json字段拆分成幾個內(nèi)容字段,把格式相關的部分舍棄,需要還原的時候再通過數(shù)據(jù)解壓縮節(jié)點逆向還原回來。平均可帶來30%的存儲空間釋放。
從時間方面思考:
第一個關鍵詞是生命周期。合理規(guī)劃數(shù)據(jù)的生命周期,不同層的數(shù)據(jù)保留時間不一樣。有的需要永久保存,有的不需要永久保存。
第二個關鍵詞是冷熱。對于那些暫時沒有業(yè)務調(diào)用的冷數(shù)據(jù),壓縮歸檔。
除了通用化的策略外,不同行業(yè),不同類型的數(shù)據(jù)還有自身特性化的治理策略。例如設備在某一個位置停留時間過久,回傳了大量的重復坐標。
2. 計算優(yōu)化
計算優(yōu)化的目的一是節(jié)省運算資源,二是提高數(shù)據(jù)加工處理的速度,縮短數(shù)據(jù)生產(chǎn)周期。
第一個優(yōu)化點是避免在異常數(shù)據(jù)上浪費算力。有些數(shù)據(jù)雖然格式上沒有問題,但實際上根據(jù)業(yè)務場景的定義是異常的,可以忽略。還例如某個設備是故障的,將它識別出來后它所產(chǎn)生的數(shù)據(jù)都不再參與計算。
第二個優(yōu)化點是識別并應對數(shù)據(jù)傾斜。所謂數(shù)據(jù)傾斜有兩種情況,一種是某一塊區(qū)域的數(shù)據(jù)大于其他區(qū)域,另一種是某一些數(shù)據(jù)的大小要遠遠大于平均值。對存在數(shù)據(jù)傾斜的部分進一步分割,可以加速計算。
第三個優(yōu)化點是提升核心UDF的性能。UDF 的性能很大程度上決定了處理流程的時間長短。通過代碼審查,找出性能可以優(yōu)化的節(jié)點進行代碼優(yōu)化。另外,將Python的UDF改成Java的UDF也可以提升一部分性能。
第四個優(yōu)化點是引擎配置調(diào)優(yōu),例如開啟數(shù)據(jù)壓縮傳輸、合理設置map/reduce數(shù)、合理應用Hash/Range Cluster索引機制等。
第五個優(yōu)化點是將MR streaming節(jié)點改寫為SELECT TRANSFORM方式。SELECT TRANSFORM的性能很好,而且也更靈活,能夠提高計算節(jié)點的可擴展性。
3. 工具提效
大數(shù)據(jù)治理需要牽扯到大量的表和節(jié)點上線、下線、測試、添加監(jiān)控等,如果每個環(huán)節(jié)都需要人工操作,都要耗費很多人力,因此使用一些自動化和半自動工具可以顯著提高效率,減少人工成本。
主要涉及到了數(shù)據(jù)比對工具、節(jié)點批量下線工具、自動化測試工具等。
數(shù)據(jù)治理的步驟
大數(shù)據(jù)治理與業(yè)務的正常發(fā)展是同步進行的,這就需要一個平滑的過渡過程。
1. 增量數(shù)據(jù)灰度平遷
這一步的作用是驗證經(jīng)過治理后的數(shù)據(jù)是下游數(shù)據(jù)應用方可以正常使用的,可以滿足業(yè)務方使用數(shù)據(jù)的需求。主要需要解決好新舊數(shù)據(jù)表字段映射、字段擴展后數(shù)據(jù)補錄等問題。
業(yè)務的遷移按照灰度原則,先遷業(yè)務輕體量小的,后遷業(yè)務重體量大的。分批次遷移之后持續(xù)跟蹤、分析數(shù)據(jù)波動情況,一旦發(fā)現(xiàn)問題及早修復,以保障數(shù)據(jù)質(zhì)量的可靠性。

2. 存量數(shù)據(jù)遷移
在增量數(shù)據(jù)上驗證通過后,下一步就是遷移存量數(shù)據(jù)了。這一步需要關注的是存儲空間的問題,一次性增加太多的新數(shù)據(jù)存儲,舊數(shù)據(jù)來不及釋放,會使得存儲壓力大增。
數(shù)據(jù)治理的效果驗證
大數(shù)據(jù)治理的效果體現(xiàn)在數(shù)據(jù)存儲成本是否降低、數(shù)據(jù)產(chǎn)出周期是否縮短、數(shù)據(jù)質(zhì)量是否提高、數(shù)據(jù)量增長勢頭是否減緩等方面。

總結
大數(shù)據(jù)治理的過程是一個很好的梳理現(xiàn)有業(yè)務的機會。一次成功的數(shù)據(jù)治理不僅給企業(yè)帶來成本、效能上的改善,還鍛煉了數(shù)據(jù)團隊,為數(shù)據(jù)價值體系建設奠定了基礎。
為了解決社會對數(shù)據(jù)管理人才的緊迫需求,規(guī)范化數(shù)字要素市場,推進政府數(shù)據(jù)開放共享、提升社會數(shù)據(jù)資源價值、加強數(shù)據(jù)資源整合和安全保護三項要求,DAMA中國特就決定建立一個長期的“數(shù)據(jù)人才”成長計劃,面向個人開展培訓認證。
為了便于國內(nèi)廣大數(shù)據(jù)從業(yè)者學習相關認證,DAMA中國以國際數(shù)據(jù)管理協(xié)會(簡稱“DAMA國際”) DAMA數(shù)據(jù)管理知識體系為基礎,結合國內(nèi)實際需求,對DAMA國際數(shù)據(jù)管理專業(yè)人員認證( CDMP )的考試語言、考試形式、考試內(nèi)容、證書類型等進行了適當本地化重構。

重構后認證考試分為數(shù)據(jù)治理工程師( CDGA )和數(shù)據(jù)治理專家( CDGP ),DAMA中國承擔認證考試命題工作,并定期組織中文考試,對考試通過者由DAMA中國頒發(fā)認證證書。證書有效期為三年,獲得CDGA認證才能申請CDGP認證考試。