最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

DataOps不是工具,而是幫助企業(yè)實現(xiàn)數(shù)據(jù)價值的最佳實踐丨DTVision開發(fā)治理篇

2022-08-05 18:16 作者:袋鼠云  | 我要投稿

2008年,“大數(shù)據(jù)”一詞在《大數(shù)據(jù)時代》中被首次提出,距今已有整整14個年頭。在這14年中,許多人親眼見證了數(shù)據(jù)的力量,以及目睹它如何改變世界。大部分企業(yè)的決策者都明白了一個道理:數(shù)據(jù)才是企業(yè)中最有價值的商品,它可以被人為選擇成就還是破壞業(yè)務。


然而,自流行詞“大數(shù)據(jù)”出現(xiàn)的14年后,如何獲得更高質(zhì)量的數(shù)據(jù),以及更智能的數(shù)據(jù)管理,幫助企業(yè)做出明智和及時的決策,仍然是許多企業(yè)的“疑難雜癥”。每個人的嘴里都在談論數(shù)據(jù)治理和數(shù)據(jù)管理,卻沒有人真正知道該怎么辦。


幸運的是,一種幫助企業(yè)提升數(shù)據(jù)分析質(zhì)量和效率的方法論正在興起,它就是DataOps。基于DataOps,企業(yè)數(shù)據(jù)中臺可以實現(xiàn)數(shù)據(jù)利用率最大化,加快生產(chǎn)周期,及針對結(jié)果優(yōu)化的數(shù)據(jù)管道。


今天,我們將展開說說DataOps,以及為什么它對于每一個想要真正實現(xiàn)數(shù)據(jù)賦能業(yè)務的企業(yè)都很重要。


01

DataOps是什么


DataOps(Data Operations)并不是一個新的概念,根據(jù)維基百科的說明,早在2014年就被IBM(Lenny Liebmann)提出,在2017年得到大范圍關注,并在2018年正式被納入Gartner的數(shù)據(jù)管理技術成熟度曲線當中。

維基百科:https://en.wikipedia.org/wiki/DataOps


今年,中國信通院正式牽頭啟動了DataOps的標準建設工作,以此為基礎推動我國大數(shù)據(jù)產(chǎn)業(yè)的多元化發(fā)展,為企業(yè)經(jīng)營決策提供數(shù)據(jù)支持。


同時需注意的一點,DataOps不是一個工具或產(chǎn)品,可以理解成一種「方法論,或者最佳實踐」,類似軟件開發(fā)中的「敏捷方法」。不能以功能的視角去看待DataOps,而是以「我應該如何做」的視角來看待此問題。

詳細資料參考:?

https://www.hitachivantara.com/zh-cn/insights/dataops-insights/dataops/what-is-dataops.html


DataOps的目標是提供工具、過程以及結(jié)構(gòu)化的方式來應對快速增長的數(shù)據(jù),對企業(yè)內(nèi)的數(shù)據(jù)團隊賦能,能夠使企業(yè)內(nèi)的數(shù)據(jù)團隊更高效、高質(zhì)量的完成數(shù)據(jù)分析,它強調(diào)交流、協(xié)作、多系統(tǒng)集成以及自動化流程,并配套具備對應的度量方式。


02

DataOps的涵蓋內(nèi)容


下圖為標準的DataOps涵蓋的內(nèi)容,主要包括數(shù)據(jù)技術、數(shù)據(jù)管道、數(shù)據(jù)處理3個方面,最終為商業(yè)用戶輸出價值。

原圖出自:https://www.eckerson.com/articles/diving-into-dataops-the-underbelly-of-modern-data-pipelines


03

數(shù)棧DataOps實踐


從發(fā)展上看,自2018年被納入Gartner的數(shù)據(jù)管理技術成熟度曲線中以來,DataOps的熱度逐年上升;從實踐上看,歐美企業(yè)對于DataOps的探索和發(fā)展要早于中國,DataOps在我國仍處于一個從萌芽期到爆發(fā)期的關鍵過渡階段。


數(shù)棧依據(jù)多年經(jīng)驗,通過敏銳的嗅覺快人一步開始探索DataOps的實踐,總結(jié)出DataOps的3個層次+4個核心能力,助力企業(yè)加快數(shù)據(jù)洞察的步伐,具體分析如下:


1?

基礎層:多環(huán)境(集群)管理

在基礎層,數(shù)棧支持多環(huán)境多集群管理,支持一套統(tǒng)一的平臺來對接多套不同規(guī)模、不同類型的集群,支持Cloudera Hadoop、華為FusionInsight、華為MRS、星環(huán)Inceptor、Greenplum、GaussDB、MySQL等各類數(shù)據(jù)庫作為計算引擎,提供統(tǒng)一的開發(fā)與應用體驗,具備跨云部署以及對跨云EMR的兼容能力,面向多云場景提供統(tǒng)一開發(fā)、統(tǒng)一管控能力,用戶可在不同的集群環(huán)境中(同類型引擎)實現(xiàn)代碼及相關資源的無縫發(fā)布。


2?

開發(fā)層:數(shù)據(jù)開發(fā)全鏈路

按照數(shù)據(jù)開發(fā)的基本過程,分為:模型設計、數(shù)據(jù)開發(fā)、部署上線、質(zhì)量稽核4個步驟,日常用戶的主要操作均是在這4個步驟之中,下面詳細闡述:


01

模型設計

按照標準的數(shù)據(jù)中臺建設模式,分為「制定標準」、「模型設計」2大部分。制定標準、模型的在線設計均可在數(shù)棧中在線進行,無需線下維護單獨的數(shù)據(jù)標準文檔、數(shù)據(jù)模型文檔等內(nèi)容,普通開發(fā)人員完成模型設計后,需提交管理員審核,模型經(jīng)審核后允許上線/變更操作。


模型設計及標準制定可細分為6個單元,如下圖所示:


其中數(shù)倉層級、規(guī)范設計、模型元素屬于表級別定義,數(shù)據(jù)詞表、詞根、碼表屬于字段級別定義,數(shù)棧將6個單元以產(chǎn)品化的形式進行梳理、組合,便于企業(yè)建立自己的數(shù)據(jù)治理體系。


02

數(shù)據(jù)開發(fā)

數(shù)據(jù)開發(fā)環(huán)節(jié),通過豐富的任務類型、代碼的版本管理、責任人機制等,實現(xiàn)數(shù)據(jù)開發(fā)、數(shù)據(jù)分析的可持續(xù)發(fā)展,具體內(nèi)容如下:


● 20+種豐富的任務類型

支持離線同步、實時同步、離線計算、實時計算、關系型數(shù)據(jù)庫計算、管理節(jié)點、腳本任務等5大類,20+種不同的任務類型。用戶可將企業(yè)內(nèi)的數(shù)據(jù)采集、加工的各類離線、實時處理過程統(tǒng)一由數(shù)棧進行管理,實現(xiàn)一體化的數(shù)據(jù)開發(fā)平臺。


● 數(shù)據(jù)測試

支持上傳樣本數(shù)據(jù),模擬測試,進行數(shù)據(jù)邏輯驗證與測試。


● 代碼預檢查

提交代碼之前進行「預檢查」,防止上線后發(fā)生問題。


未來數(shù)棧將在系統(tǒng)規(guī)則的基礎上,支持自定義校驗規(guī)則,用戶可基于數(shù)棧暴露的接口進行自定義開發(fā),例如代碼JOIN次數(shù)限制、分區(qū)表禁止全表掃描、禁止跨數(shù)倉層級訪問等規(guī)則,可通過自定義開發(fā)Jar包的方式進行自定義規(guī)則校驗。


03

部署上線

用戶完成開發(fā)后,需將代碼從測試環(huán)境發(fā)布至生產(chǎn)環(huán)境,平臺需支持快速的任務發(fā)布,將開發(fā)/測試環(huán)節(jié)的代碼及其依賴資源快速發(fā)布至生產(chǎn)環(huán)境。


數(shù)棧的部署發(fā)布分為兩種模式:

●?雙項目模式

可將一個項目中開發(fā)的任務發(fā)布至另一個項目。雙項目模式可以在代碼層和底層數(shù)據(jù)層面實現(xiàn)很好的隔離性,保障數(shù)據(jù)安全。

●?導入導出式發(fā)布

對于物理環(huán)境隔離的場景,可將開發(fā)的任務代碼、依賴的UDF函數(shù)、Jar包等關聯(lián)資源一起導出為zip包,并在生產(chǎn)環(huán)境執(zhí)行一鍵導入。


除了代碼發(fā)布外,還支持代碼的版本管理、版本對比、快速回滾能力。數(shù)棧能記錄每次提交發(fā)布的任務代碼和運行參數(shù),并標注每個版本的修改內(nèi)容,幫助定位代碼問題,同時可支持一鍵版本回滾。


3?

治理層:統(tǒng)一元數(shù)據(jù)? 質(zhì)量稽核

治理層主要包括統(tǒng)一元數(shù)據(jù)及質(zhì)量稽核兩塊能力:

統(tǒng)一元數(shù)據(jù)

支持將數(shù)棧平臺內(nèi)的各類元數(shù)據(jù)匯聚、展示、打通、分析等,包括:元數(shù)據(jù)基礎屬性、離線表/任務、實時表/任務、API、標簽、指標等各類元數(shù)據(jù)。

● 全域血緣打通

根據(jù)數(shù)據(jù)在中臺內(nèi)的采集、流轉(zhuǎn)、對外服務等各環(huán)節(jié)的處理方式,自動建立全平臺的血緣關系,基于核心的智能化SQL血緣解析能力,實現(xiàn)平臺內(nèi)跨應用的血緣打通,可視化展示數(shù)據(jù)的流轉(zhuǎn)影響鏈路。

● 資產(chǎn)分析

可支持資產(chǎn)的版本變更記錄/對比、數(shù)據(jù)產(chǎn)出分析、使用分析、質(zhì)量分析等統(tǒng)計內(nèi)容。


質(zhì)量稽核

支持對數(shù)據(jù)進行質(zhì)量校驗,幫助企業(yè)及時發(fā)現(xiàn)數(shù)據(jù)問題。通過事前規(guī)則配置、事中規(guī)則校驗、事后分析報告的流程化方式,對數(shù)據(jù)的完整性、準確性、規(guī)范性、唯一性、一致性等方面進行多維度評估,保障企業(yè)數(shù)據(jù)質(zhì)量服務,支持規(guī)則配置、任務查詢、實時校驗等。


4?

關鍵能力

數(shù)棧DataOps包括以下四大能力:

01

統(tǒng)一調(diào)度編排

數(shù)棧內(nèi)置分布式調(diào)度引擎Taier,支持百萬級別復雜依賴調(diào)度。調(diào)度平臺在數(shù)棧內(nèi)為底層通用能力,離線、實時、質(zhì)量校驗、標簽、指標等各任務均使用統(tǒng)一的調(diào)度能力。


在此基礎上,各產(chǎn)品模塊之間可進行靈活的相互依賴,例如離線完成數(shù)據(jù)抽取+計算后,自動觸發(fā)標簽任務的計算等場景。


02

統(tǒng)一監(jiān)控/告警

數(shù)棧支持統(tǒng)一的告警通道,不同的產(chǎn)品模塊內(nèi)可能都會使用告警能力,例如離線任務突破基線、實時任務失敗、API調(diào)用失敗、質(zhì)量校驗未通過等。針對某個告警通道僅需開發(fā)一次,即可再各個產(chǎn)品內(nèi)使用此告警方式,例如短信、郵件,企業(yè)微信、釘釘、電話告警等。


03

模型設計

數(shù)棧在數(shù)據(jù)安全層面可分為如下幾個方面:

● 系統(tǒng)安全

通過服務高可用部署、數(shù)據(jù)定期備份等策略保障服務安全。登錄密碼可按照長度、復雜度、強制定期更換等方式支持多種安全策略,密碼采用國密加密傳輸+加密存儲。

● 數(shù)據(jù)安全

底層可集成LDAP+Ranger+Kerberos數(shù)據(jù)安全組件。在Hadoop體系內(nèi)可支持庫、表、列、行級數(shù)據(jù)權(quán)限控制。在服務安全方面,可支持行、列權(quán)限控制、多種認證方式、國密加密等特性,保障用戶數(shù)據(jù)安全。

● 安全審計

自動記錄用戶的關鍵操作行為、數(shù)據(jù)訪問行為,可由管理員進行用戶操作行為審計,排查異常行為。


04

團隊協(xié)作

● 責任人機制

每個任務、表、標簽、API、指標、告警配置等「資源」均建立責任人機制,當發(fā)生異常需配合排查時,可快速獲取相關負責人,便于線下溝通。

● 一鍵交接

當發(fā)生人員變動時,支持一鍵交接,可批量將當前負責人的全部資源自動替換,便于工作交接。

● 用戶組

當開發(fā)團隊規(guī)模較大,需要再次細分時,可按照用戶組的方式進行管理,例如按用戶組批量添加用戶、分配功能權(quán)限/數(shù)據(jù)權(quán)限、發(fā)送告警等場景,無需反復操作。


04

結(jié)語


隨著時間的推移,數(shù)據(jù)的數(shù)量、頻率、多樣性都在增加,在一個萬物皆可被度量的時代,數(shù)據(jù)積累的速度超過大部分企業(yè)跟上其腳步的速度。這也意味著能夠幫助企業(yè)完成自動化日常任務,提高數(shù)據(jù)質(zhì)量,促進不同團隊之間的協(xié)作,帶來更準確的洞察和分析,以及助力企業(yè)進入敏捷、自動化和加速的數(shù)據(jù)供應鏈環(huán)境的DataOps,未來將會在企業(yè)的數(shù)智化蛻變中,發(fā)揮不可小覷的作用。


企業(yè)實現(xiàn) DataOps 有賴于一系列廣泛的技術和流程,數(shù)棧目前已經(jīng)在采集、加工、治理的核心流程上,通過版本控制、團隊協(xié)同、一鍵發(fā)布、質(zhì)量稽核、數(shù)據(jù)安全等能力實踐了基本的DataOps理念,但依然有很多方面亟需改善,例如:利用AI/ML技術降低人為操作的成本與失誤、對研發(fā)效能增加更多的的度量指標(Metric),以數(shù)據(jù)化的方式來衡量研發(fā)效能的增減等方面,均需要數(shù)棧團隊,以及全行業(yè)一起努力。


DataOps不是工具,而是幫助企業(yè)實現(xiàn)數(shù)據(jù)價值的最佳實踐丨DTVision開發(fā)治理篇的評論 (共 條)

分享到微博請遵守國家法律
乐亭县| 乐清市| 霸州市| 新绛县| 临江市| 峨山| 高密市| 中牟县| 虞城县| 宁陵县| 买车| 彭水| 玛多县| 边坝县| 桦甸市| 始兴县| 谷城县| 惠安县| 晋城| 南靖县| 平和县| 夏邑县| 东兴市| 四会市| 义乌市| 会理县| 嘉禾县| 司法| 巴东县| 陆良县| 辰溪县| 喀什市| 濮阳县| 肥西县| 德江县| 郁南县| 小金县| 皋兰县| 宁城县| 台中县| 上思县|