最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

淺談數(shù)據(jù)開(kāi)發(fā)神器——數(shù)棧離線開(kāi)發(fā)平臺(tái)(BatchWorks)

2021-04-21 15:52 作者:袋鼠云  | 我要投稿

數(shù)棧是云原生—站式數(shù)據(jù)中臺(tái)PaaS,我們?cè)趃ithub和gitee上有一個(gè)有趣的開(kāi)源項(xiàng)目:FlinkX,F(xiàn)linkX是一個(gè)基于Flink的批流統(tǒng)一的數(shù)據(jù)同步工具,既可以采集靜態(tài)的數(shù)據(jù),也可以采集實(shí)時(shí)變化的數(shù)據(jù),是全域、異構(gòu)、批流一體的數(shù)據(jù)同步引擎。大家喜歡的話請(qǐng)給我們點(diǎn)個(gè)star!star!star!

github開(kāi)源項(xiàng)目:https://github.com/DTStack/flinkx

gitee開(kāi)源項(xiàng)目:https://gitee.com/dtstack_dev_0/flinkx


隨著數(shù)智化時(shí)代的到來(lái),企業(yè)需要匯聚各業(yè)務(wù)板塊數(shù)據(jù),提供一個(gè)強(qiáng)大的中間層為高頻多變的業(yè)務(wù)場(chǎng)景提供支撐?;诖祟愋枨螅皵?shù)據(jù)中臺(tái)”應(yīng)運(yùn)而生,將數(shù)據(jù)提煉為數(shù)據(jù)資產(chǎn),轉(zhuǎn)換成業(yè)務(wù)需要的數(shù)據(jù)「血液」。

數(shù)據(jù)中臺(tái)的建設(shè)與運(yùn)營(yíng),通常包含如下活動(dòng):數(shù)據(jù)匯聚、數(shù)據(jù)加工與提煉、對(duì)外提供數(shù)據(jù)服務(wù)這3部分。其中的數(shù)據(jù)匯聚、數(shù)據(jù)加工與提煉能力,是由作為數(shù)據(jù)中臺(tái)建設(shè)基座的離線開(kāi)發(fā)平臺(tái)提供的。

一、應(yīng)用場(chǎng)景

例如,某服裝企業(yè)需要統(tǒng)計(jì)最近3個(gè)月在全國(guó)不同城市中,不同款式的服裝的銷量情況/庫(kù)存情況,用于指導(dǎo)下一步的銷售活動(dòng)和款式設(shè)計(jì),這些數(shù)據(jù)需要每天更新,這就是典型的離線計(jì)算場(chǎng)景。為了完成上述流程,數(shù)據(jù)部門需要進(jìn)行如下處理動(dòng)作:

  • 將最近3個(gè)月的銷售數(shù)據(jù)、庫(kù)存數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中抽取出來(lái),要支持每天的增量抽取;

  • 結(jié)合統(tǒng)計(jì)需求,編寫SQL進(jìn)行統(tǒng)計(jì);

  • 數(shù)據(jù)每天更新,需要以天為周期,觸發(fā)數(shù)據(jù)抽取、SQL統(tǒng)計(jì)的腳本,每天進(jìn)行數(shù)據(jù)更新;

  • 監(jiān)控任務(wù)的運(yùn)行情況,當(dāng)發(fā)生異常情況時(shí),需要進(jìn)行排錯(cuò)、重刷歷史數(shù)據(jù)等操作;

為解決以上場(chǎng)景的問(wèn)題,需要在數(shù)據(jù)采集、存儲(chǔ)、加工等方面進(jìn)行各種選型對(duì)比,通??蓺w類為以下2類:

1、基于MySQL、Greenplum等關(guān)系型或MPP類數(shù)據(jù)庫(kù):

  • 數(shù)據(jù)采集:可采用開(kāi)源的Kettle、DataX等組件,配合shell腳本實(shí)現(xiàn)數(shù)據(jù)抽??;

  • 數(shù)據(jù)開(kāi)發(fā):本地文本編輯器、Navicat等工具,配合Shell腳本實(shí)現(xiàn)數(shù)據(jù)開(kāi)發(fā)+周期調(diào)度;

  • 數(shù)據(jù)運(yùn)維:人工觀察結(jié)果數(shù)據(jù)產(chǎn)出,沒(méi)有成熟的運(yùn)維工具,通常都是業(yè)務(wù)方發(fā)現(xiàn)數(shù)據(jù)問(wèn)題反饋給技術(shù)人員,響應(yīng)滯后;

  • 集群運(yùn)維:集群監(jiān)控、告警、擴(kuò)縮容均手動(dòng)進(jìn)行。

2、基于Hadoop體系的技術(shù)方案

  • Hadoop體系通常會(huì)采用HDFS+YARN作為基座,再配合Hive、Spark、Impala等引擎作為擴(kuò)展;

  • 數(shù)據(jù)采集、開(kāi)發(fā)、調(diào)度,均有多種可選,例如Sqoop、Hue、Oozie/Azkaban/AirFlow等,再配合Shell進(jìn)行各類組件的打通與配置管理

  • 集群運(yùn)維:可采用開(kāi)源的Cloudera Manager等工具。

3、以上2類場(chǎng)景存在以下幾種問(wèn)題:

  • 采集、開(kāi)發(fā)、調(diào)度、運(yùn)維的工具都比較原始,由各種開(kāi)源組件拼湊組合形成,沒(méi)有統(tǒng)一高效的管理方式,適用于小規(guī)模團(tuán)隊(duì),無(wú)法滿足大規(guī)模、團(tuán)隊(duì)協(xié)作化的數(shù)據(jù)中臺(tái)建設(shè);

  • 在數(shù)據(jù)采集方面,DataX、Kettle等組件一般都是單點(diǎn)使用,無(wú)法滿足大吞吐量、高并發(fā)的數(shù)據(jù)同步場(chǎng)景;

  • 在數(shù)據(jù)開(kāi)發(fā)、任務(wù)調(diào)度方面,通常只能采用文本編輯器+Navicat+Shell的原始方案,數(shù)據(jù)開(kāi)發(fā)體驗(yàn)較差,在系統(tǒng)參數(shù)、調(diào)度打通、函數(shù)管理、元數(shù)據(jù)查看等方面存在各種體驗(yàn)問(wèn)題;

  • 調(diào)度引擎與任務(wù)運(yùn)維方面,開(kāi)源的Azkaban、AirFlow雖然支持基本的調(diào)度邏輯,但與開(kāi)發(fā)環(huán)節(jié)彼此割裂,沒(méi)有實(shí)現(xiàn)無(wú)縫打通。在任務(wù)運(yùn)維方面,只有基本的狀態(tài)監(jiān)控,在重刷歷史數(shù)據(jù)、任務(wù)異常處理、告警配置等方面均有所欠缺;

  • 在數(shù)據(jù)管理方面,開(kāi)源的Hue只有基本的元數(shù)據(jù)查看,在數(shù)據(jù)權(quán)限、生命周期、元數(shù)據(jù)擴(kuò)展等方面均難以滿足。

二、BatchWorks主要功能

BatchWorks提供的各項(xiàng)功能,完整覆蓋上述場(chǎng)景中的各種需求,包含的功能模塊如下:

1、數(shù)據(jù)同步:

  • 分布式系統(tǒng)架構(gòu):基于自研分布式同步引擎(FlinkX),用于在多種異構(gòu)數(shù)據(jù)源之間進(jìn)行數(shù)據(jù)同步,具有高吞吐量、高穩(wěn)定性的特點(diǎn);

  • 豐富的數(shù)據(jù)源支持:支持關(guān)系型數(shù)據(jù)庫(kù)、半結(jié)構(gòu)化存儲(chǔ)、大數(shù)據(jù)存儲(chǔ)、分析性數(shù)據(jù)庫(kù)等20余種不同的數(shù)據(jù)源;

  • 可視化配置:主要包括同步任務(wù)選擇源表、目標(biāo)表、配置字段映射、配置同步速度等步驟,2分鐘即可完成配置;

  • 斷點(diǎn)續(xù)傳:系統(tǒng)自動(dòng)記錄每次的同步點(diǎn)位,下一周期運(yùn)行時(shí),自動(dòng)從上次的讀取位置繼續(xù)同步,既可以減輕源庫(kù)的壓力,又可以保障同步的數(shù)據(jù)無(wú)遺漏、無(wú)重復(fù);

  • 整庫(kù)同步:快速、批量配置大量同步任務(wù),節(jié)省大量初始化精力。

  • 臟數(shù)據(jù)管理:在讀取、寫入階段發(fā)生異常的數(shù)據(jù),系統(tǒng)可將這部分?jǐn)?shù)據(jù)保存下來(lái),便于用戶及時(shí)排查臟數(shù)據(jù)問(wèn)題。

2、數(shù)據(jù)開(kāi)發(fā):

  • 豐富的任務(wù)類型:支持SparkSQL、HiveSQL、Python、Shell等10余種不同的任務(wù)類型,滿足不同場(chǎng)景下的數(shù)據(jù)處理需求;

  • 豐富的系統(tǒng)參數(shù):內(nèi)置多個(gè)系統(tǒng)參數(shù),可根據(jù)需要指定自定義系統(tǒng)參數(shù),支持常量、變量,可指定豐富的時(shí)間格式和時(shí)間計(jì)算模式;

  • 優(yōu)秀的開(kāi)發(fā)體驗(yàn):支持代碼高亮、關(guān)鍵字/表名/字段名智能提示、語(yǔ)法檢測(cè)、編輯器主題、快捷鍵等功能,為用戶提供優(yōu)秀的編碼體驗(yàn);

  • 本地文件導(dǎo)入:支持本地csv、txt文件導(dǎo)入至數(shù)據(jù)表,用于臨時(shí)性數(shù)據(jù)分析;

  • 函數(shù)管理:支持Hive、Spark等計(jì)算引擎的函數(shù)查看、UDF函數(shù)的注冊(cè)。

3、調(diào)度引擎:

  • 基于自研分布式調(diào)度引擎,滿足任務(wù)的周期性、依賴性調(diào)度,支持百萬(wàn)級(jí)別任務(wù)調(diào)度;

  • 系統(tǒng)可智能識(shí)別當(dāng)前任務(wù)的代碼與依賴信息,并自動(dòng)推薦上游任務(wù);

  • 根據(jù)用戶的調(diào)度配置,智能識(shí)別超出有效期的任務(wù),自動(dòng)取消運(yùn)行,節(jié)約計(jì)算資源。

4、運(yùn)維中心:

  • 自動(dòng)監(jiān)控并統(tǒng)計(jì)每日跑批進(jìn)度、異常情況等信息,匯總易出錯(cuò)任務(wù),協(xié)助用戶排查代碼質(zhì)量、平臺(tái)運(yùn)行情況等問(wèn)題;

  • 實(shí)時(shí)監(jiān)控實(shí)例運(yùn)行情況,進(jìn)行查看日志、重跑、終止、恢復(fù)調(diào)度等操作;

  • 通過(guò)指定時(shí)間范圍,快速重刷歷史數(shù)據(jù),操作簡(jiǎn)單、便捷;

  • 可根據(jù)失敗、超時(shí)等多種條件觸發(fā)告警規(guī)則,通過(guò)短信、郵件等方式將異常信息發(fā)送給指定人員。

5、安全保障:

BatchWorks采用多種方式保障數(shù)據(jù)安全和功能操作的安全,主要涵蓋集群安全、數(shù)據(jù)安全和功能安全3部分:

  • 集群安全:可對(duì)接開(kāi)源Kerberos組件,保障平臺(tái)安全訪問(wèn)。

  • 數(shù)據(jù)安全:支持用戶跨項(xiàng)目權(quán)限申請(qǐng),可指定需要的具體操作內(nèi)容和字段信息,經(jīng)管理員審批通過(guò)后可訪問(wèn)。

  • 功能安全:內(nèi)置管理員等多種角色,不同的角色有不同的操作權(quán)限,保障功能安全。

三、產(chǎn)品優(yōu)勢(shì)

1、全生命周期覆蓋:

覆蓋數(shù)據(jù)采集、數(shù)據(jù)處理、調(diào)度依賴、任務(wù)運(yùn)維等場(chǎng)景,充分滿足離線數(shù)據(jù)開(kāi)發(fā)過(guò)程中的各項(xiàng)需求,相比傳統(tǒng)的開(kāi)源工具,可以節(jié)省80%數(shù)據(jù)開(kāi)發(fā)時(shí)間。

2、多引擎、異構(gòu)對(duì)接:

  • 兼容開(kāi)源、Cloudera、Hortonworks、星環(huán)、華為Fusion Insight等各種Hadoop體系或MPP類數(shù)據(jù)庫(kù)作為計(jì)算引擎;

  • 一套離線開(kāi)發(fā)平臺(tái)支持同時(shí)對(duì)接多套云環(huán)境的異構(gòu)引擎,例如:一套BatchWorks同時(shí)對(duì)接阿里云 EMR、AWS EMR、本地機(jī)房TiDB引擎;

3、自主知識(shí)產(chǎn)權(quán):2大核心模塊100%自研,掌握全部知識(shí)產(chǎn)權(quán)

  • 批流一體數(shù)據(jù)同步引擎FlinkX:基于Flink框架自主研發(fā)的分布式、插件化、批流一體數(shù)據(jù)同步引擎FlinkX,具備全量/增量/實(shí)時(shí)數(shù)據(jù)抽取全棧能力。該引擎已經(jīng)在Github上開(kāi)源

  • 高性能分布式調(diào)度引擎DAGScheduleX:自主研發(fā)的分布式DAG調(diào)度引擎,支持百萬(wàn)級(jí)任務(wù)并發(fā),具備周期性、依賴性、優(yōu)先級(jí)等多種調(diào)度配置

4、在線化、可視化操作:

產(chǎn)品通過(guò)Web頁(yè)面為用戶提供服務(wù),屏蔽底層復(fù)雜的分布式計(jì)算引擎,在線化開(kāi)發(fā)平臺(tái),提高開(kāi)發(fā)效率。


淺談數(shù)據(jù)開(kāi)發(fā)神器——數(shù)棧離線開(kāi)發(fā)平臺(tái)(BatchWorks)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
拜泉县| 老河口市| 邵阳市| 孝感市| 唐海县| 长海县| 松阳县| 奎屯市| 大荔县| 淮阳县| 西安市| 全南县| 江安县| 寻乌县| 渝北区| 五莲县| 新邵县| 北流市| 昭通市| 通州市| 封丘县| 南陵县| 桃源县| 贺州市| 皋兰县| 舒城县| 土默特右旗| 界首市| 稷山县| 长阳| 平凉市| 定边县| 天长市| 临汾市| 博客| 鲁山县| 荃湾区| 营山县| 深水埗区| 舞阳县| 万荣县|