散文網(wǎng) » 科技 »學習 » 實時開發(fā)平臺建設(shè)實踐，深入釋放實時數(shù)據(jù)價值丨數(shù)智賦能04 期回顧

實時開發(fā)平臺建設(shè)實踐，深入釋放實時數(shù)據(jù)價值丨數(shù)智賦能04 期回顧

2022-07-04 19:46 作者:袋鼠云 0人讀過 | 我要投稿

一、實時數(shù)倉建設(shè)背景

隨著整體行業(yè)的數(shù)字化轉(zhuǎn)型不斷深入以及技術(shù)能力的不斷提高，傳統(tǒng)的 T+1 式（隔日）的離線大數(shù)據(jù)模式越來越無法滿足新興業(yè)務的發(fā)展需求，開展實時化的大數(shù)據(jù)業(yè)務，是企業(yè)深入挖掘數(shù)據(jù)價值的一條必經(jīng)之路。

面對數(shù)字化轉(zhuǎn)型下的數(shù)據(jù)快速產(chǎn)生、“小步快跑” 的精細化運營及實時化和自動化的決策需求，如何提高實時數(shù)據(jù)處理能力將成為企業(yè)提升競爭力的一大因素。

而企業(yè)在建設(shè)實時數(shù)據(jù)應用時，又往往面臨諸多困難：

實時開發(fā)技術(shù)門檻高，學習難度大，開發(fā)過程依賴各種引擎，鏈路復雜
開發(fā)數(shù)據(jù)效率低，代碼調(diào)試復雜
建設(shè)成本、使用成本高
數(shù)據(jù)建模及開發(fā)規(guī)范不統(tǒng)一，問題難監(jiān)控，管理困難

為了解決這些問題，我們在實時建設(shè)過程中需要確定建設(shè)方式和建設(shè)目標，幫助企業(yè)更好的實現(xiàn)實時數(shù)倉建設(shè)。

二、實時數(shù)倉建設(shè)方法論

如何幫助企業(yè)建設(shè)實時數(shù)倉，我們主要從以下四個步驟入手：

1、明確需求

企業(yè)進行實時數(shù)倉建設(shè)的第一步是明確需求，需求需要業(yè)務需求和技術(shù)需求想結(jié)合。

1）業(yè)務需求方面：

詳細梳理各類實時計算應用場景
詳細梳理每個實時指標的具體需求

2）技術(shù)需求方面：

詳細梳理每個實時指標的數(shù)據(jù)來源信息

2、技術(shù)選型

第二步技術(shù)選型階段，技術(shù)選型包括四個方面的選型：

a、整體技術(shù)路線

b、采集工具

c、消息中間件 + 計算引擎及

d、維表、結(jié)果表的存儲數(shù)據(jù)庫

3、數(shù)倉設(shè)計與開發(fā)

第三步是數(shù)倉設(shè)計與開發(fā)，包含一下三個方面：

a、實時數(shù)倉分層設(shè)計

b、開發(fā)規(guī)范

c、代碼開發(fā)與調(diào)試

4、管理與監(jiān)控

第四步是管理與監(jiān)控，可以從任務發(fā)布、運行監(jiān)控與告警、實時數(shù)據(jù)治理這 3 個部分入手。

三、基于數(shù)棧實時開發(fā)平臺建設(shè)實時數(shù)倉

分享完實時數(shù)倉的建設(shè)方法論，接下來來為大家分享實時數(shù)倉的建設(shè)流程。

第一步：實時采集

基于 Chunjun（原 FlinkX）對數(shù)據(jù)庫進行 CDC 采集，實現(xiàn)采集工具化，可對主流數(shù)據(jù)源進行 CDC (日志數(shù)據(jù)) 和通過 JDBC（間隔輪詢）兩種實時采集方式。

1、CDC 讀取

讀取數(shù)據(jù)庫日志的方式，對源庫無壓力

2、JDBC 讀取

面向不開放數(shù)據(jù)庫日志的場景，通過高頻率的 JDBC 輪詢讀取數(shù)據(jù)，要求有自增字段

第二步：數(shù)據(jù)開發(fā)

1、數(shù)據(jù)開發(fā)基礎(chǔ)功能

現(xiàn)在展示的是數(shù)據(jù)開發(fā)的一些基礎(chǔ)功能，包括：WEB SQL IDE、可視化建表、維表緩存策略及系統(tǒng) & 自定義函數(shù)，豐富的底層組件封裝，界面化操作，降低開發(fā)門檻，使開發(fā)人員專注于業(yè)務邏輯處理。

2、數(shù)據(jù)開發(fā)高階功能

除了數(shù)據(jù)開發(fā)的基礎(chǔ)功能之外，還有面向特定行業(yè)或場景的高階配置，包括自動重試、自動啟停、臟數(shù)據(jù)管理。

第三步：發(fā)布上線

開發(fā)完畢之后就是任務的發(fā)布上線，發(fā)布上線包括任務調(diào)試和任務導入導出兩個方面。

第四步：任務運維

任務運維就是全局掌控任務的運行，對于一些異?；蚓o急情況進行處理的過程。

上述的實時數(shù)倉建設(shè)過程，其實正是袋鼠云自研的數(shù)棧實時開發(fā) StreamWorks 產(chǎn)品的落地實踐過程。

云原生一站式大數(shù)實時開發(fā)平臺（StreamWorks），面向?qū)崟r數(shù)倉構(gòu)建的云原生一站式大數(shù)據(jù)實時開發(fā)平臺，實現(xiàn)從實時數(shù)據(jù)采集、實時數(shù)據(jù)處理、任務監(jiān)控運維的全鏈路覆蓋。支持 Flink 多版本引擎、Kubernetes 資源調(diào)度，提供豐富的運維監(jiān)控曲線，助力企業(yè)實時化轉(zhuǎn)型。圖片

同時產(chǎn)品具備以下特點:

采集 + 計算 + 運維一體化

內(nèi)含實時開發(fā)全鏈路工具，采集、計算、運維一體，降低客戶使用成本，降低實時計算門檻。

統(tǒng)一元數(shù)據(jù)管理

支持輸出自研 Hadoop 集群，同時可對接 CDH、HDP、TDH 等多集群及 Oracle、TiDB 等多引擎；節(jié)點資源可根據(jù)計算存儲需求快速彈性伸縮，業(yè)務需求穩(wěn)定響應。

批流一體

支持 Flink 批流一體式采集 + 開發(fā)，集成 Iceberg，賦能一體式湖倉建設(shè)模式。

功能豐富

平臺提供任務跨環(huán)境發(fā)布、代碼調(diào)試、SQL 校驗、提交檢查、自動啟停、批量連接現(xiàn)存任務等豐富功能

云原生支持

在支持 YARN+HDFS 的基礎(chǔ)上，同時支持 Kubernetes 資源調(diào)度、MinIO、OSS 等對象存儲

同時產(chǎn)品具備 3 大價值：

降低開發(fā)門檻

兼容了多版本引擎、適配多種數(shù)據(jù)源，封裝集成為可視化操作界面。基于 Web IDE，圖像化配置表信息并使用 SQL 語言進行開發(fā)，降低整體上手門檻

全面運維保障

提供任務全生命周期的可視化運維。全鏈路拓撲、豐富 Metirc 曲線展示、多方式多渠道任務告警，幫助用戶搭建全面運維體系，提高運維保障。

促進數(shù)據(jù)規(guī)范

協(xié)助企業(yè)構(gòu)建實時數(shù)倉，建設(shè)實時數(shù)據(jù)標準及規(guī)范。搭建一套實時任務調(diào)度、任務運行監(jiān)控及實時任務可靠恢復機制于一體的實時數(shù)據(jù)平臺，保障數(shù)據(jù)質(zhì)量，提供統(tǒng)一標準的數(shù)據(jù)出口。

四、實時數(shù)倉建設(shè)案例

接下來我們分享兩個使用客戶的實際案例，為大家介紹實時開發(fā)平臺如何切實的幫助客戶解決問題。

某國有專業(yè)經(jīng)濟信息服務機構(gòu)

某證券客戶

五、數(shù)棧批流一體架構(gòu)解析

最后我們?yōu)榇蠹医榻B一段拓展資料，關(guān)于數(shù)棧批流一體架構(gòu)的解析。

批流一體整體架構(gòu)

批流一體核心價值

批流一體數(shù)據(jù)建設(shè)鏈路

批流一體采集技術(shù)架構(gòu)

原文來源：VX 公眾號 “數(shù)棧研習社”

袋鼠云開源框架釘釘技術(shù)交流群（30537511），歡迎對大數(shù)據(jù)開源項目有興趣的同學加入交流最新技術(shù)信息，開源項目庫地址：https://github.com/DTStack

標簽：