實時開發(fā)平臺建設(shè)實踐,深入釋放實時數(shù)據(jù)價值丨 數(shù)智賦能04 期回顧
一、實時數(shù)倉建設(shè)背景
隨著整體行業(yè)的數(shù)字化轉(zhuǎn)型不斷深入以及技術(shù)能力的不斷提高,傳統(tǒng)的 T+1 式(隔日)的離線大數(shù)據(jù)模式越來越無法滿足新興業(yè)務的發(fā)展需求,開展實時化的大數(shù)據(jù)業(yè)務,是企業(yè)深入挖掘數(shù)據(jù)價值的一條必經(jīng)之路。
面對數(shù)字化轉(zhuǎn)型下的數(shù)據(jù)快速產(chǎn)生、“小步快跑” 的精細化運營及實時化和自動化的決策需求,如何提高實時數(shù)據(jù)處理能力將成為企業(yè)提升競爭力的一大因素。

而企業(yè)在建設(shè)實時數(shù)據(jù)應用時,又往往面臨諸多困難:
實時開發(fā)技術(shù)門檻高,學習難度大,開發(fā)過程依賴各種引擎,鏈路復雜
開發(fā)數(shù)據(jù)效率低,代碼調(diào)試復雜
建設(shè)成本、使用成本高
數(shù)據(jù)建模及開發(fā)規(guī)范不統(tǒng)一,問題難監(jiān)控,管理困難

為了解決這些問題,我們在實時建設(shè)過程中需要確定建設(shè)方式和建設(shè)目標,幫助企業(yè)更好的實現(xiàn)實時數(shù)倉建設(shè)。

二、實時數(shù)倉建設(shè)方法論
如何幫助企業(yè)建設(shè)實時數(shù)倉,我們主要從以下四個步驟入手:

1、明確需求
企業(yè)進行實時數(shù)倉建設(shè)的第一步是明確需求,需求需要業(yè)務需求和技術(shù)需求想結(jié)合。
1)業(yè)務需求方面:
詳細梳理各類實時計算應用場景
詳細梳理每個實時指標的具體需求
2)技術(shù)需求方面:
詳細梳理每個實時指標的數(shù)據(jù)來源信息

2、技術(shù)選型
第二步技術(shù)選型階段,技術(shù)選型包括四個方面的選型:
a、整體技術(shù)路線
b、采集工具
c、消息中間件 + 計算引擎及
d、維表、結(jié)果表的存儲數(shù)據(jù)庫

3、數(shù)倉設(shè)計與開發(fā)
第三步是數(shù)倉設(shè)計與開發(fā),包含一下三個方面:
a、實時數(shù)倉分層設(shè)計
b、開發(fā)規(guī)范
c、代碼開發(fā)與調(diào)試

4、管理與監(jiān)控
第四步是管理與監(jiān)控,可以從任務發(fā)布、運行監(jiān)控與告警、實時數(shù)據(jù)治理這 3 個部分入手。

三、基于數(shù)棧實時開發(fā)平臺建設(shè)實時數(shù)倉
分享完實時數(shù)倉的建設(shè)方法論,接下來來為大家分享實時數(shù)倉的建設(shè)流程。

第一步:實時采集
基于 Chunjun(原 FlinkX)對數(shù)據(jù)庫進行 CDC 采集,實現(xiàn)采集工具化,可對主流數(shù)據(jù)源進行 CDC (日志數(shù)據(jù)) 和通過 JDBC(間隔輪詢)兩種實時采集方式。
1、CDC 讀取
讀取數(shù)據(jù)庫日志的方式,對源庫無壓力
2、JDBC 讀取
面向不開放數(shù)據(jù)庫日志的場景,通過高頻率的 JDBC 輪詢讀取數(shù)據(jù),要求有自增字段

第二步:數(shù)據(jù)開發(fā)
1、數(shù)據(jù)開發(fā)基礎(chǔ)功能
現(xiàn)在展示的是數(shù)據(jù)開發(fā)的一些基礎(chǔ)功能,包括:WEB SQL IDE、可視化建表、維表緩存策略及系統(tǒng) & 自定義函數(shù),豐富的底層組件封裝,界面化操作,降低開發(fā)門檻,使開發(fā)人員專注于業(yè)務邏輯處理。

2、數(shù)據(jù)開發(fā)高階功能
除了數(shù)據(jù)開發(fā)的基礎(chǔ)功能之外,還有面向特定行業(yè)或場景的高階配置,包括自動重試、自動啟停、臟數(shù)據(jù)管理。

第三步:發(fā)布上線
開發(fā)完畢之后就是任務的發(fā)布上線,發(fā)布上線包括任務調(diào)試和任務導入導出兩個方面。

第四步:任務運維
任務運維就是全局掌控任務的運行,對于一些異?;蚓o急情況進行處理的過程。

上述的實時數(shù)倉建設(shè)過程,其實正是袋鼠云自研的數(shù)棧實時開發(fā) StreamWorks 產(chǎn)品的落地實踐過程。
云原生一站式大數(shù)實時開發(fā)平臺(StreamWorks),面向?qū)崟r數(shù)倉構(gòu)建的云原生一站式大數(shù)據(jù)實時開發(fā)平臺,實現(xiàn)從實時數(shù)據(jù)采集、實時數(shù)據(jù)處理、任務監(jiān)控運維的全鏈路覆蓋。支持 Flink 多版本引擎、Kubernetes 資源調(diào)度,提供豐富的運維監(jiān)控曲線,助力企業(yè)實時化轉(zhuǎn)型。 圖片
同時產(chǎn)品具備以下特點:
采集 + 計算 + 運維一體化
內(nèi)含實時開發(fā)全鏈路工具,采集、計算、運維一體,降低客戶使用成本,降低實時計算門檻。
統(tǒng)一元數(shù)據(jù)管理
支持輸出自研 Hadoop 集群,同時可對接 CDH、HDP、TDH 等多集群及 Oracle、TiDB 等多引擎;節(jié)點資源可根據(jù)計算存儲需求快速彈性伸縮,業(yè)務需求穩(wěn)定響應。
批流一體
支持 Flink 批流一體式采集 + 開發(fā), 集成 Iceberg,賦能一體式湖倉建設(shè)模式。
功能豐富
平臺提供任務跨環(huán)境發(fā)布、代碼調(diào)試、SQL 校驗、提交檢查、自動啟停、批量連接現(xiàn)存任務等豐富功能
云原生支持
在支持 YARN+HDFS 的基礎(chǔ)上,同時支持 Kubernetes 資源調(diào)度、MinIO、OSS 等對象存儲
同時產(chǎn)品具備 3 大價值:
降低開發(fā)門檻
兼容了多版本引擎、適配多種數(shù)據(jù)源,封裝集成為可視化操作界面。基于 Web IDE,圖像化配置表信息并使用 SQL 語言進行開發(fā),降低整體上手門檻
全面運維保障
提供任務全生命周期的可視化運維。全鏈路拓撲、豐富 Metirc 曲線展示、多方式多渠道任務告警,幫助用戶搭建全面運維體系,提高運維保障。
促進數(shù)據(jù)規(guī)范
協(xié)助企業(yè)構(gòu)建實時數(shù)倉,建設(shè)實時數(shù)據(jù)標準及規(guī)范。搭建一套實時任務調(diào)度、任務運行監(jiān)控及實時任務可靠恢復機制于一體的實時數(shù)據(jù)平臺,保障數(shù)據(jù)質(zhì)量,提供統(tǒng)一標準的數(shù)據(jù)出口。
四、實時數(shù)倉建設(shè)案例
接下來我們分享兩個使用客戶的實際案例,為大家介紹實時開發(fā)平臺如何切實的幫助客戶解決問題。
某國有專業(yè)經(jīng)濟信息服務機構(gòu)

某證券客戶

五、數(shù)棧批流一體架構(gòu)解析
最后我們?yōu)榇蠹医榻B一段拓展資料,關(guān)于數(shù)棧批流一體架構(gòu)的解析。
批流一體整體架構(gòu)

批流一體核心價值

批流一體數(shù)據(jù)建設(shè)鏈路

批流一體采集技術(shù)架構(gòu)

原文來源:VX 公眾號 “數(shù)棧研習社”
袋鼠云開源框架釘釘技術(shù)交流群(30537511),歡迎對大數(shù)據(jù)開源項目有興趣的同學加入交流最新技術(shù)信息,開源項目庫地址:https://github.com/DTStack