保姆級教程!玩轉(zhuǎn) ChunJun 詳細(xì)指南
ChunJun?是一款穩(wěn)定、易用、高效、批流一體的數(shù)據(jù)集成框架,?持海量數(shù)據(jù)的同步與計算。ChunJun?既可以采集靜態(tài)的數(shù)據(jù),比如 MySQL,HDFS 等,也可以采集實時變化的數(shù)據(jù),比如 binlog,Kafka 等。同時?ChunJun?也是一個支持原生 FlinkSQL 所有語法和特性的計算框架。
經(jīng)過5年的迭代和開發(fā),ChunJun 已經(jīng)幫助很多公司快速進(jìn)行數(shù)據(jù)整合,并解決數(shù)據(jù)開發(fā)人員需要過多進(jìn)行繁瑣的數(shù)據(jù)抽取工作的問題,可以專注在企業(yè)業(yè)務(wù)場景的構(gòu)建。
之前的內(nèi)容當(dāng)中,我們已經(jīng)介紹過 ChunJun 的技術(shù)力、優(yōu)勢,及如何提交 pr、Issue 的方法。作為「chunJun 新手入門」系列的第三篇,本文將為大家介紹如何配置一個 ChunJun 任務(wù)以及通過 ChunJun Client 端提交任務(wù)的流程等內(nèi)容,教會大家更好地玩轉(zhuǎn) ChunJun。
ChunJun 新手入門
??Hi,我是ChunJun,一個有趣好用的開源項目
??Ding!您有一份ChunJun實用指南,請查收
ChunJun 地址
官網(wǎng):
https://dtstack.github.io/chunjun/
GitHub:
https://github.com/DTStack/chunjun
Gitee:
https://gitee.com/dtstack_dev_0/chunjun
配置一個 ChunJun 任務(wù)
ChunJun 的任務(wù)腳本?持兩種模式:Sync(Json) 和 SQL,前者配置更加豐富,底層使?的是 StreamAPI,在同步場景使?的較多;后者借助 Flink SQL 本身的能?,利? SQL 實現(xiàn)對數(shù)據(jù)的聚合等計算操作,底層使?的是 TableAPI。
Sync
同步任務(wù)使?的 Json 格式的配置?件,通過配置 Source/Sink 來完成數(shù)據(jù)的 EL 流程。?個同步任務(wù)的基本結(jié)構(gòu)如下:
● Job 整個任務(wù)的參數(shù)配置
1)同步任務(wù)的算?配置,如 Reader/Writer/Restoration 等。
? nameMapping:表名映射配置,?在 CDC 場景
? reader:同步任務(wù) reader 的配置
? writer:同步任務(wù)writer的配置
? restoration:數(shù)據(jù)還原相關(guān)配置
2)setting 系統(tǒng)的?些參數(shù)配置,如增量同步(restore)、流控(speed)等。
SQL
ChunJun 的 SQL 任務(wù)直接沿?了 FlinkSQL 的引擎。詳細(xì)?檔請看:
https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/dev/table/overview/
● DDL
● DML
獲取 ChunJun
前置準(zhǔn)備
· Java(JDK8);
· Maven(3.6.3,版本太低會找不到對應(yīng)的 jar,另外,?版本的 Maven 對倉庫地址強(qiáng)制要求是 HTTPS,會存在倉庫地址訪問失敗的情況)
ChunJun 下載
● release 下載
ChunJun release 下載地址:
https://github.com/DTStack/chunjun/releases
● 源碼編譯
源碼下載:
https://github.com/DTStack/chunjun.git
ChunJun 是通過 Maven 來進(jìn)?代碼依賴管理,對應(yīng)的打包命令是:
ChunJun 使?的是 spotless 插件來進(jìn)?代碼?格管理,在修改源碼之后打包,需要對源碼先執(zhí)?下 mvn spotless:apply 命令來進(jìn)?代碼格式化,否則會出現(xiàn)格式化不合規(guī)問題。
● 目錄結(jié)構(gòu)
通過 ChunJun Client 端提交任務(wù)
通過 LocalTest、Standalone、Yarn Session、Yarn Perjob 四種模式為大家介紹如何通過ChunJun Client 端提交任務(wù)。
LocalTest 模式(適?于本地調(diào)試)
Local Test 模式是針對開發(fā)者同學(xué)?來進(jìn)行本地測試驗證的模塊,只需要修改 main() 中的 jobPath 路徑即可,需要注意,同步任務(wù)的腳本請以 json ?件結(jié)尾,計算任務(wù)的腳本請以 sql ?件結(jié)尾。
Standalone 模式
● 環(huán)境準(zhǔn)備
下載 Flink 并解壓
● 配置 ChunJun
1)下載 ChunJun 并解壓
2)將 ChunJun-Dist 內(nèi)容復(fù)制到 Flink Lib ?錄下并啟動 Flink Standalone 集群
3)在 Flink classpath 中可以看到 ChunJun 相關(guān) jar,表示啟動成功;
● 提交任務(wù)
命令執(zhí)?成功之后,即可在 Flink WEB UI 中看到對應(yīng)的任務(wù)。
Yarn Session 模式
● 環(huán)境準(zhǔn)備
1)下載 ChunJun 并解壓
2)下載 ChunJun 并提交到 Yarn Session 集群中
· 執(zhí)?命令成功之后,即可在Yarn Session ?志,對應(yīng)Classpath 部分中看到 ChunJun 相關(guān)的jar, 表示啟動成功;
· 記錄當(dāng)前 Yarn Session 的,并將任務(wù)提交到指定 Session中;
之后就可以在 Yarn Session 中看到對應(yīng)的任務(wù),注意以下兩點:
? 如果將 yarn.application.id 配置到 flink-conf.yaml,那么使?這份配置?件的任務(wù)都會提交到這個 id 的 session 中;
? 如果將 yarn.application.id 配置到 confProp,那么僅有當(dāng)前任務(wù)會提交到這個 id 的 session 中。
Yarn Perjob 模式
后續(xù)會廢棄這種模式,改? Application 模式。
● 環(huán)境準(zhǔn)備
下載 Flink 并解壓
● 配置 ChunJun
下載 ChunJun 并解壓
● 提交任務(wù)
執(zhí)?成功之后,可以在 Yarn Web UI 中看到相關(guān)任務(wù)。
調(diào)試 ChunJun 代碼
調(diào)試代碼能夠更好地定位問題,并解決問題。下?將為開發(fā)者介紹如何快速調(diào)試 ChunJun 代碼:
本地調(diào)試
ChunJun 為開發(fā)者準(zhǔn)備了?個 local-test 模塊,替換 main ?法中的 jobPath 即可。需要提前將相關(guān)插件配置在 local-test 模塊的 pom 中,部分插件相互存在依賴沖突,需要開發(fā)者關(guān)注下。
遠(yuǎn)程調(diào)試
在 flink-conf.yaml 中配置 debug 端?即可(端?號可以??定義)。
《數(shù)據(jù)治理行業(yè)實踐白皮書》下載地址:https://fs80.cn/l134d5?
想了解或咨詢更多有關(guān)袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbzhan
同時,歡迎對大數(shù)據(jù)開源項目有興趣的同學(xué)加入「袋鼠云開源框架釘釘技術(shù) qun」,交流最新開源技術(shù)信息,qun 號碼:30537511,項目地址:https://github.com/DTStack