Tapdata Connector 實(shí)用指南:云原生數(shù)倉場景之?dāng)?shù)據(jù)實(shí)時同步到 Databend
【前言】作為中國的 “Fivetran/Airbyte”, Tapdata 是一個以低延遲數(shù)據(jù)移動為核心優(yōu)勢構(gòu)建的現(xiàn)代數(shù)據(jù)平臺,內(nèi)置 60+ 數(shù)據(jù)連接器,擁有穩(wěn)定的實(shí)時采集和傳輸能力、秒級響應(yīng)的數(shù)據(jù)實(shí)時計(jì)算能力、穩(wěn)定易用的數(shù)據(jù)實(shí)時服務(wù)能力,以及低代碼可視化操作等。典型用例包括數(shù)據(jù)庫到數(shù)據(jù)庫的復(fù)制、將數(shù)據(jù)引入數(shù)據(jù)倉庫或數(shù)據(jù)湖,以及通用 ETL 處理等。
隨著 Tapdata Connector 的不斷增長,我們最新推出《Tapdata Connector 實(shí)用指南》系列內(nèi)容,以文字解析輔以視頻演示,還原技術(shù)實(shí)現(xiàn)細(xì)節(jié),模擬實(shí)際技術(shù)及應(yīng)用場景需求,提供可以“收藏跟練”的實(shí)用專欄。本期實(shí)用指南以阿里云 RDS MySQL → 云原生數(shù)倉 Databend 為例,演示數(shù)據(jù)入倉場景下,如何將數(shù)據(jù)實(shí)時同步到 Databend。
隨著數(shù)據(jù)對業(yè)務(wù)的重要性成為廣泛共識,我們看到越來越多的企業(yè)開始投身數(shù)倉建設(shè)。而數(shù)據(jù)的產(chǎn)生和存儲量也呈現(xiàn)爆炸式增長的趨勢,企業(yè)的數(shù)據(jù)分析需求也在不斷增加,對數(shù)據(jù)處理和分析效率的要求也越來越高,原有的數(shù)據(jù)處理方式無法滿足實(shí)時、快速、準(zhǔn)確的數(shù)據(jù)處理和分析需求,時代呼喚更高效的數(shù)據(jù)倉庫管理和數(shù)據(jù)處理技術(shù)。
適逢云計(jì)算技術(shù)發(fā)展,計(jì)算平臺的能力得到了大幅度提升,提供了更高效、更安全、更靈活、更可靠的計(jì)算和存儲資源。在此基礎(chǔ)上,云原生數(shù)倉作為一種新型的數(shù)據(jù)倉庫解決方案,應(yīng)運(yùn)而生,并逐漸成為一個重要的發(fā)展趨勢。作為一種基于云原生技術(shù)棧構(gòu)建的數(shù)據(jù)倉庫解決方案,其在設(shè)計(jì)和部署時充分利用云服務(wù)的特性,如彈性、自動化、可擴(kuò)展性、高可用性等,并在實(shí)際業(yè)務(wù)中顯露出如下優(yōu)勢:
更高效的數(shù)據(jù)處理和分析:云原生數(shù)據(jù)倉庫可以將大規(guī)模的數(shù)據(jù)集和數(shù)據(jù)處理任務(wù)分解成小的可伸縮的計(jì)算單元,以提供更高效的數(shù)據(jù)處理和分析能力;
更靈活的架構(gòu)設(shè)計(jì):云原生數(shù)據(jù)倉庫的架構(gòu)設(shè)計(jì)允許用戶快速適應(yīng)不同的數(shù)據(jù)模型、數(shù)據(jù)來源和分析需求,同時也支持多種數(shù)據(jù)處理引擎的無縫集成;
更低的成本:云原生數(shù)據(jù)倉庫可以在彈性云基礎(chǔ)設(shè)施上進(jìn)行部署和運(yùn)行,以降低總擁有成本。此外,由于其自動化的特性,可以減少對專業(yè)人員的依賴,進(jìn)一步降低管理成本;
更高的可靠性和安全性:云原生數(shù)據(jù)倉庫利用云服務(wù)商提供的安全和可靠的基礎(chǔ)設(shè)施,以保障數(shù)據(jù)的安全性和可靠性。此外,基于云原生技術(shù)的自動化特性還可以減少運(yùn)維人員的失誤,提高數(shù)據(jù)倉庫的安全性。
同樣密切關(guān)注數(shù)據(jù)價值與云原生力量的 Tapdata,作為自帶 ETL 的實(shí)時數(shù)據(jù)平臺,也透過社區(qū)看到了大量相關(guān)的數(shù)據(jù)遷移需求,在最新一批數(shù)倉目標(biāo)新增中,就可以看到新一代云原生數(shù)倉 Databend 的身影。
一、Databend 的云原生數(shù)倉優(yōu)勢
Databend 是一個使用 Rust 研發(fā)、開源、完全面向云架構(gòu)的新式數(shù)倉,提供極速的彈性擴(kuò)展能力,致力于打造按需、按量的 Data Cloud 產(chǎn)品體驗(yàn),賦能企業(yè)降本增效。目前適用于海量日志存儲及分析、訂單及商品銷售情況分析、數(shù)據(jù)審計(jì),以及部分 ES 場景。其特點(diǎn)包括:
開源 Cloud Data Warehouse 明星項(xiàng)目
Vectorized Execution 和 Pull&Push-Based Processor Model
真正的存儲、計(jì)算分離架構(gòu),高性能、低成本,按需按量使用
完整的數(shù)據(jù)庫支持,兼容 MySQL、Clickhouse 協(xié)議
支持事務(wù),支持 Time Travel、Database Clone、Data Share 等功能
支持基于同一份數(shù)據(jù)的多租戶讀寫、共享操作
使用 Databend 的優(yōu)勢包括:
基于 Rust + 對象存儲 及 k8s 架構(gòu),真正實(shí)現(xiàn)了存算分離
基于對象存儲成本及 Databend 的壓縮技術(shù),使存儲有 10 倍左右的優(yōu)化,同時也可以讓存儲實(shí)現(xiàn)按需付費(fèi)
計(jì)算節(jié)點(diǎn)無狀態(tài),可以讓計(jì)算實(shí)現(xiàn)按需擴(kuò)縮容
開源地址:https://github.com/datafuselabs/databend/
二、RDS MySQL → Databend 的數(shù)據(jù)入倉任務(wù)
(*本演示視頻版本為 Tapdata Cloud V3)
版本指路:
>>> 點(diǎn)擊登錄 Tapdata Cloud
>>> 申請?jiān)囉?Tapdata 本地部署版
架構(gòu)部署

*Tapdata Agent 是數(shù)據(jù)同步、數(shù)據(jù)異構(gòu)、數(shù)據(jù)開發(fā)場景中的關(guān)鍵程序。以上場景對數(shù)據(jù)的流轉(zhuǎn)有著極高的實(shí)時性要求,因此,通過下載 Tapdata Agent 并將其部署在用戶可控的環(huán)境中,基于低延遲的用戶可控網(wǎng)絡(luò),Tapdata Agent 能夠發(fā)揮最佳性能以確保數(shù)據(jù)流轉(zhuǎn)的實(shí)時性。
操作流程詳解
① 登錄 Tapdata Cloud

* 默認(rèn)已完成 Tapdata Cloud 賬號注冊及 Agent 部署。且用戶已經(jīng)創(chuàng)建阿里云 RDS MySQL 并在 RDS 中存儲了一定量的數(shù)據(jù),準(zhǔn)備把數(shù)據(jù)同步到 Databend。
② 創(chuàng)建 RDS MySQL ?連接
在 Tapdata Cloud 中創(chuàng)建源的連接:

填寫相應(yīng)的連接參數(shù),連接測試通過后保存:

③ 創(chuàng)建 Databend 連接
在 Beta 數(shù)據(jù)源中選擇 Databend 連接并填寫相關(guān)連接參數(shù),測試通過后保存:

④ 創(chuàng)建數(shù)據(jù)復(fù)制任務(wù)

將 RDS MySQL 數(shù)據(jù)源和 Databend 數(shù)據(jù)源拖到畫布中連接起來,表示準(zhǔn)備從 RDS MySQL 同步數(shù)據(jù)到 Databend。同步模式選擇為【全量同步】(增量同步的模式正在開發(fā)中),啟動任務(wù)。
開始從 RDS MySQL 同步數(shù)據(jù)到 Databend,下面展示了同步過程中的信息和數(shù)據(jù):

⑤ 查看結(jié)果
首先看一下 RDS MySQL 中的表:

同時我們也可以在 Databend 中查詢出已經(jīng)同步過來的表和數(shù)據(jù):

三、Why Tapdata
借助 Tapdata 出色的實(shí)時數(shù)據(jù)能力和廣泛的數(shù)據(jù)源支持,可以在幾分鐘內(nèi)完成從源庫到 Databend 包括全量、增量等在內(nèi)的多重數(shù)據(jù)同步任務(wù)。
在 Any Source → Databend 的數(shù)據(jù)同步任務(wù)中,Tapdata 展現(xiàn)出如下優(yōu)勢:
內(nèi)置 60+ 數(shù)據(jù)連接器,穩(wěn)定的實(shí)時采集和傳輸能力
以實(shí)時的方式從各個數(shù)據(jù)來源,包括數(shù)據(jù)庫、API、隊(duì)列、物聯(lián)網(wǎng)等數(shù)據(jù)提供者采集或同步最新的數(shù)據(jù)變化。支持多源異構(gòu)數(shù)據(jù)雙向同步,自動映射關(guān)系型到非關(guān)系型。一鍵實(shí)現(xiàn)實(shí)時捕獲,毫秒內(nèi)更新。已內(nèi)置 60+連接器且不斷拓展中,覆蓋大部分主流的數(shù)據(jù)庫和類型,并支持您自定義數(shù)據(jù)源。
具有強(qiáng)可擴(kuò)展性的 PDK 架構(gòu)
4 小時快速對接 SaaS API 系統(tǒng);16 小時快速對接數(shù)據(jù)庫系統(tǒng)。
對源庫幾乎無影響
基于自研的 CDC 日志解析技術(shù),0入侵實(shí)時采集數(shù)據(jù),對源庫幾乎無影響。
全鏈路實(shí)時
基于 Pipeline 流式數(shù)據(jù)處理,以應(yīng)對基于單條數(shù)據(jù)記錄的即時處理需求,如數(shù)據(jù)庫 CDC、消息、IoT 事件等。不同于傳統(tǒng) ETL,每一條新產(chǎn)生并進(jìn)入到平臺的數(shù)據(jù),會在秒級范圍被響應(yīng),計(jì)算,處理并寫入到目標(biāo)表中。同時提供了基于時間窗的統(tǒng)計(jì)分析能力,適用于實(shí)時分析場景。
數(shù)據(jù)一致性保障
通過多種自研技術(shù),保障目標(biāo)端數(shù)據(jù)與源數(shù)據(jù)的高一致性,并支持通過多種方式完成一致性校驗(yàn),保障生產(chǎn)要求。
可視化任務(wù)運(yùn)行監(jiān)控和告警
包含 20+ 可觀測性指標(biāo),包括全量同步進(jìn)度、增量同步延遲等,能夠?qū)崟r監(jiān)控在運(yùn)行任務(wù)的最新運(yùn)行狀態(tài)、日志信息等,支持任務(wù)告警。
【相關(guān)閱讀】
Tapdata Connector 實(shí)用指南:數(shù)據(jù)入倉場景之?dāng)?shù)據(jù)實(shí)時同步到 BigQuery
Tapdata Cloud 場景通關(guān)系列:數(shù)據(jù)入湖倉之 MySQL → Doris,極簡架構(gòu),更實(shí)時、更簡便
Tapdata Connector 實(shí)用指南:實(shí)時數(shù)倉場景之?dāng)?shù)據(jù)實(shí)時同步至 ClickHouse
原文鏈接:https://tapdata.net/tapdata-connector-rds-mysql-databend.html