Tapdata Connector 實用指南:實時數(shù)倉場景之數(shù)據(jù)實時同步至 ClickHouse
【前言】作為中國的 “Fivetran/Airbyte”, Tapdata 是一個以低延遲數(shù)據(jù)移動為核心優(yōu)勢構建的現(xiàn)代數(shù)據(jù)平臺,內(nèi)置 60+ 數(shù)據(jù)連接器,擁有穩(wěn)定的實時采集和傳輸能力、秒級響應的數(shù)據(jù)實時計算能力、穩(wěn)定易用的數(shù)據(jù)實時服務能力,以及低代碼可視化操作等。典型用例包括數(shù)據(jù)庫到數(shù)據(jù)庫的復制、將數(shù)據(jù)引入數(shù)據(jù)倉庫或數(shù)據(jù)湖,以及通用 ETL 處理等。
隨著 Tapdata Connector 的不斷增長,我們最新推出《Tapdata Connector 實用指南》系列內(nèi)容,以文字解析輔以視頻演示,還原技術實現(xiàn)細節(jié),模擬實際技術及應用場景需求,提供可以“收藏跟練”的實用專欄。本期實用指南以 MySQL → ClickHouse 為例,演示數(shù)據(jù)入倉場景下,如何將數(shù)據(jù)實時同步到 ClickHouse。
數(shù)智時代當前,數(shù)據(jù)正以極大量級、極細顆粒度、極高時效性、極智能方式影響著企業(yè)運作。業(yè)務發(fā)展更加依賴數(shù)據(jù)驅(qū)動,如何從類型豐富的海量數(shù)據(jù)中實時獲取有價值的洞察力正在成為新的挑戰(zhàn)。正因如此,兼具計算速度、高并發(fā)低延遲等性能優(yōu)勢的 ClickHouse 走入大家的視野,基于 ClickHouse 的實時數(shù)倉,也成為諸多企業(yè)在尋找強時效性、高數(shù)據(jù)準確性、低開發(fā)運維成本的數(shù)據(jù)分析與運營決策解決方案的優(yōu)選之一。
同樣密切關注實時數(shù)據(jù)價值與能量的 Tapdata,作為自帶 ETL 的實時數(shù)據(jù)平臺,也透過社區(qū)看到了大量相關的數(shù)據(jù)遷移需求,在最新一批數(shù)倉目標新增中,ClickHouse 赫然在列。
一、ClickHouse 的實時數(shù)倉優(yōu)勢
ClickHouse(全稱 Click Stream, Data WareHouse),是一個開源的、面向列的 OLAP(聯(lián)機分析)數(shù)據(jù)庫管理系統(tǒng)),允許使用 SQL 查詢實時生成分析報告。其前身為 Yandex.Metrica,主要用于 WEB 流量分析。除此之外, ClickHouse 官方推出的 ClickHouse Cloud,作為安全可擴展的云服務,支持輕松獲取高效的實時分析處理能力,可以簡化和加速現(xiàn)代數(shù)字企業(yè)的洞察力和分析能力。由于不需要管理基礎設施,ClickHouse 云架構將存儲和計算解耦,并自動擴展以適應現(xiàn)代工作負載,無需調(diào)整集群的大小即可滿足極高的查詢速度需求。
作為數(shù)據(jù)倉庫使用時,ClickHouse 具有以下優(yōu)勢:
高性能的數(shù)據(jù)處理能力。ClickHouse 設計的天然優(yōu)勢,支持高性能處理大量數(shù)據(jù),每秒的數(shù)據(jù)處理量可達上億行。
實時分析。支持對大型數(shù)據(jù)集的實時分析,可滿足實時數(shù)據(jù)處理和分析等場景需求。
列式存儲。允許對大型數(shù)據(jù)集進行快速查詢和匯總。
高可擴展性。Clickhouse 在構建時就考慮了水平可擴展性和高可用性,可以通過在集群中添加服務器輕松實現(xiàn)橫向擴展,在處理大量數(shù)據(jù)的同時保障性能不受影響。
數(shù)據(jù)壓縮特性。內(nèi)置壓縮算法,可以大大減少數(shù)據(jù)所需的存儲空間,便于存儲和處理大量數(shù)據(jù)。
生態(tài)便利。支持 SQL 查詢,方便熟悉 SQL 的數(shù)據(jù)分析師和開發(fā)人員上手試用,更易于集成數(shù)據(jù)生態(tài)系統(tǒng)中的其他工具和應用。
具有成本效益。作為一個開源項目,支持免費下載和使用。此外,活躍的開源社區(qū)也對使用者更加友好。
總的來說,ClickHouse 為存儲和處理大量數(shù)據(jù)提供了一種快速、高效和具有成本效益的解決方案。為了實現(xiàn)上述優(yōu)勢,我們需要首先實現(xiàn)數(shù)據(jù)向 ClickHouse 的同步。
二、MySQL → ClickHouse 的數(shù)據(jù)入倉任務
(*本演示視頻版本為 Tapdata Cloud V3)
版本指路:
>>> 點擊登錄 Tapdata Cloud
>>> 申請試用 Tapdata 本地部署版
操作流程詳解
① 登錄 Tapdata Cloud

* 默認已完成 Tapdata Cloud 賬號注冊及 Agent 部署
② 創(chuàng)建數(shù)據(jù)源 MySQL 的連接


在 Tapdata Cloud 連接管理菜單欄,點擊【創(chuàng)建連接】按鈕, 在彈出的窗口中選擇 MySQL 數(shù)據(jù)庫,并點擊確定。
參考右側【連接配置幫助】,完成連接創(chuàng)建:

③ 創(chuàng)建數(shù)據(jù)目標 ClickHouse 的連接
點擊左側菜單欄的【連接管理】,然后點擊右側區(qū)域【連接列表】右上角的【創(chuàng)建連接】按鈕,打開連接類型選擇頁面,然后選擇 ClickHouse。
在打開的連接信息配置頁面依次輸入需要的配置信息。

連接名稱:設置連接的名稱,多個連接的名稱不能重復
數(shù)據(jù)庫地址:數(shù)據(jù)庫 IP / Host
端口:數(shù)據(jù)庫端口
數(shù)據(jù)庫名稱
賬號:可以訪問數(shù)據(jù)庫的賬號
密碼:數(shù)據(jù)庫賬號對應的密碼
時間類型的時區(qū):默認使用該數(shù)據(jù)庫的時區(qū);若指定時區(qū),則使用指定后的時區(qū)設置
單擊連接測試,提示測試通過后單擊保存。(*如提示連接測試失敗,可根據(jù)頁面提示進行修復)

④ 新建并運行 MySQL 到 ClickHouse 的同步任務

三、Why Tapdata
借助 Tapdata 出色的實時數(shù)據(jù)能力和廣泛的數(shù)據(jù)源支持,可以在幾分鐘內(nèi)完成從源庫到 ClickHouse 包括全量、增量等在內(nèi)的多重數(shù)據(jù)同步任務。
在 Any Source → ClickHouse 的數(shù)據(jù)同步任務中,Tapdata 展現(xiàn)出如下優(yōu)勢:
內(nèi)置 60+ 數(shù)據(jù)連接器,穩(wěn)定的實時采集和傳輸能力
以實時的方式從各個數(shù)據(jù)來源,包括數(shù)據(jù)庫、API、隊列、物聯(lián)網(wǎng)等數(shù)據(jù)提供者采集或同步最新的數(shù)據(jù)變化。支持多源異構數(shù)據(jù)雙向同步,自動映射關系型到非關系型。一鍵實現(xiàn)實時捕獲,毫秒內(nèi)更新。已內(nèi)置 60+連接器且不斷拓展中,覆蓋大部分主流的數(shù)據(jù)庫和類型,并支持您自定義數(shù)據(jù)源。
具有強可擴展性的 PDK 架構
4 小時快速對接 SaaS API 系統(tǒng);16 小時快速對接數(shù)據(jù)庫系統(tǒng)。
對源庫幾乎無影響
基于自研的 CDC 日志解析技術,0入侵實時采集數(shù)據(jù),對源庫幾乎無影響。
全鏈路實時
基于 Pipeline 流式數(shù)據(jù)處理,以應對基于單條數(shù)據(jù)記錄的即時處理需求,如數(shù)據(jù)庫 CDC、消息、IoT 事件等。不同于傳統(tǒng) ETL,每一條新產(chǎn)生并進入到平臺的數(shù)據(jù),會在秒級范圍被響應,計算,處理并寫入到目標表中。同時提供了基于時間窗的統(tǒng)計分析能力,適用于實時分析場景。
數(shù)據(jù)一致性保障
通過多種自研技術,保障目標端數(shù)據(jù)與源數(shù)據(jù)的高一致性,并支持通過多種方式完成一致性校驗,保障生產(chǎn)要求。
可視化任務運行監(jiān)控和告警
包含 20+ 可觀測性指標,包括全量同步進度、增量同步延遲等,能夠?qū)崟r監(jiān)控在運行任務的最新運行狀態(tài)、日志信息等,支持任務告警。
【相關閱讀】
Tapdata Connector 實用指南:數(shù)據(jù)入倉場景之數(shù)據(jù)實時同步到 BigQuery
Tapdata Cloud 場景通關系列:將數(shù)據(jù)導入阿里云 Tablestore,獲得毫秒級在線查詢和檢索能力
Tapdata Cloud 場景通關系列:數(shù)據(jù)入湖倉之 MySQL → Doris,極簡架構,更實時、更簡便
原文鏈接:https://tapdata.net/tapdata-connector-mysql-clickhouse.html