利用 Databend 助力 CDH 分析 | 大參林
作者: 黃志武
大參林醫(yī)藥集團股份有限公司,信息中心數據庫組組長,13年數據庫行業(yè)從業(yè)經歷,Oracle OCM,關注Oracle、MySQL、Redis、MongoDB、Oceanbase、Tidb、Polardb-X、TDSQL、CDH、Clickhouse、Doris、Databend等多方面的關鍵領域技術,服務過傳統(tǒng)通信、電力,互聯網、移動互聯網等行業(yè)。
大參林醫(yī)藥集團股份有限公司成立于 1999 年,是中國具有影響力的藥品零售連鎖集團化企業(yè)。在數字化轉型升級的趨勢背景下,支撐持續(xù)穩(wěn)定的零售業(yè)務生態(tài),離不開高效的信息化、數據化、智能化的技術支持。
需求概述
大參林醫(yī)藥集團零售供應鏈數據龐大,涉及大表較多,最大單表數據量達到 93 億,歷史數據存儲在大數據服務 CDH 。由于技術架構升級改造原因,該 CDH 需要下線,但是業(yè)務部門提出需要保留數據用于審計追溯。若考慮通過關系型分布式數據庫進行遷移,如 OceanBase、TiDB,對于歷史數據的關聯并行查詢也是一種挑戰(zhàn);若考慮只通過 COS、OSS, S3 對象存儲備份導出的文檔數據文件,受限于平臺技術,無法執(zhí)行數據關聯查詢。由于時間緊迫,急需一種投入成本低、見效快的替代方案。
使用 CDH 的痛點
現在大數據平臺數據增長迅速, 數據量超過 30T,機器集群硬件配置不足以承擔目前的業(yè)務壓力,成本投入也越來越大。
初見 Databend
Databend 是一個開源的 Elastic 和 Workload-Aware 現代云數據倉庫。使用最新的矢量化查詢處理技術,可以在對象存儲( S3、Azure Blob、谷歌云存儲、華為云 OBS 或 MinIO )上進行超快的數據分析。
Databend 產品特點:
即時彈性
Databend 將存儲與計算完全分離,用戶可以根據應用程序的需要輕松擴展或縮小。
優(yōu)異的性能
Databend 利用數據級并行( Vectorized Query Execution )和指令級并行( SIMD )技術,提供性能卓越的數據分析。
類似 Git 的 MVCC 存儲
Databend 使用快照存儲數據。查詢、克隆和恢復表中的歷史數據非常容易。
支持半結構化數據
Databend 支持攝取各種格式的半結構化數據,例如 CSV、JSON 和 Parquet,這些數據位于云端或您的本地文件系統(tǒng)中;Databend 還支持半結構化數據類型:ARRAY、MAP、JSON,便于半結構化導入和操作。
MySQL/ClickHouse 兼容
Databend 符合 ANSI SQL 并兼容 MySQL/ClickHouse 協(xié)議,可以輕松連接現有工具( MySQL Client、ClickHouse Client、Vector、DBeaver、Jupyter、JDBC 等)。
使用方便
Databend 沒有要構建的索引,不需要手動調整,不需要手動計算分區(qū)或分片數據,所有這些都在數據加載到表中時完成。
技術選型
Databend 是一個數據倉庫平臺,同樣具備類似通用的大數據平臺 CDH 的的支持能力。在選擇數據歸檔方案時,分 3 個方面做了對比:
存儲成本:對象存儲和 HDD, SSD 的成本,其中對象存儲是 HDD 的 1/10, 是 SSD 的 1/30;
數據遷移成本:數據備份文件導出后直接遷到對象存儲中,可以實現無腦在 Databend 直接加載存儲,通過讀取備份文件的表對象信息完成創(chuàng)建表和加載數據;
關聯查詢能力:查詢方式簡單,兼容 MySQL 協(xié)議,可不用改變 Mysql 的使用習慣,直接無需過多改動即可通過原來的業(yè)務 SQL 進行關聯查詢;
Databend方案
目前 Databend 主要用于數據歸檔。實現方式是將大數據平臺 CDH 導出的 Parquet 文件,通過騰訊云的文件遷移同步工具 cos_migrate_tool 實現傳輸備份至騰訊云 COS,使用 Databend 的單節(jié)點部署方案把該 COS 直接加載,即可實現 COS 下文件自動識別。
創(chuàng)建 Stage
查看 Stage 中的文件
Load stage 中的文件到 Databend
從文件中獲取表結構來創(chuàng)建表
加載文件往表中寫入數據
查詢
查詢
現在 Databend 支持復雜的查詢語法,可以滿足平時業(yè)務需求。
Databend 使用現狀
目前使用Databend,對大表數據的查詢加載速度提升2倍;騰訊云 COS 存儲成本相對于 CDH 本地盤及副本模式成本下下降 15 倍左右;且性能滿足日常的數據審計查詢需求。
總結
采用Databend有非常不錯的體驗,簡單易用、查詢迅速,對業(yè)務常用的歷史數據查詢無縫切換,極大地縮短了項目周期,提升了效率,減少了業(yè)務方的焦慮。