最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

利用 Databend 助力 CDH 分析 | 大參林

2023-08-23 14:32 作者:Databend  | 我要投稿

作者: 黃志武

大參林醫(yī)藥集團股份有限公司,信息中心數據庫組組長,13年數據庫行業(yè)從業(yè)經歷,Oracle OCM,關注Oracle、MySQL、Redis、MongoDB、Oceanbase、Tidb、Polardb-X、TDSQL、CDH、Clickhouse、Doris、Databend等多方面的關鍵領域技術,服務過傳統(tǒng)通信、電力,互聯網、移動互聯網等行業(yè)。

大參林醫(yī)藥集團股份有限公司成立于 1999 年,是中國具有影響力的藥品零售連鎖集團化企業(yè)。在數字化轉型升級的趨勢背景下,支撐持續(xù)穩(wěn)定的零售業(yè)務生態(tài),離不開高效的信息化、數據化、智能化的技術支持。

需求概述

大參林醫(yī)藥集團零售供應鏈數據龐大,涉及大表較多,最大單表數據量達到 93 億,歷史數據存儲在大數據服務 CDH 。由于技術架構升級改造原因,該 CDH 需要下線,但是業(yè)務部門提出需要保留數據用于審計追溯。若考慮通過關系型分布式數據庫進行遷移,如 OceanBase、TiDB,對于歷史數據的關聯并行查詢也是一種挑戰(zhàn);若考慮只通過 COS、OSS, S3 對象存儲備份導出的文檔數據文件,受限于平臺技術,無法執(zhí)行數據關聯查詢。由于時間緊迫,急需一種投入成本低、見效快的替代方案。

使用 CDH 的痛點

現在大數據平臺數據增長迅速, 數據量超過 30T,機器集群硬件配置不足以承擔目前的業(yè)務壓力,成本投入也越來越大。

初見 Databend

Databend 是一個開源的 Elastic 和 Workload-Aware 現代云數據倉庫。使用最新的矢量化查詢處理技術,可以在對象存儲( S3、Azure Blob、谷歌云存儲、華為云 OBS 或 MinIO )上進行超快的數據分析。

Databend 產品特點:

  • 即時彈性

    Databend 將存儲與計算完全分離,用戶可以根據應用程序的需要輕松擴展或縮小。

  • 優(yōu)異的性能

    Databend 利用數據級并行( Vectorized Query Execution )和指令級并行( SIMD )技術,提供性能卓越的數據分析。

  • 類似 Git 的 MVCC 存儲

    Databend 使用快照存儲數據。查詢、克隆和恢復表中的歷史數據非常容易。

  • 支持半結構化數據

    Databend 支持攝取各種格式的半結構化數據,例如 CSV、JSON 和 Parquet,這些數據位于云端或您的本地文件系統(tǒng)中;Databend 還支持半結構化數據類型:ARRAY、MAP、JSON,便于半結構化導入和操作。

  • MySQL/ClickHouse 兼容

    Databend 符合 ANSI SQL 并兼容 MySQL/ClickHouse 協(xié)議,可以輕松連接現有工具( MySQL Client、ClickHouse Client、Vector、DBeaver、Jupyter、JDBC 等)。

  • 使用方便

    Databend 沒有要構建的索引,不需要手動調整,不需要手動計算分區(qū)或分片數據,所有這些都在數據加載到表中時完成。

技術選型

Databend 是一個數據倉庫平臺,同樣具備類似通用的大數據平臺 CDH 的的支持能力。在選擇數據歸檔方案時,分 3 個方面做了對比:

  • 存儲成本:對象存儲和 HDD, SSD 的成本,其中對象存儲是 HDD 的 1/10, 是 SSD 的 1/30;

  • 數據遷移成本:數據備份文件導出后直接遷到對象存儲中,可以實現無腦在 Databend 直接加載存儲,通過讀取備份文件的表對象信息完成創(chuàng)建表和加載數據;

  • 關聯查詢能力:查詢方式簡單,兼容 MySQL 協(xié)議,可不用改變 Mysql 的使用習慣,直接無需過多改動即可通過原來的業(yè)務 SQL 進行關聯查詢;

Databend方案

目前 Databend 主要用于數據歸檔。實現方式是將大數據平臺 CDH 導出的 Parquet 文件,通過騰訊云的文件遷移同步工具 cos_migrate_tool 實現傳輸備份至騰訊云 COS,使用 Databend 的單節(jié)點部署方案把該 COS 直接加載,即可實現 COS 下文件自動識別。

  • 創(chuàng)建 Stage

  • 查看 Stage 中的文件

  • Load stage 中的文件到 Databend

從文件中獲取表結構來創(chuàng)建表

加載文件往表中寫入數據

  • 查詢

查詢

現在 Databend 支持復雜的查詢語法,可以滿足平時業(yè)務需求。

Databend 使用現狀

目前使用Databend,對大表數據的查詢加載速度提升2倍;騰訊云 COS 存儲成本相對于 CDH 本地盤及副本模式成本下下降 15 倍左右;且性能滿足日常的數據審計查詢需求。

總結

采用Databend有非常不錯的體驗,簡單易用、查詢迅速,對業(yè)務常用的歷史數據查詢無縫切換,極大地縮短了項目周期,提升了效率,減少了業(yè)務方的焦慮。

利用 Databend 助力 CDH 分析 | 大參林的評論 (共 條)

分享到微博請遵守國家法律
蒲城县| 南漳县| 石狮市| 和平县| 延吉市| 吉水县| 延安市| 伊春市| 潜山县| 乌审旗| 白玉县| 出国| 舞钢市| 绥德县| 北宁市| 余干县| 离岛区| 蒲江县| 伊金霍洛旗| 岳阳县| 永吉县| 峡江县| 肇东市| 利川市| 黄浦区| 阿城市| 孝义市| 余姚市| 济源市| 镇坪县| 望城县| 疏勒县| 许昌市| 吉林省| 宾阳县| 丰台区| 郑州市| 陇川县| 化德县| 闵行区| 准格尔旗|