散文網(wǎng) » 生活 »日常 » 【活動(dòng)回顧】Data + AI 時(shí)代下的云數(shù)倉設(shè)計(jì) @Qcon

【活動(dòng)回顧】Data + AI 時(shí)代下的云數(shù)倉設(shè)計(jì) @Qcon

2023-07-12 14:18 作者:Databend 0人讀過 | 我要投稿

此前，由 InfoQ 中國舉辦的 QCon 全球軟件開發(fā)大會(huì)在廣州圓滿落幕。本次大會(huì)有近百位國內(nèi)外技術(shù)大咖現(xiàn)場分享前沿技術(shù)案例與創(chuàng)新實(shí)踐，共有十二個(gè)專題，近五十余場分享。Databend Cloud 聯(lián)合創(chuàng)始人張雁飛受邀參與了此次技術(shù)盛宴，并在新型數(shù)據(jù)庫專場進(jìn)行了一次主題為《 Databend: 大模型時(shí)代的 Cloud Warehouse 設(shè)計(jì)探索》的演講。

演講嘉賓：張雁飛 Databend: https://github.com/datafuselabs/databend

嘉賓介紹：Databend Cloud 聯(lián)合創(chuàng)始人，前阿里云數(shù)據(jù)庫內(nèi)核組早期成員、前青云數(shù)據(jù)庫團(tuán)隊(duì)負(fù)責(zé)人。開源 Databend 項(xiàng)目主要負(fù)責(zé)人。

本次分享聚焦于大模型時(shí)代下的 Cloud Warehouse 設(shè)計(jì)探索，分析如何利用開源與商業(yè) LLMs 提升 Cloud Warehouse 的能力，實(shí)現(xiàn)更智能、自動(dòng)化的數(shù)據(jù)分析。本次分享主要分為兩個(gè)部分：

現(xiàn)代的數(shù)倉如何設(shè)計(jì)
數(shù)倉如何與 AI 結(jié)合

為什么需要現(xiàn)代云數(shù)倉

當(dāng)用戶想要進(jìn)行大數(shù)據(jù)分析時(shí)，心里所期望的基本是：

我要進(jìn)行一次分析，希望這個(gè)分析盡可能快地完成，同時(shí)，我只希望為實(shí)際使用的資源付費(fèi)。

成本 = 實(shí)際資源用量 * 使用時(shí)間

下面我們來探討下數(shù)據(jù)倉庫應(yīng)該如何滿足這個(gè)需求。首先我們看看傳統(tǒng)數(shù)倉架構(gòu)在滿足這個(gè)需求上存在哪些問題。

在傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)中，一般采用的是 share-nothing 架構(gòu)，CPU、內(nèi)存和存儲(chǔ)緊密綁定，這種設(shè)計(jì)一般被稱為南北向設(shè)計(jì)，它需要依靠數(shù)據(jù)分區(qū)來實(shí)現(xiàn)計(jì)算任務(wù)的拆分。然而，在這種架構(gòu)中，往往會(huì)產(chǎn)生大量的冗余副本，造成資源的浪費(fèi)。當(dāng)我們需要添加新的節(jié)點(diǎn)時(shí)，就會(huì)面臨數(shù)據(jù)的遷移和均衡問題，導(dǎo)致資源交付不是很及時(shí)。

所以在傳統(tǒng)架構(gòu)下，用戶數(shù)據(jù)和計(jì)算完全耦合在一起，整體的成本相對(duì)較高：

傳統(tǒng)數(shù)倉架構(gòu)的成本 = ?資源 * 開機(jī)時(shí)間

那么 Databend 新一代云原生架構(gòu)是如何滿足這種需求的呢？

Databend 的架構(gòu)在設(shè)計(jì)上做了很多改進(jìn)：

基于共享存儲(chǔ)的設(shè)計(jì)： Databend 支持多種對(duì)象存儲(chǔ)，包括 Amazon S3, Azure Blob, OSS, COS 等。這種設(shè)計(jì)模式允許存儲(chǔ)按使用量付費(fèi)，具有高度的彈性。當(dāng)計(jì)算節(jié)點(diǎn)需要擴(kuò)展時(shí)，數(shù)據(jù)無需進(jìn)行任何移動(dòng)。
存儲(chǔ)和計(jì)算分離的架構(gòu)： 在此架構(gòu)下，計(jì)算節(jié)點(diǎn)可以根據(jù)需求進(jìn)行動(dòng)態(tài)啟動(dòng)。當(dāng)業(yè)務(wù)處于空閑狀態(tài)時(shí)，計(jì)算節(jié)點(diǎn)會(huì)自動(dòng)進(jìn)入休眠，從而有效節(jié)省資源。
面向?qū)ο蟠鎯?chǔ)的調(diào)度器設(shè)計(jì)： 由于對(duì)象存儲(chǔ)存在多種限制并且易于抖動(dòng)，其并非專為數(shù)據(jù)倉庫設(shè)計(jì)。因此，Databend 的調(diào)度器和優(yōu)化器針對(duì)對(duì)象存儲(chǔ)進(jìn)行了大量優(yōu)化。例如，調(diào)度器上的存儲(chǔ)和計(jì)算在運(yùn)行時(shí)具有雙向感壓特性，同時(shí)在執(zhí)行 GroupBy shuffle 時(shí)，傳輸?shù)氖俏募刂范菙?shù)據(jù)。
高度的彈性伸縮性： 借助 Kubernetes（k8s）的能力，Databend 能夠快速進(jìn)行彈性伸縮，以適應(yīng)各種業(yè)務(wù)需求和負(fù)載變化。

在設(shè)計(jì) Databend 時(shí)，我們借鑒了目前市場上一些優(yōu)秀的數(shù)倉設(shè)計(jì)。例如，我們參考了 Clickhouse 的向量化設(shè)計(jì)，以提高單機(jī)的性能。同時(shí)，我們也借鑒了 Snowflake 的集群優(yōu)點(diǎn)，以增強(qiáng)分布式計(jì)算能力。綜合了這些優(yōu)點(diǎn)后，我們選擇了 Rust 語言進(jìn)行重新研發(fā)和實(shí)現(xiàn)。Databend 還有一個(gè)重大的的改進(jìn)，我們把每一個(gè)功能層都做了微服務(wù)化，這樣它的架構(gòu)大概是：

然而，Databend 的設(shè)計(jì)過程中也充滿了挑戰(zhàn)，因?yàn)樵圃鷶?shù)倉的設(shè)計(jì)與傳統(tǒng)數(shù)倉的設(shè)計(jì)有著顯著的差異。主要的挑戰(zhàn)主要體現(xiàn)在以下幾個(gè)方面：

1?? 大規(guī)模數(shù)據(jù)寫入的網(wǎng)絡(luò)流量費(fèi)用

在處理大規(guī)模數(shù)據(jù)寫入時(shí)，可能會(huì)在云端產(chǎn)生顯著的網(wǎng)絡(luò)流量費(fèi)用。

2?? 基于對(duì)象存儲(chǔ)的設(shè)計(jì)問題

由于對(duì)象存儲(chǔ)本身并非專為數(shù)倉設(shè)計(jì)，因此，在平衡 CPU、網(wǎng)絡(luò) IO、本地 IO 的延遲和帶寬上限時(shí)，可能會(huì)遇到各種挑戰(zhàn)。

3?? 提升 Databend 云數(shù)據(jù)倉庫的智能化程度

我們希望設(shè)計(jì)一個(gè)能夠自動(dòng)處理智能索引的系統(tǒng)，以提高查詢效率。

4?? 數(shù)據(jù)倉庫與數(shù)據(jù)湖（Data Lake）的整合問題

盡管將二者結(jié)合可能帶來新的設(shè)計(jì)挑戰(zhàn)，但我們堅(jiān)信 Lake-First 是未來的發(fā)展趨勢。因此，Databend 采用 Catalog 的便捷方式來支持讀取 Hive、Iceberg 等的數(shù)據(jù)。

在過去的兩年中，我們主要致力于研究并解決上述挑戰(zhàn)。目前，Databend 已經(jīng)發(fā)布了 v1.2 版本，成功解決了上面遇到的主要挑戰(zhàn)。當(dāng)然，仍有許多優(yōu)化的空間等待我們?nèi)ヌ剿鳌Ｄ壳?，Databend 已經(jīng)被多家企業(yè)在生產(chǎn)環(huán)境中采用。

??????? 接下來，我們來看看 Databend 新一代架構(gòu)在實(shí)際生產(chǎn)環(huán)境中的表現(xiàn)。以下數(shù)據(jù)均源自用戶在真實(shí)場景下的反饋：

在替換 Trino/Presto 場景中，節(jié)省了75%的成本。
在替換 Elasticsearch 的場景中，節(jié)省了90%的成本。
在數(shù)據(jù)歸檔的低頻查詢場景中，節(jié)省了95%的成本。
在日志存儲(chǔ)及分析場景中，節(jié)省了75%的成本。
每天有超過1PB+ 的數(shù)據(jù)通過 Databend 進(jìn)行存儲(chǔ)和分析，每個(gè)月為用戶 節(jié)省了數(shù)百萬美元 的成本。

這些數(shù)據(jù)說明，Databend 能夠顯著降低用戶成本，充分體現(xiàn)了新一代云原生數(shù)據(jù)倉庫架構(gòu)所帶來的巨大價(jià)值。

數(shù)據(jù)倉庫與AI

我們目前正處在大數(shù)據(jù)與 AI 的黃金時(shí)期。在前面的部分，我們已經(jīng)討論了大數(shù)據(jù)分析的相關(guān)內(nèi)容，接下來，我們聊聊 AI。

當(dāng)我們提及 AI，以下幾個(gè)主題往往會(huì)首先浮現(xiàn)在腦海中：：

LLM （Large Language Model)語言大模型
神經(jīng)網(wǎng)絡(luò)
內(nèi)容生成
智能問答

然而，從零開始訓(xùn)練一個(gè)大型模型，例如 Meta 的 LLaMa 模型，面臨的挑戰(zhàn)是巨大的，尤其是在成本方面。公開數(shù)據(jù)顯示，他們訓(xùn)練一次該模型可能需要花費(fèi)數(shù)百萬美元。

根據(jù)我們對(duì)市場上各種商業(yè)和開源模型的測試，OpenAI 的 GPT 模型在商業(yè)化條件下表現(xiàn)優(yōu)秀（截止到 2023 年 5 月）。特別是在智能客服系統(tǒng)中，我們非?？粗啬Ｐ透鶕?jù)內(nèi)容片段和提示詞（Prompt）進(jìn)行推理的能力。

這里有一個(gè)來自 lmsys.org(https://lmsys.org/) 的模型能力排名供大家參考：

目前，我比較關(guān)注的 AI 應(yīng)用方向主要是：

智能問答（Question and Answering）
全自動(dòng)式大數(shù)據(jù)分析（AutoInsights）

能問答系統(tǒng)（Question and Answering）

首先，讓我們了解一下智能問答系統(tǒng)的工作原理，然后再探討我們?nèi)绾卧跀?shù)倉中實(shí)現(xiàn)這一功能。

由于大模型每次處理的輸入有限制，我們需要將大量的文本拆分為小片段，并將其向量化存儲(chǔ)在向量數(shù)據(jù)庫（Vector Database）中。這種設(shè)計(jì)使得智能問答系統(tǒng)的工作原理可以簡化為以下四個(gè)步驟：

將輸入的問題進(jìn)行向量化處理，得到問題向量 QV。
利用向量數(shù)據(jù)庫進(jìn)行相似度檢索，從而找出與 QV 最相似的文檔片段集合（Documents）。
根據(jù)已給出的提示詞（Prompt），將找到的文檔片段進(jìn)行 AI 生成式處理。
返回處理后的答案。

想要了解智能問答系統(tǒng)的朋友，我推薦你們?cè)L問這個(gè)鏈接：https://ask.databend.rs 這是一個(gè)以Databend 文檔為基礎(chǔ)的智能問答系統(tǒng)，它完全基于 Databend 構(gòu)建。

在 Databend 中，我們實(shí)現(xiàn)了諸如文本向量化（Embedding）、向量數(shù)據(jù)庫（Vector Database）、相似度檢索等功能，還引入了 AI 生成式處理（潤色）等技術(shù)。

通過 Databend 提供的一系列 SQL 函數(shù)（AI Functions），用戶可以非常方便地利用這些函數(shù)來創(chuàng)建自己的智能問答系統(tǒng)。這不僅大大簡化了智能問答系統(tǒng)的構(gòu)建過程，同時(shí)也為大數(shù)據(jù)的利用提供了更多可能性。Databend 使你能夠在同一套系統(tǒng)中進(jìn)行 OLAP 和向量數(shù)據(jù)的處理，同時(shí)可以對(duì)接各種大模型，進(jìn)一步拓展大數(shù)據(jù)的邊界。

全自動(dòng)式分析 (AutoInsights)

SQL 分析通常較為復(fù)雜，對(duì)用戶而言，快速編寫 SQL 是一項(xiàng)巨大的挑戰(zhàn)。我們是否可以簡化這個(gè)步驟，讓 AI 直接基于表結(jié)構(gòu)和數(shù)據(jù)摘要自動(dòng)生成 SQL 呢？答案是肯定的。目前，Databend Cloud 已上線該功能。

在 Databend 中，大部分列都已經(jīng)建立了索引，再結(jié)合優(yōu)化器的良好設(shè)計(jì)，生成的 SQL 可以在無需人工干預(yù)的情況下快速執(zhí)行。

這樣，我們的自動(dòng)化分析可以拆解為以下步驟：

獲取表結(jié)構(gòu)
讓 AI 根據(jù)表結(jié)構(gòu)提幾個(gè)最關(guān)注的問題
把這幾個(gè)問題轉(zhuǎn)換為 SQL
Databend 執(zhí)行 SQL 并生成結(jié)果
根據(jù)結(jié)果自動(dòng)化生成分析報(bào)告

整個(gè)流程基本為：

總結(jié)

我們正在經(jīng)歷一個(gè) Data + AI 的黃金時(shí)期，AI 已在大數(shù)據(jù)領(lǐng)域展現(xiàn)出巨大的潛力，比如 OpenAI 最近推出的 ChatGPT Code Interpreter，這都標(biāo)志著 AI 可以幫助我們以更創(chuàng)新的方式挖掘數(shù)據(jù)的價(jià)值。

Databend 在設(shè)計(jì)之初就充分考慮到這種智能化的需求，因此我們研發(fā)了 AI Functions。這使得 Databend 不僅是一個(gè)數(shù)據(jù)倉庫，更是一個(gè) Large Language Model（LLM）的入口，可以通過 SQL 來表達(dá) AI 的能力，未來 AI 將是每個(gè)數(shù)據(jù)倉庫的標(biāo)配。

我們堅(jiān)信，Databend 將繼續(xù)引領(lǐng)數(shù)倉的創(chuàng)新，為用戶帶來更多的價(jià)值。Databend 不僅可以幫助你降低成本，提高效率，還可以借助 AI 的能力挖掘更大的數(shù)據(jù)價(jià)值，使大數(shù)據(jù)分析的門檻進(jìn)一步降低。

標(biāo)簽：