最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【活動(dòng)回顧】Data + AI 時(shí)代下的云數(shù)倉設(shè)計(jì) @Qcon

2023-07-12 14:18 作者:Databend  | 我要投稿

此前,由 InfoQ 中國舉辦的 QCon 全球軟件開發(fā)大會(huì)在廣州圓滿落幕。本次大會(huì)有近百位國內(nèi)外技術(shù)大咖現(xiàn)場分享前沿技術(shù)案例與創(chuàng)新實(shí)踐,共有十二個(gè)專題,近五十余場分享。Databend Cloud 聯(lián)合創(chuàng)始人張雁飛受邀參與了此次技術(shù)盛宴,并在新型數(shù)據(jù)庫專場進(jìn)行了一次主題為《 Databend: 大模型時(shí)代的 Cloud Warehouse 設(shè)計(jì)探索 》的演講。

演講嘉賓:張雁飛 Databend: https://github.com/datafuselabs/databend

嘉賓介紹:Databend Cloud 聯(lián)合創(chuàng)始人 ,前阿里云數(shù)據(jù)庫內(nèi)核組早期成員、前青云數(shù)據(jù)庫團(tuán)隊(duì)負(fù)責(zé)人。開源 Databend 項(xiàng)目主要負(fù)責(zé)人。

本次分享聚焦于大模型時(shí)代下的 Cloud Warehouse 設(shè)計(jì)探索,分析如何利用開源與商業(yè) LLMs 提升 Cloud Warehouse 的能力,實(shí)現(xiàn)更智能、自動(dòng)化的數(shù)據(jù)分析。本次分享主要分為兩個(gè)部分:

  • 現(xiàn)代的數(shù)倉如何設(shè)計(jì)

  • 數(shù)倉如何與 AI 結(jié)合

為什么需要現(xiàn)代云數(shù)倉

當(dāng)用戶想要進(jìn)行大數(shù)據(jù)分析時(shí),心里所期望的基本是:

我要進(jìn)行一次分析,希望這個(gè)分析盡可能快地完成,同時(shí),我只希望為實(shí)際使用的資源付費(fèi)。

成本 = 實(shí)際資源用量 * 使用時(shí)間

下面我們來探討下數(shù)據(jù)倉庫應(yīng)該如何滿足這個(gè)需求。首先我們看看傳統(tǒng)數(shù)倉架構(gòu)在滿足這個(gè)需求上存在哪些問題。

在傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)中,一般采用的是 share-nothing 架構(gòu),CPU、內(nèi)存和存儲(chǔ)緊密綁定,這種設(shè)計(jì)一般被稱為南北向設(shè)計(jì),它需要依靠數(shù)據(jù)分區(qū)來實(shí)現(xiàn)計(jì)算任務(wù)的拆分。然而,在這種架構(gòu)中,往往會(huì)產(chǎn)生大量的冗余副本,造成資源的浪費(fèi)。當(dāng)我們需要添加新的節(jié)點(diǎn)時(shí),就會(huì)面臨數(shù)據(jù)的遷移和均衡問題,導(dǎo)致資源交付不是很及時(shí)。

所以在傳統(tǒng)架構(gòu)下,用戶數(shù)據(jù)和計(jì)算完全耦合在一起,整體的成本相對(duì)較高:

傳統(tǒng)數(shù)倉架構(gòu)的成本 = ?資源 * 開機(jī)時(shí)間

那么 Databend 新一代云原生架構(gòu)是如何滿足這種需求的呢?

Databend 的架構(gòu)在設(shè)計(jì)上做了很多改進(jìn):

  • 基于共享存儲(chǔ)的設(shè)計(jì): Databend 支持多種對(duì)象存儲(chǔ),包括 Amazon S3, Azure Blob, OSS, COS 等。這種設(shè)計(jì)模式允許存儲(chǔ)按使用量付費(fèi),具有高度的彈性。當(dāng)計(jì)算節(jié)點(diǎn)需要擴(kuò)展時(shí),數(shù)據(jù)無需進(jìn)行任何移動(dòng)。

  • 存儲(chǔ)和計(jì)算分離的架構(gòu): 在此架構(gòu)下,計(jì)算節(jié)點(diǎn)可以根據(jù)需求進(jìn)行動(dòng)態(tài)啟動(dòng)。當(dāng)業(yè)務(wù)處于空閑狀態(tài)時(shí),計(jì)算節(jié)點(diǎn)會(huì)自動(dòng)進(jìn)入休眠,從而有效節(jié)省資源。

  • 面向?qū)ο蟠鎯?chǔ)的調(diào)度器設(shè)計(jì): 由于對(duì)象存儲(chǔ)存在多種限制并且易于抖動(dòng),其并非專為數(shù)據(jù)倉庫設(shè)計(jì)。因此,Databend 的調(diào)度器和優(yōu)化器針對(duì)對(duì)象存儲(chǔ)進(jìn)行了大量優(yōu)化。例如,調(diào)度器上的存儲(chǔ)和計(jì)算在運(yùn)行時(shí)具有雙向感壓特性,同時(shí)在執(zhí)行 GroupBy shuffle 時(shí),傳輸?shù)氖俏募刂范菙?shù)據(jù)。

  • 高度的彈性伸縮性: 借助 Kubernetes(k8s)的能力,Databend 能夠快速進(jìn)行彈性伸縮,以適應(yīng)各種業(yè)務(wù)需求和負(fù)載變化。

在設(shè)計(jì) Databend 時(shí),我們借鑒了目前市場上一些優(yōu)秀的數(shù)倉設(shè)計(jì)。例如,我們參考了 Clickhouse 的向量化設(shè)計(jì),以提高單機(jī)的性能。同時(shí),我們也借鑒了 Snowflake 的集群優(yōu)點(diǎn),以增強(qiáng)分布式計(jì)算能力。綜合了這些優(yōu)點(diǎn)后,我們選擇了 Rust 語言進(jìn)行重新研發(fā)和實(shí)現(xiàn)。Databend 還有一個(gè)重大的的改進(jìn),我們把每一個(gè)功能層都做了微服務(wù)化,這樣它的架構(gòu)大概是:

然而,Databend 的設(shè)計(jì)過程中也充滿了挑戰(zhàn),因?yàn)樵圃鷶?shù)倉的設(shè)計(jì)與傳統(tǒng)數(shù)倉的設(shè)計(jì)有著顯著的差異。主要的挑戰(zhàn)主要體現(xiàn)在以下幾個(gè)方面:

1?? 大規(guī)模數(shù)據(jù)寫入的網(wǎng)絡(luò)流量費(fèi)用

在處理大規(guī)模數(shù)據(jù)寫入時(shí),可能會(huì)在云端產(chǎn)生顯著的網(wǎng)絡(luò)流量費(fèi)用。

2?? 基于對(duì)象存儲(chǔ)的設(shè)計(jì)問題

由于對(duì)象存儲(chǔ)本身并非專為數(shù)倉設(shè)計(jì),因此,在平衡 CPU、網(wǎng)絡(luò) IO、本地 IO 的延遲和帶寬上限時(shí),可能會(huì)遇到各種挑戰(zhàn)。

3?? 提升 Databend 云數(shù)據(jù)倉庫的智能化程度

我們希望設(shè)計(jì)一個(gè)能夠自動(dòng)處理智能索引的系統(tǒng),以提高查詢效率。

4?? 數(shù)據(jù)倉庫與數(shù)據(jù)湖(Data Lake)的整合問題

盡管將二者結(jié)合可能帶來新的設(shè)計(jì)挑戰(zhàn),但我們堅(jiān)信 Lake-First 是未來的發(fā)展趨勢。因此,Databend 采用 Catalog 的便捷方式來支持讀取 Hive、Iceberg 等的數(shù)據(jù)。

在過去的兩年中,我們主要致力于研究并解決上述挑戰(zhàn)。目前,Databend 已經(jīng)發(fā)布了 v1.2 版本,成功解決了上面遇到的主要挑戰(zhàn)。當(dāng)然,仍有許多優(yōu)化的空間等待我們?nèi)ヌ剿鳌D壳?,Databend 已經(jīng)被多家企業(yè)在生產(chǎn)環(huán)境中采用。

??????? 接下來,我們來看看 Databend 新一代架構(gòu)在實(shí)際生產(chǎn)環(huán)境中的表現(xiàn)。以下數(shù)據(jù)均源自用戶在真實(shí)場景下的反饋:

  • 在替換 Trino/Presto 場景中,節(jié)省了75%的成本

  • 在替換 Elasticsearch 的場景中,節(jié)省了90%的成本。

  • 在數(shù)據(jù)歸檔的低頻查詢場景中,節(jié)省了95%的成本。

  • 在日志存儲(chǔ)及分析場景中,節(jié)省了75%的成本。

  • 每天有超過1PB+ 的數(shù)據(jù)通過 Databend 進(jìn)行存儲(chǔ)和分析,每個(gè)月為用戶 節(jié)省了數(shù)百萬美元 的成本。

這些數(shù)據(jù)說明,Databend 能夠顯著降低用戶成本,充分體現(xiàn)了新一代云原生數(shù)據(jù)倉庫架構(gòu)所帶來的巨大價(jià)值。

數(shù)據(jù)倉庫與AI

我們目前正處在大數(shù)據(jù)與 AI 的黃金時(shí)期。在前面的部分,我們已經(jīng)討論了大數(shù)據(jù)分析的相關(guān)內(nèi)容,接下來,我們聊聊 AI。

當(dāng)我們提及 AI,以下幾個(gè)主題往往會(huì)首先浮現(xiàn)在腦海中::

  • LLM (Large Language Model)語言大模型

  • 神經(jīng)網(wǎng)絡(luò)

  • 內(nèi)容生成

  • 智能問答

然而,從零開始訓(xùn)練一個(gè)大型模型,例如 Meta 的 LLaMa 模型,面臨的挑戰(zhàn)是巨大的,尤其是在成本方面。公開數(shù)據(jù)顯示,他們訓(xùn)練一次該模型可能需要花費(fèi)數(shù)百萬美元。

根據(jù)我們對(duì)市場上各種商業(yè)和開源模型的測試,OpenAI 的 GPT 模型在商業(yè)化條件下表現(xiàn)優(yōu)秀(截止到 2023 年 5 月)。特別是在智能客服系統(tǒng)中,我們非??粗啬P透鶕?jù)內(nèi)容片段和提示詞(Prompt)進(jìn)行推理的能力。

這里有一個(gè)來自 lmsys.org(https://lmsys.org/) 的模型能力排名供大家參考:

目前,我比較關(guān)注的 AI 應(yīng)用方向主要是:

  • 智能問答(Question and Answering)

  • 全自動(dòng)式大數(shù)據(jù)分析(AutoInsights)

能問答系統(tǒng)(Question and Answering)

首先,讓我們了解一下智能問答系統(tǒng)的工作原理,然后再探討我們?nèi)绾卧跀?shù)倉中實(shí)現(xiàn)這一功能。

由于大模型每次處理的輸入有限制,我們需要將大量的文本拆分為小片段,并將其向量化存儲(chǔ)在向量數(shù)據(jù)庫(Vector Database)中。這種設(shè)計(jì)使得智能問答系統(tǒng)的工作原理可以簡化為以下四個(gè)步驟:

  1. 將輸入的問題進(jìn)行向量化處理,得到問題向量 QV。

  2. 利用向量數(shù)據(jù)庫進(jìn)行相似度檢索,從而找出與 QV 最相似的文檔片段集合(Documents)。

  3. 根據(jù)已給出的提示詞(Prompt),將找到的文檔片段進(jìn)行 AI 生成式處理。

  4. 返回處理后的答案。

想要了解智能問答系統(tǒng)的朋友,我推薦你們?cè)L問這個(gè)鏈接:https://ask.databend.rs 這是一個(gè)以Databend 文檔為基礎(chǔ)的智能問答系統(tǒng),它完全基于 Databend 構(gòu)建。

在 Databend 中,我們實(shí)現(xiàn)了諸如文本向量化(Embedding)、向量數(shù)據(jù)庫(Vector Database)、相似度檢索等功能,還引入了 AI 生成式處理(潤色)等技術(shù)。

通過 Databend 提供的一系列 SQL 函數(shù)(AI Functions),用戶可以非常方便地利用這些函數(shù)來創(chuàng)建自己的智能問答系統(tǒng)。這不僅大大簡化了智能問答系統(tǒng)的構(gòu)建過程,同時(shí)也為大數(shù)據(jù)的利用提供了更多可能性。Databend 使你能夠在同一套系統(tǒng)中進(jìn)行 OLAP 和向量數(shù)據(jù)的處理,同時(shí)可以對(duì)接各種大模型,進(jìn)一步拓展大數(shù)據(jù)的邊界。

全自動(dòng)式分析 (AutoInsights)

SQL 分析通常較為復(fù)雜,對(duì)用戶而言,快速編寫 SQL 是一項(xiàng)巨大的挑戰(zhàn)。我們是否可以簡化這個(gè)步驟,讓 AI 直接基于表結(jié)構(gòu)和數(shù)據(jù)摘要自動(dòng)生成 SQL 呢?答案是肯定的。目前,Databend Cloud 已上線該功能。

在 Databend 中,大部分列都已經(jīng)建立了索引,再結(jié)合優(yōu)化器的良好設(shè)計(jì),生成的 SQL 可以在無需人工干預(yù)的情況下快速執(zhí)行。

這樣,我們的自動(dòng)化分析可以拆解為以下步驟:

  • 獲取表結(jié)構(gòu)

  • 讓 AI 根據(jù)表結(jié)構(gòu)提幾個(gè)最關(guān)注的問題

  • 把這幾個(gè)問題轉(zhuǎn)換為 SQL

  • Databend 執(zhí)行 SQL 并生成結(jié)果

  • 根據(jù)結(jié)果自動(dòng)化生成分析報(bào)告

整個(gè)流程基本為:

總結(jié)

我們正在經(jīng)歷一個(gè) Data + AI 的黃金時(shí)期,AI 已在大數(shù)據(jù)領(lǐng)域展現(xiàn)出巨大的潛力,比如 OpenAI 最近推出的 ChatGPT Code Interpreter,這都標(biāo)志著 AI 可以幫助我們以更創(chuàng)新的方式挖掘數(shù)據(jù)的價(jià)值。

Databend 在設(shè)計(jì)之初就充分考慮到這種智能化的需求,因此我們研發(fā)了 AI Functions。這使得 Databend 不僅是一個(gè)數(shù)據(jù)倉庫,更是一個(gè) Large Language Model(LLM)的入口,可以通過 SQL 來表達(dá) AI 的能力,未來 AI 將是每個(gè)數(shù)據(jù)倉庫的標(biāo)配。

我們堅(jiān)信,Databend 將繼續(xù)引領(lǐng)數(shù)倉的創(chuàng)新,為用戶帶來更多的價(jià)值。Databend 不僅可以幫助你降低成本,提高效率,還可以借助 AI 的能力挖掘更大的數(shù)據(jù)價(jià)值,使大數(shù)據(jù)分析的門檻進(jìn)一步降低。

【活動(dòng)回顧】Data + AI 時(shí)代下的云數(shù)倉設(shè)計(jì) @Qcon的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
玉环县| 丰镇市| 聊城市| 西乌珠穆沁旗| 高尔夫| 新巴尔虎左旗| 黄大仙区| 渭源县| 穆棱市| 壶关县| 郯城县| 饶阳县| 金华市| 潢川县| 阿拉善左旗| 大兴区| 崇仁县| 罗甸县| 乌兰浩特市| 宁明县| 通河县| 水城县| 七台河市| 海原县| 肇庆市| 南投市| 临沧市| 河北省| 尉犁县| 连山| 长丰县| 沙田区| 长沙市| 辰溪县| 五大连池市| 双江| 梁山县| 栾川县| 淮阳县| 略阳县| 海原县|