【活動(dòng)回顧】Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)(內(nèi)含 PPT 下載)
由「3306π」社區(qū)主辦,「Databend」參與協(xié)辦的「數(shù)據(jù)庫(kù)朋友圈」活動(dòng)于 9 月 16 日在北京360大廈成功舉辦!該活動(dòng)匯集了數(shù)據(jù)庫(kù)領(lǐng)域的資深專(zhuān)家和企業(yè)家,共同探討數(shù)據(jù)庫(kù)技術(shù)變革。
下午,Databend Labs 聯(lián)合創(chuàng)始人張雁飛作為「Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)」專(zhuān)題的演講嘉賓進(jìn)行了分享。

主題: 「Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)」
演講嘉賓: 張雁飛
嘉賓介紹: Databend Labs 聯(lián)合創(chuàng)始人。前青云數(shù)據(jù)庫(kù)團(tuán)隊(duì)負(fù)責(zé)人、開(kāi)源 Databend 項(xiàng)目主要負(fù)責(zé)人。
演講大綱: 傳統(tǒng)數(shù)倉(cāng)在擴(kuò)展性、成本和管理等方面具有局限性。在本次分享中,我們將介紹一種新型的 Serverless 數(shù)倉(cāng)技術(shù),這種技術(shù)不僅能夠解決傳統(tǒng)數(shù)倉(cāng)的痛點(diǎn),還能顯著提升性能并降低成本。此外,我們還將討論 Serverless 數(shù)倉(cāng)所面臨的技術(shù)挑戰(zhàn)。
傳統(tǒng)數(shù)倉(cāng)的局限性
理想的 Serverless 數(shù)倉(cāng)架構(gòu)
如何實(shí)現(xiàn) Serverless 數(shù)倉(cāng)以及有哪些挑戰(zhàn)
以下為本次演講的精彩內(nèi)容:
當(dāng)今(2023)大數(shù)據(jù)分析新問(wèn)題
大數(shù)據(jù)分析面臨的新問(wèn)題
近 5 年生產(chǎn)了 ~90% 數(shù)據(jù)

??根據(jù) IDC 的統(tǒng)計(jì)和預(yù)測(cè),近 5 年來(lái)產(chǎn)生了大約 90% 的數(shù)據(jù)。這里用的單位是 zttabytes(ZB),1024PB = 1EB,1024EB = 1ZB 是一個(gè)非常龐大的數(shù)字。過(guò)去的大數(shù)據(jù)架構(gòu)難以適應(yīng)當(dāng)下的數(shù)據(jù)規(guī)模,亟需變更,怎么樣才能做到彈性和 Serverless 拓展,從而匹配業(yè)務(wù)增長(zhǎng)?
計(jì)算和存儲(chǔ)成本高昂

在企業(yè)的IT基礎(chǔ)設(shè)施中,云廠(chǎng)商提供的計(jì)算和存儲(chǔ)服務(wù)導(dǎo)致了高昂的成本。經(jīng)測(cè)算,如果為 EC2 實(shí)例創(chuàng)建總?cè)萘繛?500TB 的 SSD(GP2)存儲(chǔ),每個(gè)月在 EBS 服務(wù)上將會(huì)花費(fèi)超過(guò) 7 萬(wàn) 5 千美元。如何才能在保證低廉成本的同時(shí)滿(mǎn)足業(yè)務(wù)性能需求,提供經(jīng)濟(jì)、高效能的大數(shù)據(jù)架構(gòu)?
大數(shù)據(jù)平臺(tái)越來(lái)越復(fù)雜

上圖是知名投資機(jī)構(gòu) a16z 繪制的統(tǒng)一數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)全景圖,不難看出,龐大的數(shù)據(jù)量和復(fù)雜的數(shù)據(jù)需求,導(dǎo)致大數(shù)據(jù)平臺(tái)也變得日益復(fù)雜,需要數(shù)十種工具緊密協(xié)作,對(duì)于產(chǎn)品生態(tài)愈發(fā)嚴(yán)苛的要求。如何無(wú)縫與其他工具進(jìn)行集成,并且復(fù)用現(xiàn)有基礎(chǔ)設(shè)施?
大數(shù)據(jù)架構(gòu),能否完美實(shí)現(xiàn)
上述這些問(wèn)題,為大數(shù)據(jù)架構(gòu)提出了新的要求,特別是在以下幾個(gè)維度上,能否做到“完美”實(shí)現(xiàn) :
存儲(chǔ)成本:極致低廉
計(jì)算控制:極致精細(xì),支持算子在 Lambda 函數(shù)中運(yùn)行
集群控制:極致彈性,按需伸縮、啟停
架構(gòu)特點(diǎn):all-in-one platform,完全 Serverless 化
未來(lái)規(guī)劃:為未來(lái)的云端大數(shù)據(jù)做好準(zhǔn)備
傳統(tǒng)數(shù)倉(cāng)架構(gòu) vs. 彈性數(shù)倉(cāng)架構(gòu)
在進(jìn)入到架構(gòu)對(duì)比之前,我們先來(lái)看一個(gè)成本估測(cè)公式:Cost = Resource * Time ,也就是成本大致可以用資源與時(shí)間的乘積進(jìn)行測(cè)算。
傳統(tǒng)數(shù)倉(cāng)架構(gòu)

傳統(tǒng)數(shù)倉(cāng)往往采用 Shared-Nothing 架構(gòu),存儲(chǔ)、計(jì)算一體化設(shè)計(jì),彈性相對(duì)較弱。而且由于調(diào)度上采用資源固定(Fixed-Set)式調(diào)度策略,資源控制粒度粗,也會(huì)帶來(lái)更多的成本。
對(duì)應(yīng)到成本估測(cè)公式上,在時(shí)間一定的情況下,由于耗費(fèi)資源數(shù)量較大,成本將會(huì)居高不下。
彈性數(shù)倉(cāng)架構(gòu)

彈性數(shù)倉(cāng)則采用 Shared-Storage 架構(gòu),底層可以使用對(duì)象存儲(chǔ),真正做到存儲(chǔ)、計(jì)算分離,從而支持實(shí)時(shí)彈性擴(kuò)容和縮容以及資源按需(Workload-Based)式調(diào)度,資源控制粒度更細(xì)。
對(duì)應(yīng)到成本估測(cè)公式上,相較于傳統(tǒng)數(shù)倉(cāng),彈性數(shù)倉(cāng)的成本將會(huì)顯著降低:存儲(chǔ)成本可以按實(shí)際使用量折算,不需要為冗余的存儲(chǔ)進(jìn)行服務(wù);而計(jì)算成本則根據(jù)業(yè)務(wù)需要實(shí)時(shí)調(diào)度,按需啟停,按量計(jì)費(fèi),無(wú)需保有大量空閑計(jì)算資源。
Databend: 新一代云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)
新一代云數(shù)倉(cāng)的架構(gòu)新在哪里?影響現(xiàn)代云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)的因素和挑戰(zhàn)都有哪些?這一部分將會(huì)給你答案。
新一代云數(shù)倉(cāng)
現(xiàn)有數(shù)倉(cāng)的局限
ClickHouse 是一款流行的開(kāi)源數(shù)倉(cāng),以性能卓越著稱(chēng)。采用向量化計(jì)算技術(shù),細(xì)節(jié)優(yōu)化非常到位。具有 Pipeline 處理器和調(diào)度器以及 MergeTree + Wide-Column 存儲(chǔ)引擎,單機(jī)性能非常強(qiáng)悍。
缺點(diǎn): 分布式能力弱,無(wú)法應(yīng)對(duì)復(fù)雜分析,運(yùn)維復(fù)雜度高,不是為云設(shè)計(jì)。
Snowflake 則是一款云數(shù)倉(cāng),支持多租戶(hù),存儲(chǔ)、計(jì)算分離?;趯?duì)象存儲(chǔ),存儲(chǔ)介質(zhì)便宜。彈性能力非常強(qiáng)悍,面向云架構(gòu)設(shè)計(jì)。
缺點(diǎn): 單機(jī)性能一般,比較依賴(lài)分布式集群能力。
Databend = ClickHouse + Snow?ake + Rust
前面列出的是目前在開(kāi)源和商業(yè)化領(lǐng)域領(lǐng)先的兩款數(shù)倉(cāng)產(chǎn)品,看上去性能和彈性無(wú)法兼得,想要低成本和彈性計(jì)算是不是就必須放棄單節(jié)點(diǎn)的極致優(yōu)化呢?我們來(lái)看一下 Databend 交出的答卷。
借鑒 ClickHouse 向量化計(jì)算,提升單機(jī)計(jì)算性能。
借鑒 Snow?ake 存儲(chǔ)、計(jì)算分離思想,提升分布式計(jì)算能力。
借鑒 Git,MVCC 列式存儲(chǔ)引擎,支持 Insert / Read / Delete / Update / Merge 等操作,以及 Time Travel 等高級(jí)特性。
全面支持 HDFS 、基于云的對(duì)象存儲(chǔ)、IPFS 等 20 多種存儲(chǔ)協(xié)議。
基于便宜的對(duì)象存儲(chǔ)也能方便的做實(shí)時(shí)性分析。
完全使用 Rust 研發(fā)(超過(guò) 33 萬(wàn)行代碼),研發(fā)第一天就在 Github 開(kāi)源。
高彈性 + 強(qiáng)分布式,致力于解決大數(shù)據(jù)分析成本和復(fù)雜度問(wèn)題。
云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)
Databend Cloud 架構(gòu)全景圖
Databend Cloud 是基于開(kāi)源云原生數(shù)倉(cāng)項(xiàng)目 Databend 打造的一款易用、低成本、高性能的新一代大數(shù)據(jù)分析平臺(tái),提供一站式 SaaS 服務(wù),免運(yùn)維、開(kāi)箱即用。下面是 Databend Cloud 的架構(gòu)全景圖,也是 Databend Labs 團(tuán)隊(duì)對(duì)新一代云數(shù)倉(cāng)的架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)。

影響云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)的因素與挑戰(zhàn)
Databend / Databend Cloud 之所以演化出現(xiàn)在的架構(gòu),是因?yàn)樾乱淮茢?shù)倉(cāng)除了要在性能上比肩傳統(tǒng)數(shù)倉(cāng)、彈性上對(duì)標(biāo)彈性數(shù)倉(cāng)之外,還必須解決下面幾個(gè)重要的問(wèn)題:
Ingest 海量數(shù)據(jù)網(wǎng)絡(luò)費(fèi)用問(wèn)題:傳統(tǒng) INSERT 模式費(fèi)用昂貴,需要一套基于 S3 的免費(fèi)方案。
對(duì)象存儲(chǔ)不是為數(shù)倉(cāng)而設(shè)計(jì),延遲和性能如何平衡:Network-Bound -> IO-Bound -> CPU-Bound 。
如何讓系統(tǒng)更加智能,根據(jù)查詢(xún)模式自動(dòng)創(chuàng)建索引:如何讓某些場(chǎng)景的 Query 越跑越快...
如何面向 Warehouse + Datalake 雙重需求設(shè)計(jì)?
前兩個(gè)問(wèn)題是云帶來(lái)的挑戰(zhàn),而后兩個(gè)問(wèn)題將直面用戶(hù)需求,一旦考慮清楚這些問(wèn)題,云數(shù)倉(cāng)的架構(gòu)也就呼之欲出了。
Databend 生態(tài)全景圖
數(shù)倉(cāng)的產(chǎn)品的成敗,除了本身的設(shè)計(jì)和實(shí)現(xiàn)之外,也非常依賴(lài)數(shù)據(jù)生態(tài),其關(guān)鍵在于解決數(shù)據(jù)的輸入與輸出問(wèn)題。
Databend 自身支持一定 ETL 能力,能夠使用 Stage 和 Multiple Catalog 掛載外部數(shù)據(jù)源,提供全量、增量、條件等多種導(dǎo)入方式,支持使用 PRESIGN 上傳和下載數(shù)據(jù)。
Databend 積極融入大數(shù)據(jù)生態(tài),拓展「Databend 朋友圈」,提供全鏈路解決方案,幫助用戶(hù)將數(shù)據(jù)轉(zhuǎn)化為商業(yè)洞見(jiàn)。

Databend 為用戶(hù)提供價(jià)值
Databend 是一款開(kāi)源、開(kāi)放,運(yùn)維簡(jiǎn)單、分鐘級(jí)部署,為云端海量數(shù)據(jù)分析而設(shè)計(jì)的新一代云數(shù)倉(cāng)。
我們?cè)谇懊娼榻B了 Databend 的設(shè)計(jì)與實(shí)現(xiàn),以及在生態(tài)方面做的一些努力,但產(chǎn)品是否能夠占據(jù)市場(chǎng)、滿(mǎn)足用戶(hù)需求,還需要靠數(shù)據(jù)說(shuō)話(huà)。
Databend v1.0 于 2023 年 3 月 5 日正式發(fā)布,目前處于 v1.2 版本,我們統(tǒng)計(jì)了以下幾條關(guān)鍵數(shù)據(jù):
替換 Trino/Presto 場(chǎng)景成本降低了 75%
替換 Elasticsearch 場(chǎng)景成本降低了 90%
歸檔場(chǎng)景成本降低了 95%
日志和歷史訂單分析場(chǎng)景成本降低了 75%
~1PB+/天(2023.9 統(tǒng)計(jì))在使用 Databend 寫(xiě)入公有云對(duì)象存儲(chǔ)
用戶(hù)來(lái)自歐洲、北美、東南亞、印度、非洲、中國(guó)等地,每月節(jié)省數(shù)百萬(wàn)美元
以下是一些在生產(chǎn)環(huán)境中使用 Databend 的用戶(hù),感謝他們一直以來(lái)的支持與陪伴。我們將繼續(xù)提供更有價(jià)值的服務(wù)。

Databend 在開(kāi)源社區(qū)
Databend 從第一天起就在 GitHub 上開(kāi)源,目前已經(jīng)成為 Rust 社區(qū)中的明星數(shù)據(jù)庫(kù)項(xiàng)目。我們與上下游社區(qū)緊密協(xié)作,共同建設(shè) Rust 大數(shù)據(jù)生態(tài)。Databend 目前的貢獻(xiàn)者中不乏大公司背景,比如 SAP、Yahoo、Fortinet、Shopee、Alibaba、Tencent、ByteDance、EMQ、快手,Databend 社區(qū)正在被頂級(jí)需求、頂級(jí)場(chǎng)景驅(qū)動(dòng)。

體驗(yàn) Databend
最后,歡迎大家體驗(yàn) Databend 產(chǎn)品與生態(tài),與我們共同建設(shè)堅(jiān)實(shí)可靠的大數(shù)據(jù)基礎(chǔ)設(shè)施。
本地部署可以嘗試我們的社區(qū)版本,官網(wǎng)地址是:https://databend.rs 。
同時(shí),也歡迎訪(fǎng)問(wèn) Serverless Cloud 體驗(yàn) Databend 在云上的澎湃動(dòng)力:
海外(AWS / GCP):https://app.databend.com
國(guó)內(nèi)(阿里云 / 騰訊云 / 華為云):https://app.databend.cn
點(diǎn)擊 https://github.com/3306pai/3306Pai-presentations/blob/main/3306Pai-2023/3306%CF%80-%E5%8C%97%E4%BA%AC%E7%AB%99-20230916/05-Serverless-Databend-Warehouse-%E5%BC%A0%E9%9B%81%E9%A3%9E-3306%CF%80.pdf ,即可獲取演講 PPT 。
【活動(dòng)回顧】Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)(內(nèi)含 PPT 下載)的評(píng)論 (共 條)
