最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【活動(dòng)回顧】Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)(內(nèi)含 PPT 下載)

2023-09-22 18:31 作者:Databend  | 我要投稿

由「3306π」社區(qū)主辦,「Databend」參與協(xié)辦的「數(shù)據(jù)庫(kù)朋友圈」活動(dòng)于 9 月 16 日在北京360大廈成功舉辦!該活動(dòng)匯集了數(shù)據(jù)庫(kù)領(lǐng)域的資深專(zhuān)家和企業(yè)家,共同探討數(shù)據(jù)庫(kù)技術(shù)變革。

下午,Databend Labs 聯(lián)合創(chuàng)始人張雁飛作為「Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)」專(zhuān)題的演講嘉賓進(jìn)行了分享。

主題: 「Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)」

演講嘉賓: 張雁飛

嘉賓介紹: Databend Labs 聯(lián)合創(chuàng)始人。前青云數(shù)據(jù)庫(kù)團(tuán)隊(duì)負(fù)責(zé)人、開(kāi)源 Databend 項(xiàng)目主要負(fù)責(zé)人。

演講大綱: 傳統(tǒng)數(shù)倉(cāng)在擴(kuò)展性、成本和管理等方面具有局限性。在本次分享中,我們將介紹一種新型的 Serverless 數(shù)倉(cāng)技術(shù),這種技術(shù)不僅能夠解決傳統(tǒng)數(shù)倉(cāng)的痛點(diǎn),還能顯著提升性能并降低成本。此外,我們還將討論 Serverless 數(shù)倉(cāng)所面臨的技術(shù)挑戰(zhàn)。

  • 傳統(tǒng)數(shù)倉(cāng)的局限性

  • 理想的 Serverless 數(shù)倉(cāng)架構(gòu)

  • 如何實(shí)現(xiàn) Serverless 數(shù)倉(cāng)以及有哪些挑戰(zhàn)

以下為本次演講的精彩內(nèi)容:

當(dāng)今(2023)大數(shù)據(jù)分析新問(wèn)題

大數(shù)據(jù)分析面臨的新問(wèn)題

  • 近 5 年生產(chǎn)了 ~90% 數(shù)據(jù)

    • ??根據(jù) IDC 的統(tǒng)計(jì)和預(yù)測(cè),近 5 年來(lái)產(chǎn)生了大約 90% 的數(shù)據(jù)。這里用的單位是 zttabytes(ZB),1024PB = 1EB,1024EB = 1ZB 是一個(gè)非常龐大的數(shù)字。過(guò)去的大數(shù)據(jù)架構(gòu)難以適應(yīng)當(dāng)下的數(shù)據(jù)規(guī)模,亟需變更,怎么樣才能做到彈性和 Serverless 拓展,從而匹配業(yè)務(wù)增長(zhǎng)?

  • 計(jì)算和存儲(chǔ)成本高昂

  • 在企業(yè)的IT基礎(chǔ)設(shè)施中,云廠(chǎng)商提供的計(jì)算和存儲(chǔ)服務(wù)導(dǎo)致了高昂的成本。經(jīng)測(cè)算,如果為 EC2 實(shí)例創(chuàng)建總?cè)萘繛?500TB 的 SSD(GP2)存儲(chǔ),每個(gè)月在 EBS 服務(wù)上將會(huì)花費(fèi)超過(guò) 7 萬(wàn) 5 千美元。如何才能在保證低廉成本的同時(shí)滿(mǎn)足業(yè)務(wù)性能需求,提供經(jīng)濟(jì)、高效能的大數(shù)據(jù)架構(gòu)?

  • 大數(shù)據(jù)平臺(tái)越來(lái)越復(fù)雜

上圖是知名投資機(jī)構(gòu) a16z 繪制的統(tǒng)一數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)全景圖,不難看出,龐大的數(shù)據(jù)量和復(fù)雜的數(shù)據(jù)需求,導(dǎo)致大數(shù)據(jù)平臺(tái)也變得日益復(fù)雜,需要數(shù)十種工具緊密協(xié)作,對(duì)于產(chǎn)品生態(tài)愈發(fā)嚴(yán)苛的要求。如何無(wú)縫與其他工具進(jìn)行集成,并且復(fù)用現(xiàn)有基礎(chǔ)設(shè)施?

大數(shù)據(jù)架構(gòu),能否完美實(shí)現(xiàn)

上述這些問(wèn)題,為大數(shù)據(jù)架構(gòu)提出了新的要求,特別是在以下幾個(gè)維度上,能否做到“完美”實(shí)現(xiàn)

  • 存儲(chǔ)成本:極致低廉

  • 計(jì)算控制:極致精細(xì),支持算子在 Lambda 函數(shù)中運(yùn)行

  • 集群控制:極致彈性,按需伸縮、啟停

  • 架構(gòu)特點(diǎn):all-in-one platform,完全 Serverless 化

  • 未來(lái)規(guī)劃:為未來(lái)的云端大數(shù)據(jù)做好準(zhǔn)備

傳統(tǒng)數(shù)倉(cāng)架構(gòu) vs. 彈性數(shù)倉(cāng)架構(gòu)

在進(jìn)入到架構(gòu)對(duì)比之前,我們先來(lái)看一個(gè)成本估測(cè)公式:Cost = Resource * Time ,也就是成本大致可以用資源與時(shí)間的乘積進(jìn)行測(cè)算。

傳統(tǒng)數(shù)倉(cāng)架構(gòu)

傳統(tǒng)數(shù)倉(cāng)往往采用 Shared-Nothing 架構(gòu),存儲(chǔ)、計(jì)算一體化設(shè)計(jì),彈性相對(duì)較弱。而且由于調(diào)度上采用資源固定(Fixed-Set)式調(diào)度策略,資源控制粒度粗,也會(huì)帶來(lái)更多的成本。

對(duì)應(yīng)到成本估測(cè)公式上,在時(shí)間一定的情況下,由于耗費(fèi)資源數(shù)量較大,成本將會(huì)居高不下。

彈性數(shù)倉(cāng)架構(gòu)

彈性數(shù)倉(cāng)則采用 Shared-Storage 架構(gòu),底層可以使用對(duì)象存儲(chǔ),真正做到存儲(chǔ)、計(jì)算分離,從而支持實(shí)時(shí)彈性擴(kuò)容和縮容以及資源按需(Workload-Based)式調(diào)度,資源控制粒度更細(xì)。

對(duì)應(yīng)到成本估測(cè)公式上,相較于傳統(tǒng)數(shù)倉(cāng),彈性數(shù)倉(cāng)的成本將會(huì)顯著降低:存儲(chǔ)成本可以按實(shí)際使用量折算,不需要為冗余的存儲(chǔ)進(jìn)行服務(wù);而計(jì)算成本則根據(jù)業(yè)務(wù)需要實(shí)時(shí)調(diào)度,按需啟停,按量計(jì)費(fèi),無(wú)需保有大量空閑計(jì)算資源。

Databend: 新一代云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)

新一代云數(shù)倉(cāng)的架構(gòu)新在哪里?影響現(xiàn)代云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)的因素和挑戰(zhàn)都有哪些?這一部分將會(huì)給你答案。

新一代云數(shù)倉(cāng)

現(xiàn)有數(shù)倉(cāng)的局限

ClickHouse 是一款流行的開(kāi)源數(shù)倉(cāng),以性能卓越著稱(chēng)。采用向量化計(jì)算技術(shù),細(xì)節(jié)優(yōu)化非常到位。具有 Pipeline 處理器和調(diào)度器以及 MergeTree + Wide-Column 存儲(chǔ)引擎,單機(jī)性能非常強(qiáng)悍。

缺點(diǎn): 分布式能力弱,無(wú)法應(yīng)對(duì)復(fù)雜分析,運(yùn)維復(fù)雜度高,不是為云設(shè)計(jì)。

Snowflake 則是一款云數(shù)倉(cāng),支持多租戶(hù),存儲(chǔ)、計(jì)算分離?;趯?duì)象存儲(chǔ),存儲(chǔ)介質(zhì)便宜。彈性能力非常強(qiáng)悍,面向云架構(gòu)設(shè)計(jì)。

缺點(diǎn): 單機(jī)性能一般,比較依賴(lài)分布式集群能力。

Databend = ClickHouse + Snow?ake + Rust

前面列出的是目前在開(kāi)源和商業(yè)化領(lǐng)域領(lǐng)先的兩款數(shù)倉(cāng)產(chǎn)品,看上去性能和彈性無(wú)法兼得,想要低成本和彈性計(jì)算是不是就必須放棄單節(jié)點(diǎn)的極致優(yōu)化呢?我們來(lái)看一下 Databend 交出的答卷。

  • 借鑒 ClickHouse 向量化計(jì)算,提升單機(jī)計(jì)算性能。

  • 借鑒 Snow?ake 存儲(chǔ)、計(jì)算分離思想,提升分布式計(jì)算能力。

  • 借鑒 Git,MVCC 列式存儲(chǔ)引擎,支持 Insert / Read / Delete / Update / Merge 等操作,以及 Time Travel 等高級(jí)特性。

  • 全面支持 HDFS 、基于云的對(duì)象存儲(chǔ)、IPFS 等 20 多種存儲(chǔ)協(xié)議。

  • 基于便宜的對(duì)象存儲(chǔ)也能方便的做實(shí)時(shí)性分析。

  • 完全使用 Rust 研發(fā)(超過(guò) 33 萬(wàn)行代碼),研發(fā)第一天就在 Github 開(kāi)源。

  • 高彈性 + 強(qiáng)分布式,致力于解決大數(shù)據(jù)分析成本和復(fù)雜度問(wèn)題。

云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)

Databend Cloud 架構(gòu)全景圖

Databend Cloud 是基于開(kāi)源云原生數(shù)倉(cāng)項(xiàng)目 Databend 打造的一款易用、低成本、高性能的新一代大數(shù)據(jù)分析平臺(tái),提供一站式 SaaS 服務(wù),免運(yùn)維、開(kāi)箱即用。下面是 Databend Cloud 的架構(gòu)全景圖,也是 Databend Labs 團(tuán)隊(duì)對(duì)新一代云數(shù)倉(cāng)的架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)。

影響云數(shù)倉(cāng)架構(gòu)設(shè)計(jì)的因素與挑戰(zhàn)

Databend / Databend Cloud 之所以演化出現(xiàn)在的架構(gòu),是因?yàn)樾乱淮茢?shù)倉(cāng)除了要在性能上比肩傳統(tǒng)數(shù)倉(cāng)、彈性上對(duì)標(biāo)彈性數(shù)倉(cāng)之外,還必須解決下面幾個(gè)重要的問(wèn)題:

  • Ingest 海量數(shù)據(jù)網(wǎng)絡(luò)費(fèi)用問(wèn)題:傳統(tǒng) INSERT 模式費(fèi)用昂貴,需要一套基于 S3 的免費(fèi)方案。

  • 對(duì)象存儲(chǔ)不是為數(shù)倉(cāng)而設(shè)計(jì),延遲和性能如何平衡:Network-Bound -> IO-Bound -> CPU-Bound 。

  • 如何讓系統(tǒng)更加智能,根據(jù)查詢(xún)模式自動(dòng)創(chuàng)建索引:如何讓某些場(chǎng)景的 Query 越跑越快...

  • 如何面向 Warehouse + Datalake 雙重需求設(shè)計(jì)?

前兩個(gè)問(wèn)題是云帶來(lái)的挑戰(zhàn),而后兩個(gè)問(wèn)題將直面用戶(hù)需求,一旦考慮清楚這些問(wèn)題,云數(shù)倉(cāng)的架構(gòu)也就呼之欲出了。

Databend 生態(tài)全景圖

數(shù)倉(cāng)的產(chǎn)品的成敗,除了本身的設(shè)計(jì)和實(shí)現(xiàn)之外,也非常依賴(lài)數(shù)據(jù)生態(tài),其關(guān)鍵在于解決數(shù)據(jù)的輸入與輸出問(wèn)題。

Databend 自身支持一定 ETL 能力,能夠使用 Stage 和 Multiple Catalog 掛載外部數(shù)據(jù)源,提供全量、增量、條件等多種導(dǎo)入方式,支持使用 PRESIGN 上傳和下載數(shù)據(jù)。

Databend 積極融入大數(shù)據(jù)生態(tài),拓展「Databend 朋友圈」,提供全鏈路解決方案,幫助用戶(hù)將數(shù)據(jù)轉(zhuǎn)化為商業(yè)洞見(jiàn)。

Databend 為用戶(hù)提供價(jià)值

Databend 是一款開(kāi)源、開(kāi)放,運(yùn)維簡(jiǎn)單、分鐘級(jí)部署,為云端海量數(shù)據(jù)分析而設(shè)計(jì)的新一代云數(shù)倉(cāng)。

我們?cè)谇懊娼榻B了 Databend 的設(shè)計(jì)與實(shí)現(xiàn),以及在生態(tài)方面做的一些努力,但產(chǎn)品是否能夠占據(jù)市場(chǎng)、滿(mǎn)足用戶(hù)需求,還需要靠數(shù)據(jù)說(shuō)話(huà)。

Databend v1.0 于 2023 年 3 月 5 日正式發(fā)布,目前處于 v1.2 版本,我們統(tǒng)計(jì)了以下幾條關(guān)鍵數(shù)據(jù):

  • 替換 Trino/Presto 場(chǎng)景成本降低了 75%

  • 替換 Elasticsearch 場(chǎng)景成本降低了 90%

  • 歸檔場(chǎng)景成本降低了 95%

  • 日志和歷史訂單分析場(chǎng)景成本降低了 75%

  • ~1PB+/天(2023.9 統(tǒng)計(jì))在使用 Databend 寫(xiě)入公有云對(duì)象存儲(chǔ)

  • 用戶(hù)來(lái)自歐洲、北美、東南亞、印度、非洲、中國(guó)等地,每月節(jié)省數(shù)百萬(wàn)美元

以下是一些在生產(chǎn)環(huán)境中使用 Databend 的用戶(hù),感謝他們一直以來(lái)的支持與陪伴。我們將繼續(xù)提供更有價(jià)值的服務(wù)。

Databend 在開(kāi)源社區(qū)

Databend 從第一天起就在 GitHub 上開(kāi)源,目前已經(jīng)成為 Rust 社區(qū)中的明星數(shù)據(jù)庫(kù)項(xiàng)目。我們與上下游社區(qū)緊密協(xié)作,共同建設(shè) Rust 大數(shù)據(jù)生態(tài)。Databend 目前的貢獻(xiàn)者中不乏大公司背景,比如 SAP、Yahoo、Fortinet、Shopee、Alibaba、Tencent、ByteDance、EMQ、快手,Databend 社區(qū)正在被頂級(jí)需求、頂級(jí)場(chǎng)景驅(qū)動(dòng)。

體驗(yàn) Databend

最后,歡迎大家體驗(yàn) Databend 產(chǎn)品與生態(tài),與我們共同建設(shè)堅(jiān)實(shí)可靠的大數(shù)據(jù)基礎(chǔ)設(shè)施。

  • 本地部署可以嘗試我們的社區(qū)版本,官網(wǎng)地址是:https://databend.rs 。

  • 同時(shí),也歡迎訪(fǎng)問(wèn) Serverless Cloud 體驗(yàn) Databend 在云上的澎湃動(dòng)力:

    • 海外(AWS / GCP):https://app.databend.com

    • 國(guó)內(nèi)(阿里云 / 騰訊云 / 華為云):https://app.databend.cn

點(diǎn)擊 https://github.com/3306pai/3306Pai-presentations/blob/main/3306Pai-2023/3306%CF%80-%E5%8C%97%E4%BA%AC%E7%AB%99-20230916/05-Serverless-Databend-Warehouse-%E5%BC%A0%E9%9B%81%E9%A3%9E-3306%CF%80.pdf ,即可獲取演講 PPT 。


【活動(dòng)回顧】Serverless 數(shù)倉(cāng)技術(shù)與挑戰(zhàn)(內(nèi)含 PPT 下載)的評(píng)論 (共 條)

使用qq登录你需要登录后才可以评论。
玉林市| 贵港市| 永仁县| 曲阳县| 长丰县| 昭通市| 汨罗市| 尚志市| 海盐县| 宜宾市| 冷水江市| 富锦市| 大悟县| 阳信县| 四川省| 遂昌县| 沧州市| 新乐市| 黔江区| 广昌县| 涿鹿县| 巴彦淖尔市| 德钦县| SHOW| 甘南县| 青田县| 兴和县| 久治县| 株洲县| 常山县| 葫芦岛市| 赫章县| 罗江县| 沅陵县| 吴桥县| 沙湾县| 秦皇岛市| 五莲县| 岢岚县| 沁阳市| 于田县|