最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

《科技觀察》124:定義下一代云原生實時數(shù)倉,SelectDB Cloud“打了個樣”

2022-12-12 18:20 作者:申斯基  | 我要投稿

2020年,國家在《關于構建更加完善的要素市場化配置體制機制的意見》中,首次將數(shù)據(jù)與土地、資本、勞動力并列為關鍵生產(chǎn)要素,并提出加快培育數(shù)據(jù)要素市場的愿景,此舉可謂意義重大。

背后的原因是,當下中國企業(yè)正在加速從數(shù)字化走向智能化,對數(shù)據(jù)的應用也提升到了一個全新的高度。例如,企業(yè)對數(shù)據(jù)的即時分析、按需分析、即時部署變得更加的強烈;同時,隨著數(shù)據(jù)的廣泛流動,企業(yè)為了管理好這些數(shù)據(jù),其數(shù)據(jù)基礎設施也必須要橫跨邊緣端、私有云、公有云和混合云等環(huán)境。

事實上,Gartner在2020數(shù)據(jù)和分析技術十大趨勢中就預測,到2022年,公有云服務將會成為90%的數(shù)據(jù)分析的基石,這也表明了一種新的趨勢,即越來越多的數(shù)據(jù)分析服務會遷移到云上;與此同時,數(shù)據(jù)分析技術也開始從傳統(tǒng)湖倉并存方案逐漸轉(zhuǎn)向“云原生”數(shù)倉——數(shù)據(jù)倉庫結合云的軟硬件創(chuàng)新、資源彈性、安全可靠、隨需而用等云原生特色,從根本上能帶給用戶極致性價比和極簡使用體驗。從最初的 Snowflake, Redshift,到如今云原生數(shù)倉市場百花齊放,國內(nèi)也涌現(xiàn)出越來越多創(chuàng)新、獨立的數(shù)倉廠商。

12月8日,北京飛輪數(shù)據(jù)科技有限公司(以下簡稱 SelectDB ),宣布推出云上數(shù)據(jù)倉庫產(chǎn)品 SelectDB Cloud ,這是一款性能強大、運維簡便、性價比高的多云一致全托管SaaS化的云數(shù)倉產(chǎn)品,一經(jīng)發(fā)布就引起了業(yè)界的高度關注。

究其原因,在于當前中國以數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化為核心的數(shù)字經(jīng)濟步伐正在全面加速,因此無論是數(shù)字經(jīng)濟的發(fā)展還是千行百業(yè)的數(shù)字化轉(zhuǎn)型都會產(chǎn)生海量的數(shù)據(jù),而這些數(shù)據(jù)唯有運行在全新的數(shù)據(jù)分析基礎設施中才能產(chǎn)生更大的價值。

從這個角度來說,SelectDB Cloud 的出現(xiàn),不僅為新一代云原生實時數(shù)倉的迭代演進“打了個樣”,同時也為數(shù)據(jù)生產(chǎn)要素的價值釋放貢獻了源自中國的技術創(chuàng)新力量,相信將會為千行百業(yè)的數(shù)字化轉(zhuǎn)型提供更大的驅(qū)動力。

云原生數(shù)倉時代未來已來

1991年,有著“數(shù)據(jù)倉庫之父”稱號的比爾·恩門(Bill Inmon)出版了他的第一本關于數(shù)據(jù)倉庫的著作《Building the Data Warehouse》,標志著數(shù)據(jù)倉庫概念的正式確立,而歷經(jīng)三十多年的發(fā)展,數(shù)據(jù)倉庫大概經(jīng)歷了三個階段的發(fā)展。

從早期諸如 Teradata、Greenplum 為代表傳統(tǒng)數(shù)倉時代,到后來離線存儲計算平臺(Hadoop、Hive、Spark、Flink)和實時數(shù)倉技術(Druid、Clickhouse、Doris)與平臺同時涌現(xiàn)的湖倉并存時代,技術在發(fā)展的浪潮下快速迭代,以云原生數(shù)倉為中心的現(xiàn)代數(shù)據(jù)棧時代已然到來。

云原生實時數(shù)據(jù)倉庫成為今天企業(yè)數(shù)字化基礎設施中的關鍵“底座”。背后的核心的原因在于,這個階段企業(yè)實時數(shù)據(jù)分析的需求變得越來越迫切,特別是金融、電信等行業(yè),由于日常需要處理大量人工智能、機器學習以及海量的結構化或者非結構化的數(shù)據(jù)實時分析等業(yè)務,而傳統(tǒng)的數(shù)據(jù)倉庫乃至“數(shù)據(jù)湖”技術等都難以滿足這些需求,其挑戰(zhàn)主要體現(xiàn)在以下幾個方面:

一是復雜性高,主要表現(xiàn)在傳統(tǒng)的數(shù)據(jù)倉庫使用上復雜性高,軟件維護以及業(yè)務系統(tǒng)的維護的復雜性也很高;二是靈活性差,過去的數(shù)據(jù)倉庫技術并不能很好地滿足今天越來越多樣化的分析數(shù)據(jù)類型與分析工作負載,對半結構化和非結構化的數(shù)據(jù)也無法提供原生的高效支持,此外也沒有針對數(shù)據(jù)科學,機器學習等深度分析場景的優(yōu)化;三是性價比低,隨著新硬件特別是閃存技術的發(fā)展,以及數(shù)據(jù)倉庫部署模式的多樣化,都意味著存算分離,彈性使用正在變成企業(yè)的剛需,這也讓過去數(shù)據(jù)倉庫的付費模式變得性價比越來越低;四是開放性弱,隨時開源開放時代的到來,越來越多的企業(yè)也期待市場上有第三方廠商推出多云中立的、統(tǒng)一結構和體驗的、開源開放的云數(shù)倉產(chǎn)品,由此才能更好地滿足企業(yè)日益增長的實時數(shù)據(jù)分析的訴求。

換句話說,云和云原生技術正在全面重塑數(shù)據(jù)分析技術和平臺,其所具備的資源彈性、安全可靠、隨需而用等特點,為新一代云原生實時數(shù)倉的誕生奠定了關鍵的基礎,而 SelectDB Cloud 也由此“應運而生”,它的出現(xiàn)能夠很好的解決上述中傳統(tǒng)數(shù)據(jù)分析技術出現(xiàn)的復雜性高、靈活性差、性價比低的一系列問題。

SelectDB Cloud 是 SelectDB 基于Apache Doris構建的新一代云原生實時數(shù)倉,它曾在近期由ClickHouse發(fā)起的分析型數(shù)據(jù)庫性能測試排行榜ClickBench中 強勢登頂,性能表現(xiàn)超越一眾國內(nèi)外產(chǎn)品。

SelectDB 強勢登頂并不是“一蹴而就”的,早在2017年,Apache Doris的前身正式開源后,便一直在通過社區(qū)的反饋和案例實踐優(yōu)化得更加成熟可用。2022年1月,作為 Apache Doris 的商業(yè)化公司, SelectDB正式成立;今年4月,SelectDB 完成天使輪和天使+輪融資,由 IDG 資本、紅杉中國等頂級 VC 投資,融資金額超過 3 億元人民幣;而歷經(jīng)一年的技術迭代和場景實踐的“打磨”,SelectDB 又正式發(fā)布了面向企業(yè)級市場的開箱即用和多云一致的商業(yè)版本——SelectDB Cloud。

截止目前,SelectDB Cloud 已成功上線阿里云、騰訊云、華為云、亞馬遜云科技等主流云平臺之上,成為了國內(nèi)首家真正實現(xiàn)多云中立的云數(shù)倉,通過各大云廠商提供一致性的數(shù)據(jù)分析服務,真正做到了讓即時大數(shù)據(jù)分析的體驗“觸手可及”,也引領了新一代云原生實時數(shù)倉的技術創(chuàng)新范式。

定義下一代云原生實時數(shù)倉

對此,SelectDB CEO 連林江表示,作為一款構建在多家云上、完全托管 SaaS 化的企業(yè)級云原生數(shù)倉產(chǎn)品,SelectDB Cloud具有極致性價比、融合統(tǒng)一、簡單易用、企業(yè)特性和開源開放等特點,具體來看:

首先,極致性價比方面,主要體現(xiàn)在性能和成本兩個維度,其中性能表現(xiàn)方面,以寬表聚合為例,在 SelectDB Cloud 上選擇 3 臺 medium 套餐(即單節(jié)點 16 core vcpu,64G 內(nèi) 存),同時選擇了各種主流的云數(shù)倉和開源數(shù)倉,在相同資源配置的套餐上進行測試。

數(shù)據(jù)顯示, SelectDB Cloud 在寬表的性能遙遙領先,大概是性能最好友商的 3.4 倍 (clickhouse),是性能最差友商的 92 倍(presto),是業(yè)界標桿產(chǎn)品 snowflake 的 6 倍。

在多表關聯(lián)場景下,在同樣 3 臺 medium 集群下的 tpch sf100 測試中,SelectDB cloud 的性能是友商的1.5 倍(redshift)到 49 倍 (clickhouse),是業(yè)界主流友商 snowflake 的 2.5 倍。

筆者了解到,雖然僅僅成立一年,但 SelectDB 已經(jīng)通過它極致的性能,為遍布金融、物流、互聯(lián)網(wǎng)等多個行業(yè)的公司在整體數(shù)字化轉(zhuǎn)型的過程中帶來的明顯的效果提升。

在成本降低方面,SelectDB Cloud基于云原生的存儲分離架構打造,使得成本低至自有部署成本的 1/2—1/5,關鍵在于其實現(xiàn)了本地磁盤緩存和對象存儲的分層分級存儲引擎,不同層級的存儲成本帶來綜合成本大幅下降;此外,通過充分利用計算節(jié)點的分離和彈性,也使得計算資源根據(jù)業(yè)務的波峰波谷特點隨需彈性擴縮容,由此實現(xiàn)了成本的大幅度降低。

其次,在融合統(tǒng)一方面,SelectDB Cloud實現(xiàn)了在一個系統(tǒng)中滿足多種工作負載的需求,包含實時報表分析,adhoc 分析,批量數(shù)據(jù)處理,湖倉加速聯(lián)邦查詢;同時,不僅支持結構化數(shù)據(jù)分分析,也原生高效支持半結構化數(shù)據(jù)的存儲和分析。 此外,借助存算分離的架構,存儲共享一份,不需要冗余的存儲;在此基礎上,計算資源不同的工作負載也可以采用不同的cluster(集群),也做到真正的負載的隔離。

除了實時報表、adhoc分析等傳統(tǒng)OLAP場景外,也支持批量數(shù)據(jù)處理(ETL/ELT): 在云上使用單獨etl集聚做隔離場景下且都使用相同資源的測試下,基于 SelectDB Cloud 的性能是 hive 的 54 倍,是spark 的 12 倍,某云數(shù)倉的 8.4 倍。

同樣,SelectDB Cloud也原生支持半結構化數(shù)據(jù)的表達存儲和檢索分析,降低了系統(tǒng)的復雜,帶來了成本和性能的明顯收益。數(shù)據(jù)顯示,SelectDB Cloud 在日志存儲分析典型場景下,相比傳統(tǒng)的 ElasticSearch 的方案,能夠達到 4.2 倍寫入性能提升,占用 1/5 的磁盤空間,達到 2.3 倍的查詢性能提升。

與此同時,SelectDB Cloud還能對已經(jīng)建設的離線數(shù)倉和數(shù)據(jù)湖進行聯(lián)邦查詢,在實現(xiàn)高性能的同時,不需要遷移歷史數(shù)據(jù)。

最后,在簡單易用方面,SelectDB Cloud也大大降低了使用門檻,提升了人員效率。比如,SelectDB Cloud 支持 MySQL協(xié)議,這樣MySQL 的數(shù)據(jù)通過 binlog 這種 CDC 機制導入到 SelectDB 的時候,兼容性也會表現(xiàn)得更好。另外,支持MySQL的可視化的數(shù)據(jù)庫管理工具和可視化 BI軟件等,都可以方便快捷的連接到SelectDB。

SelectDB Cloud還提供了豐富易用的多種數(shù)據(jù)導入方式,包括HTTP Load,主要是適合數(shù)據(jù)量比較少,比如 GB 以下的數(shù)據(jù),可以做到秒級數(shù)據(jù)導入;Stage Load,適合數(shù)據(jù)量比較大的批量數(shù)據(jù)導入;Connector,則可以為周邊的大數(shù)據(jù)生態(tài)工具(flink,spark,kafka)提供了相應的數(shù)據(jù)導入插件。

為了讓用戶擁有更好的使用體驗,SelectDB Cloud 也提供可視化控制臺,可以幫助企業(yè)完成對倉庫、集群的創(chuàng)建、伸縮、升級等;同時借助web上的 SQL 查詢編輯器,也能夠代替 SQL 完成很多的管理。

此外,SelectDB Cloud還為企業(yè)關注的數(shù)據(jù)安全性提供了一系列企業(yè)特性支持;而在開源開放方面,SelectDB Cloud基于 Apache Doris 研發(fā),系統(tǒng)開放,與開源 Doris 高度兼容;同時還具有多云中立的特色,支持企業(yè)在多云環(huán)境下的部署等,可以說SelectDB Cloud真正以高性能低成本,融合統(tǒng)一、簡單易用等優(yōu)勢,讓企業(yè)在多云時代下的云原生實時數(shù)倉應用變得“事半功倍”。

四大場景創(chuàng)新釋放新價值

值得一提的是,作為全新數(shù)據(jù)分析基礎設施,SelectDB Cloud針對任何工作負載,在任何應用場景中也能體現(xiàn)出獨特的競爭優(yōu)勢,由此能夠更好地幫助企業(yè)加速數(shù)字化轉(zhuǎn)型。

第一,是企業(yè)內(nèi)部的數(shù)據(jù)平臺,這是SelectDB 的主要應用場景。同樣,它也是傳統(tǒng)數(shù)倉時代、湖倉并行的大數(shù)據(jù)平臺時代的主要應用場景??梢钥吹?,目前企業(yè)內(nèi)常用的數(shù)據(jù)平臺往往都有如下的“痛點”,包括復雜性高、性價比低以及實時性差,此外傳統(tǒng)的數(shù)倉平臺“開放性”也不夠,往往只能運行在自己的云上,而現(xiàn)在多云、混合云已成為企業(yè)普遍采用的云架構,因此開源開放也是不少企業(yè)的一大訴求。

針對此,SelectDB Cloud能夠把數(shù)據(jù)倉庫和數(shù)據(jù)湖“統(tǒng)一”到單一的平臺上,提供面向企業(yè)內(nèi)部的 BI 報表和 Adhoc 分析,以及批量和增量 ETL 數(shù)據(jù)處理,由此帶來的好處是,企業(yè)內(nèi)部的數(shù)據(jù)平臺的復雜性降低了,并且云數(shù)倉提供的是云服務模式,不需要客戶自己運行和維護,由此使用成本和管理成本都得到了下降;SelectDB Cloud的優(yōu)勢還不止于此,由于采用新型的 ELT 數(shù)據(jù)集成,企業(yè)也可以利用SelectDB的世界領先性能,給整個平臺的實時性帶來“質(zhì)”的提升,在加上SelectDB的多云可用能力,也能讓企業(yè)可以和開源系統(tǒng)的數(shù)據(jù)之間實現(xiàn)“自由遷移”,成為一個真正開放的系統(tǒng),不用再擔心被鎖定的問題。

第二,客戶的報表和分析也是數(shù)倉的主要應用場景,這類場景的應用特點主要體現(xiàn)在以下幾個方面,即高并發(fā)、低延時;數(shù)據(jù)流延時低;數(shù)據(jù)要求不丟不重;需要支持數(shù)據(jù)更新等。

針對這些需求,基于SelectDB Cloud的方案也能夠有效解決這些問題,如SelectDB Cloud 針對報表場景能夠達到上萬并發(fā);支持毫秒級別響應;針對數(shù)據(jù)流延時低的訴求,SelectDB的數(shù)據(jù)可見性可以做到秒級響應級別;SelectDB Cloud基于云的對象存儲做數(shù)據(jù)持久化,也能夠保證了數(shù)據(jù)可靠,不丟不重;同時能夠以小批量的形式便捷更新數(shù)據(jù)。在具體的業(yè)務實踐中,數(shù)據(jù)顯示,基于 SelectDB Cloud 的方案,在廣告業(yè)務場景下,就實現(xiàn)了上萬 QPS 的高并發(fā),查詢延時 99 分位 200ms 以內(nèi),每天支持新增數(shù)十億條記錄。

第三,行為分析和用戶畫像場景中,當前用戶面臨的挑戰(zhàn)更大,這類場景目前呈現(xiàn)出三個特點,包括表結構持續(xù)快速變更;行為分析十分復雜且查詢的延遲要求比較低?;诖?,SelectDB Cloud做了進一步的分層數(shù)據(jù)的處理創(chuàng)新,如針對上游不同的數(shù)據(jù)源,熱數(shù)據(jù)支持同步到 SelectDB 中做實時行為分析,冷數(shù)據(jù)同步到數(shù)據(jù)湖中做低成本數(shù)據(jù)存儲及數(shù)據(jù)挖掘;在數(shù)據(jù)存儲層,SelectDB可通過行為數(shù)據(jù)抽取出標簽數(shù)據(jù)分層存儲;在查詢應用層,基于不同的業(yè)務,SelectDB 也提供了豐富的漏斗,留存、路徑及數(shù)組分析函數(shù),實現(xiàn)精確去重和留存分析的業(yè)務查詢;在數(shù)據(jù)管理層,SelectDB 還可以維護高性能表結構變更及寬表部分列更新操作等。

在具體的應用實踐中,通過MPP框架向量化執(zhí)行引擎以及分析函數(shù)這些特性的加持,SelectDB Cloud的行為分析在3000億活躍數(shù)據(jù)的場景下,平均延遲小于 10s,P95 延遲在 20s 左右;同時,SelectDB 通過特色的高表正交位圖來實現(xiàn)秒級圈人,也可以做到千億數(shù)據(jù)、10個標簽秒級人群預估和圈選,100個標簽10秒級。

最后,日志存儲和分析場景中,日志對于保障系統(tǒng)、業(yè)務穩(wěn)定性至關重要,隨著企業(yè)業(yè)務的不斷增加,日志存儲和分析也出現(xiàn)了新的挑戰(zhàn),包括數(shù)據(jù)寫入吞吐量大,還要實時可見;數(shù)據(jù)量大,還要成本低;交互式查詢速度快,且需要支持半結構化、非結構化文本檢索、按時間排序等。為此,SelectDB Cloud也針對數(shù)據(jù)寫入進行了大量優(yōu)化,比如為了降低客戶端復雜度,SelectDB Cloud在客戶端支持實時小批量寫入,在服務端內(nèi)存“攢批”,達到內(nèi)存或者時間閾值后寫入文件,可以避免大量小文件寫入降低吞吐,又能做到秒級實時可見;針對日志數(shù)據(jù)大致按時間有序的特點,SelectDB Cloud將相鄰時間的小文件合并成大文件,降低系統(tǒng)資源消耗,提升整體吞吐;同時,SelectDB Cloud數(shù)據(jù)和索引也都采用列式存儲,用于全文檢索的倒排索引采用向量化實現(xiàn)加速。

數(shù)據(jù)顯示,SelectDB Cloud 方案的綜合能力表現(xiàn)十分優(yōu)異,相比傳統(tǒng)的方案能夠達到4.2倍的寫入性能提升,只占用1/5的磁盤空間,2.3倍的查詢性能提升。

從上述的應用場景中可以看到,云原生時代,大規(guī)模多樣性數(shù)據(jù)爆發(fā),加之對數(shù)據(jù)分析的復雜度也呈指數(shù)級上升,多重壓力下催生了數(shù)據(jù)處理底層技術深度變革,驅(qū)動云數(shù)倉行業(yè)的迅速創(chuàng)新發(fā)展。在此過程中,以SelectDB Cloud為代表的新一代云原生實時數(shù)倉,以其技術創(chuàng)新能力,針對應用場景的持續(xù)優(yōu)化和“多云中立”的獨特定位,可以說為企業(yè)的實時數(shù)據(jù)分析乃至數(shù)字化轉(zhuǎn)型提供了更好的選擇。

更為關鍵的是,SelectDB Cloud的正式發(fā)布,還標志著在云原生實時數(shù)倉領域,源自中國本土市場的公司在產(chǎn)品和技術的領先性,乃至在應用實踐和驗證方面也都走到了市場的前列,而這也讓中國的數(shù)據(jù)庫產(chǎn)業(yè)在世界范圍內(nèi)具有了更大的競爭力,相信未來更多的技術創(chuàng)新和更多的應用場景,也正等待著SelectDB去再次開拓和重新定義。


《科技觀察》124:定義下一代云原生實時數(shù)倉,SelectDB Cloud“打了個樣”的評論 (共 條)

分享到微博請遵守國家法律
嘉荫县| 大名县| 子长县| 依安县| 宁武县| 田林县| 辽宁省| 资源县| 漳州市| 东方市| 基隆市| 盐边县| 中方县| 阜城县| 邢台市| 绩溪县| 泸水县| 当雄县| 克什克腾旗| 梧州市| 乐亭县| 普格县| 永清县| 扬州市| 大宁县| 浙江省| 思南县| 奇台县| 治多县| 遂宁市| 富蕴县| 岳普湖县| 阳春市| 山阳县| 东至县| 揭西县| 元朗区| 肥东县| 新余市| 班戈县| 澜沧|