偶數(shù)科技:深入理解“湖倉一體”,避免錯過最佳轉(zhuǎn)型戰(zhàn)略時機
本月,阿里云在北京舉辦了 “2022 年阿里云數(shù)據(jù)存儲生態(tài)發(fā)布會”,偶數(shù)科技作為目前國內(nèi)云原生數(shù)據(jù)倉庫技術(shù)領(lǐng)域的開拓者受邀參加了本次大會。
偶數(shù)科技首席架構(gòu)師陶征霖作為演講嘉賓,在會上與行技術(shù)仁共同回顧了分析型數(shù)據(jù)庫的演進歷程,以及目前偶數(shù)科技在湖倉一體方面的前沿理念和實踐。
隨著企業(yè)數(shù)字化轉(zhuǎn)型進入深水區(qū),越來越多的企業(yè)視“湖倉一體”為數(shù)字變革的重要契機,如今湖倉一體受到前所未有的關(guān)注。在Gartner 2021年度數(shù)據(jù)管理領(lǐng)域的成熟度模型報告"Hype Cycle"中,"湖倉一體"(Lakehouse)與Edge Data Management、Intercloud Data Management、Active Metadata等新興技術(shù)一起,成為了首次進入成熟度模型的五個新軍之一。
然而,關(guān)注度越高意味著嘈雜聲也會越多。對“湖倉一體”的錯誤理解,也會將轉(zhuǎn)型中的企業(yè)引入更加復(fù)雜的數(shù)據(jù)孤島局面,盡管這些錯誤理解最終會得被市場淘汰,但從現(xiàn)實而言可能會造成企業(yè)成本上升,甚至?xí)e過數(shù)字化轉(zhuǎn)型的戰(zhàn)略時機。
對此,陶征霖在會上重點介紹了湖倉一體 ANCHOR 六大特性:實時 T+0、一份數(shù)據(jù)、超高并發(fā)、數(shù)據(jù)一致性、云原生、多類型數(shù)據(jù)支持。通過 OushuDB 最新版本和架構(gòu)的加持,偶數(shù)湖倉一體方案將在云設(shè)施上幫助客戶發(fā)揮數(shù)據(jù)價值。
為什么“湖”+“倉”的分體模式不是最佳選擇
隨著近年來Hadoop 大數(shù)據(jù)平臺建設(shè)逐步推廣,企業(yè)開始嘗試將 Hadoop 用于一些非核心場景,但 Hadoop 性能和并發(fā)支持有限,而且事務(wù)支持弱,交付、運維成本高,無法替代核心數(shù)倉,基本只能作為“數(shù)據(jù)湖”。為了滿足用戶在性能、事務(wù)等方面的要求,很多企業(yè)開始考慮數(shù)據(jù)湖和數(shù)據(jù)倉庫互補的方式。在構(gòu)建數(shù)據(jù)湖的同時,也使用MPP,湖倉各自獨立部署,數(shù)據(jù)通過ETL的方式打通。
這就是業(yè)內(nèi)常說的 Hadoop+MPP 的"湖倉分體"模式。
盡管這種模式能夠讓湖和倉有很好的技術(shù)特性互補,但同時它也會產(chǎn)生經(jīng)常讓企業(yè)感到困惑的嚴(yán)重問題,包括:
- 分體模式下的湖和倉各自形成數(shù)據(jù)孤島;
- Hadoop 和 MPP 集群規(guī)模擴展能力受限;
- Hadoop 和 MPP 需要拆成多個集群,同一份數(shù)據(jù)在多個集群冗余存儲;
- 多份數(shù)據(jù)增加維護成本,數(shù)據(jù)一致性難保障;
- 在面對高并發(fā)數(shù)據(jù)查詢時,易造成業(yè)務(wù)應(yīng)用崩潰;
- T+1甚至更長的處理周期,不能滿足業(yè)務(wù)的實時決策;
- 建模路徑冗長、非結(jié)構(gòu)化數(shù)據(jù)無法整合;
- 湖+倉異構(gòu)分體帶來復(fù)雜的實施和運維問題。
這些常見的狀況更讓從業(yè)者頭疼不已。要解決這些問題,必須實現(xiàn)數(shù)據(jù)和查詢層面形成一體化架構(gòu),徹底擺脫大數(shù)據(jù)平臺遇到的這些瓶頸,這樣可以大大降低 IT 運維成本和數(shù)據(jù)管理的技術(shù)門檻。
OushuDB存算分離的湖倉一體模式有何不同
那么,基于OushuDB存算分離的湖倉一體模式與Hadoop+MPP 的"湖倉分體"模式有何不同呢?
偶數(shù)科技研發(fā)的全球最快的新一代分析型數(shù)據(jù)庫引擎OushuDB創(chuàng)新性的采用了存算分離的云原生架構(gòu)。作為一個嶄新的數(shù)據(jù)平臺架構(gòu),存算分離架構(gòu)可以保證存儲和計算可以獨立的彈性擴展和伸縮。
而傳統(tǒng) MPP 和 Hadoop 都不適應(yīng)這樣的要求:
- MPP 數(shù)據(jù)庫存算耦合;
- Hadoop 必須通過計算和存儲部署在同一物理集群拉近計算與數(shù)據(jù)的距離,僅在同一集群下構(gòu)成邏輯存算分離。
另外,為了同時滿足實時流處理、實時按需分析和離線分析需求,偶數(shù)科技獨創(chuàng)性的探索出了Omega全實時數(shù)據(jù)處理架構(gòu),相比于傳統(tǒng)的Kappa架構(gòu)、Lambda架構(gòu)優(yōu)勢明顯。
可以說,OushuDB基本解決了"湖倉分體"的技術(shù)瓶頸,技術(shù)優(yōu)勢相當(dāng)顯眼:
- OushuDB突破了傳統(tǒng)MPP和Hadoop的局限,將計算和存儲部署在不同的物理集群中,使得計算和存儲資源可以獨立的彈性伸縮;
- 通過構(gòu)建虛擬計算集群,OushuDB可以在數(shù)十萬節(jié)點的超大規(guī)模集群上滿足高并發(fā)需求,形成了統(tǒng)一的數(shù)據(jù)體系,不僅使得湖倉更適應(yīng)云環(huán)境,還降低了用戶的成本;
- 通過支持分布式表存儲Magma,OushuDB的計算引擎便于實現(xiàn)快照視圖,能夠高效實現(xiàn)實時查詢需求,從而在性能和事務(wù)方面的支持更加完善。
- Omega架構(gòu)通過流處理系統(tǒng)WASP實現(xiàn)實時連續(xù)的流處理或批流一提處理,并通過存儲于實時數(shù)倉的快照視圖完成實時查詢,從而解決了傳統(tǒng)Kappa架構(gòu)落地困難、Lambda架構(gòu)難以保證數(shù)據(jù)一致性的問題,并極大簡化了數(shù)據(jù)架構(gòu)。
湖倉選型,ANCHOR先行
偶數(shù)科技認(rèn)為,要真正的解決業(yè)務(wù)的痛點,選擇企業(yè)適合的湖倉產(chǎn)品,我們可以按照前面提到的ANCHOR 標(biāo)準(zhǔn)來選型。ANCHOR 的6個首字母分別代表六大特性:
- 實時 T+0(Real-Time):通過全量數(shù)據(jù) T+0 的流處理和實時按需查詢,滿足基于數(shù)據(jù)的事前預(yù)測、事中判斷和事后分析。
- 一份數(shù)據(jù)(One Copy of Data):所有用戶(BI 用戶、數(shù)據(jù)科學(xué)家等)可以共享同一份數(shù)據(jù),避免數(shù)據(jù)孤島。
- 超高并發(fā)(High Concurrency):支持?jǐn)?shù)十萬用戶使用復(fù)雜分析查詢并發(fā)訪問同一份數(shù)據(jù)。
- 數(shù)據(jù)一致性(Consistency):通過完善的事務(wù)機制,保障不同用戶同時查詢和更新同一份數(shù)據(jù)時的一致性。
- 云原生(Native on Cloud):適合云環(huán)境,自由增減計算和存儲資源,按用量計費,節(jié)約成本。
- 支持多類型數(shù)據(jù)(All Data Types, Structured & Unstructured):支持關(guān)系表、文本、圖像、視頻等結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲。
行業(yè)的認(rèn)可與偶數(shù)的持續(xù)突破創(chuàng)新
自偶數(shù)科技誕生以來,偶數(shù)科技的產(chǎn)品和解決方案也已在非銀金融、電信、政府、能源、制造和互聯(lián)網(wǎng)等行業(yè)中被廣泛的部署和應(yīng)用,幫助多個行業(yè)中的企業(yè)小步快跑,進行數(shù)智化轉(zhuǎn)型。同時,作為在數(shù)據(jù)庫領(lǐng)域的領(lǐng)先創(chuàng)業(yè),其商業(yè)模式的可行性與成長性也得到了資本的認(rèn)可,連續(xù)獲得了國內(nèi)頂級投資機構(gòu)紅杉中國、騰訊、紅點中國與金山云的四輪投資。
在大數(shù)據(jù)的常見客戶行業(yè)中,銀行業(yè)是對應(yīng)用的自主可控、高可用、高可靠性的要求最高的領(lǐng)域之一,偶數(shù)科技解決方案在銀行業(yè)的落地正是其技術(shù)實力和對用戶痛點理解力的明證。早在2020年,偶數(shù)科技就與建設(shè)銀行成立了高性能大數(shù)據(jù)聯(lián)合實驗室,共同探索湖倉一體化的實施路徑。經(jīng)過持續(xù)的技術(shù)探討與應(yīng)用驗證,二者合作開發(fā)的基于云原生數(shù)據(jù)庫技術(shù)的全實時湖倉一體方案,采用了一套技術(shù)棧、統(tǒng)一存儲進行湖倉雙重能力建設(shè),已具備極速性能、彈性伸縮、計算資源按需分配、全量數(shù)據(jù)單一存儲、無須頻繁導(dǎo)數(shù)、混合負(fù)載等相關(guān)能力,能夠充分建設(shè)銀行及其客戶的實時應(yīng)用場景,幫助建行提升了實時需求響應(yīng)性能、增強了系統(tǒng)彈性,同時節(jié)約運維成本。
近期,偶數(shù)科技正式入選國家級專精特新(專業(yè)化、精細(xì)化、特色化、新穎化)“小巨人”企業(yè)名單。作為助力國家突破關(guān)鍵技術(shù)領(lǐng)域“卡脖子”難題的初創(chuàng)企業(yè),偶數(shù)科技在數(shù)據(jù)庫國產(chǎn)化、技術(shù)自主安全上的努力正在被逐步驗證、得到國家層面的肯定。
隨著未來物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)的逐步建立,大數(shù)據(jù)領(lǐng)域?qū)⒚媾R越來越廣的數(shù)據(jù)來源、越來越大的數(shù)據(jù)量、越來越多的非結(jié)構(gòu)化數(shù)據(jù)、越來越豐富的應(yīng)用場景和越來越復(fù)雜的技術(shù)棧,大數(shù)據(jù)處理和分析的難度將進一步提升。從上世紀(jì)60年代的數(shù)據(jù)庫,到數(shù)據(jù)倉庫、數(shù)據(jù)湖,到現(xiàn)在的湖倉一體,新產(chǎn)品總是在性能、功能上去解決以前從業(yè)者在業(yè)務(wù)上的痛點,我們可以說湖倉一體是數(shù)據(jù)庫發(fā)展到云原生時代的必然產(chǎn)物。
通過虛擬計算集群技術(shù)在數(shù)十萬節(jié)點的超大規(guī)模集群上實現(xiàn)高并發(fā),保障事務(wù)支持,提供實時能力,一份數(shù)據(jù)再無數(shù)據(jù)孤島,新一代湖倉一體架構(gòu)將是未來的發(fā)展趨勢。偶數(shù)科技作為湖倉一體化領(lǐng)域的領(lǐng)導(dǎo)者,也將持續(xù)優(yōu)化技術(shù),為用戶帶來更高性能、更穩(wěn)健的解決方案,支撐更多行業(yè)用戶將數(shù)據(jù)轉(zhuǎn)化為生產(chǎn)力。