億信華辰:解析湖倉一體的支撐技術及實踐路徑
自2021年“湖倉一體”首次寫入Gartner數(shù)據(jù)管理領域成熟度模型報告以來,隨著企業(yè)數(shù)字化轉型的不斷深入,“湖倉一體”作為新型的技術受到了前所未有的關注,越來越多的企業(yè)視“湖倉一體”?為數(shù)字化轉型的重要基礎設施。
01數(shù)據(jù)平臺的發(fā)展歷程
需求催生技術革新,在存儲海量數(shù)據(jù)需求的推動下,數(shù)據(jù)平臺架構持續(xù)演進,經(jīng)過數(shù)十年的發(fā)展,主要經(jīng)歷了數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖三個階段。湖倉一體是數(shù)據(jù)平臺發(fā)展的重要趨勢。

第一階段:數(shù)據(jù)庫
誕生于20世紀60年代,主要用于OLTP場景。代表產(chǎn)品: Oracle、SQL Server、Mysql等
第二階段:數(shù)據(jù)倉庫
20世紀90年代代數(shù)據(jù)倉庫理論被提出,主要用OLAP場景分析。傳統(tǒng)數(shù)倉有Clickhouse、Greenplum等,云數(shù)倉有AWS redshift、Snowflake等。
第三階段:數(shù)據(jù)湖
2010年數(shù)據(jù)湖概念被提出,隨著三大開源數(shù)據(jù)湖技術的成熟,數(shù)據(jù)湖產(chǎn)品加速落地。代表產(chǎn)品有亞馬遜-S3、LakeForation,阿里云-數(shù)據(jù)湖構建DLF、數(shù)據(jù)開發(fā)治理Dataworks、對象存儲OSS、開源大數(shù)據(jù)平臺EMR等。
02數(shù)據(jù)湖、數(shù)據(jù)倉庫特性分析
數(shù)據(jù)倉庫主要用于解決單個關系型數(shù)據(jù)庫架構,無法支撐龐大數(shù)據(jù)量的數(shù)據(jù)存儲問題,很好地解決了TB到PB級別的數(shù)據(jù)處理問題,但是由于數(shù)據(jù)倉庫仍以結構化數(shù)據(jù)為主,無法解決業(yè)務增長帶來的半結構化、非結構化數(shù)據(jù)的存儲、處理問題,且其整個建設過程需要遵循一系列規(guī)范,比如標準化的數(shù)據(jù)集成模式和存儲格式、統(tǒng)一的數(shù)據(jù)倉庫分層分域模型以及指標體系建設等,帶來了數(shù)據(jù)倉庫建設存儲成本高、維護開發(fā)難度大、擴展能力受限制等問題。?
數(shù)據(jù)湖的出現(xiàn)很好解決了數(shù)據(jù)倉庫建設存在的一系列問題,將數(shù)據(jù)管理的流程簡化為數(shù)據(jù)入湖和數(shù)據(jù)分析兩個階段。數(shù)據(jù)湖支持各種?類型數(shù)據(jù)的統(tǒng)一存儲。數(shù)據(jù)分析則以讀取型(schema on read)形式,極大提升分析效率。然而數(shù)據(jù)湖對多樣類型數(shù)據(jù)的支持以及靈活高效的?分析方式,帶來了數(shù)據(jù)治理難的問題,比如因為缺乏治理導致數(shù)據(jù)質(zhì)量下降、數(shù)據(jù)不可用等,很容易退化形成數(shù)據(jù)沼澤。?
結論:數(shù)據(jù)倉庫和數(shù)據(jù)湖是兩套相對獨立的體系,各有優(yōu)劣勢,無法相互替代。

03湖+倉混合業(yè)務架構
為滿足存儲多種數(shù)據(jù)類型、多場景分析等業(yè)務訴求,企業(yè)采用混合部署模式,數(shù)據(jù)湖、數(shù)據(jù)倉庫、關系型數(shù)據(jù)庫等多種架構并存,其中數(shù)據(jù)湖和數(shù)據(jù)倉庫通過ETL進行數(shù)據(jù)交換。
數(shù)據(jù)湖和數(shù)據(jù)倉庫是兩套獨立的體系,其中數(shù)據(jù)湖基于 Hadoop 技術生態(tài)?(HDFS、Spark、Flink 等技術)來實現(xiàn),主要用于支撐多源異構的數(shù)?據(jù)存儲,執(zhí)行批處理、流處理等工作負載。數(shù)據(jù)倉庫主要基于 MPP 或?者關系型數(shù)據(jù)庫來實現(xiàn),主要支撐結構化數(shù)據(jù)在 OLAP 場景下的 BI 分析和查詢需求。

“數(shù)據(jù)湖+數(shù)據(jù)倉庫”混合架構滿足了結構化、半結構化、非結構化數(shù)據(jù)高效處理需求,解決了傳統(tǒng)數(shù)據(jù)倉庫在海量數(shù)據(jù)下加載慢、數(shù)據(jù)查詢效率低、難以融合多種異構數(shù)據(jù)源進行分析的問題,但也存在明顯的四大弊端。一是數(shù)據(jù)冗余,增加存儲成本。二是兩個系統(tǒng)間額外的 ETL(抽取、轉化、加載)流程導致時效性差。三是數(shù)據(jù)一致性保障低,增加數(shù)據(jù)校驗成本。四是混合架構復雜,開發(fā)運維難度大、成本高。
04湖倉一體實踐路徑
“數(shù)據(jù)湖+數(shù)據(jù)倉庫”混合架構是技術向業(yè)務妥協(xié)的一個產(chǎn)物,并不是真正意義的湖倉一體平臺。2020年Databrics提出“湖倉一休”概念。湖倉一體是指融合數(shù)據(jù)湖與數(shù)據(jù)倉庫的優(yōu)勢,形成一體化、開放?式數(shù)據(jù)處理平臺的技術。通過湖倉一體技術,可使得數(shù)據(jù)處理平臺底?層支持多數(shù)據(jù)類型統(tǒng)一存儲,實現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫之間無縫?調(diào)度和管理,并使得上層通過統(tǒng)一接口進行訪問查詢和分析。具備的能力包括:
多模存儲:多樣數(shù)據(jù)統(tǒng)一存儲
架構統(tǒng)一:統(tǒng)一資源調(diào)度、存儲管理、計算引擎、查詢接口
性能優(yōu)越:數(shù)據(jù)加工鏈路縮短資源復用性增加、時效性提高
場景多元:多樣化業(yè)務場景和極致用戶體驗

總體來看,湖倉一體通過引入數(shù)據(jù)倉庫治理能力,既可以很好地解決數(shù)據(jù)湖建設的數(shù)據(jù)治理難問題,也能更好地挖掘數(shù)據(jù)湖中的數(shù)據(jù)價值,將高效建倉和靈活建湖兩大優(yōu)勢融合在一起,提升了數(shù)據(jù)管理效率和靈活性。
企業(yè)需求的驅(qū)動下,數(shù)據(jù)湖與數(shù)據(jù)倉庫在原本的范式之上向其限制范用擴展,逐漸形成了“湖上建倉”與“倉外掛湖”兩種湖倉一體實現(xiàn)路徑。湖上建倉和倉外掛湖雖然出發(fā)點不同,但最終湖倉一體的目標標一致。

湖上建倉定義:是指基于云存儲或第三方對象存儲的云數(shù)據(jù)湖架構,或者基于開源 Hadoop 生態(tài)體系并以 DeltaLake、Hudi、Iceberg 三大開?源數(shù)據(jù)湖作為數(shù)據(jù)存儲中間層實現(xiàn)多源異構數(shù)據(jù)的統(tǒng)一存儲,以統(tǒng)一調(diào)用接口方式調(diào)用計算引擎,最終實現(xiàn)上下結構的湖倉一體架構。原理:以數(shù)據(jù)湖為基石,在數(shù)據(jù)湖中引入數(shù)據(jù)倉庫的數(shù)據(jù)治理能力,實現(xiàn)數(shù)據(jù)湖到湖倉一體的進化。
實現(xiàn)方案:基于云存儲或第三方對象存儲的云數(shù)據(jù)湖架構,基于開源Hadoop生態(tài)體系擴展。
倉外掛湖定義:是指以 MPP 數(shù)據(jù)庫為基礎,使用可插拔架構,通過開放接口對接外部存儲實現(xiàn)統(tǒng)一存儲,在存儲底層共享一份數(shù)據(jù),計算、?存儲完全分離,實現(xiàn)從強管理到兼容開放存儲和多引擎。原理:以MPP數(shù)據(jù)庫為核心,使用可插拔架構,通過開放接口對接外部存儲實現(xiàn)統(tǒng)一存儲。
實現(xiàn)方案:基于云原生MPP數(shù)據(jù)庫構建。
05億信華辰湖倉一體解決方案
湖倉一體的核心是實現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫中的數(shù)據(jù)、元數(shù)據(jù)的無縫打通,并可自由流動。億信華辰結合多年的BI和數(shù)倉實施經(jīng)驗,綜合傳統(tǒng)數(shù)據(jù)倉庫和現(xiàn)代數(shù)據(jù)湖兩種技術特點,推出了倉湖一體解決方案。該建設方案涵蓋數(shù)據(jù)存儲、數(shù)據(jù)集成、數(shù)據(jù)交換、數(shù)據(jù)共享等多個方面,綜合數(shù)據(jù)湖、數(shù)據(jù)倉庫兩種技術演進方向,為企業(yè)用戶提供云原生倉湖一體解決方案,構建企業(yè)數(shù)字化新基座。

億信華辰倉湖一體數(shù)據(jù)中心定位于為企業(yè)提供易于部署、開發(fā)、運維的數(shù)據(jù)底座平臺,平臺提供的能力包括:數(shù)據(jù)的統(tǒng)一分類存儲,數(shù)據(jù)采集加工的流程自動化,可視化的數(shù)據(jù)開發(fā),提供多樣化的數(shù)據(jù)共享訪問標準接口等等。建設內(nèi)容包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)建模、數(shù)據(jù)交換四大方面。
湖倉一體行業(yè)正處在發(fā)展初期,總的來看湖倉一體并不是一個純技術攻關工作,而是技術逐步融合、整合的過程,其本質(zhì)是異構數(shù)據(jù)平臺走向一體化的過渡階段。億信華辰基于客戶需求和技術演進趨勢持續(xù)創(chuàng)新,為企業(yè)客戶提供倉湖一體解決方案,致力于構建企業(yè)數(shù)據(jù)資源共享池,讓企業(yè)業(yè)務的創(chuàng)新更敏捷,業(yè)務洞察更準確,加速釋放數(shù)據(jù)價值。
以上部分內(nèi)容引用CCSA?TC601《湖倉一體技術與產(chǎn)業(yè)研究報告》