人柱力和佩恩六道,誰(shuí)才是湖倉(cāng)一體的終極形態(tài)?
很多小伙伴一直搞不懂什么是湖倉(cāng)一體,查閱很多資料得到的都是基于不同廠商的產(chǎn)品和方案介紹,而非清晰的概念與行業(yè)共識(shí),所以筆者特別策劃了一篇湖倉(cāng)一體的比較分析,通過(guò)《火影忍者》中兩個(gè)重要角色的類比幫你瞬間搞懂湖倉(cāng)一體。
想必火影老粉對(duì)九尾人柱力和佩恩六道這兩個(gè)角色的印象應(yīng)該非常深刻,不過(guò)在此還是先給不熟悉火影的讀者快速科普下。
火影世界有九個(gè)巨型怪獸禍亂人間。為了世間和平,尾獸們被封印在了不同人類的體內(nèi)。人柱在日本文化中被視為一種蘊(yùn)藏神明力量的靈魂容器,人柱力即被尾獸附身的人,為封印尾獸而存在。人柱力可以通過(guò)馴服體內(nèi)的尾獸獲得巨大力量,人柱力與尾獸一榮俱榮,一損俱損。
佩恩六道是由六具死者尸體改造成的六個(gè)傀儡忍者,統(tǒng)稱為佩恩六道。每個(gè)佩恩的臉上和身體都插著能連接信號(hào)的黑棒形狀的查克拉接收器,六個(gè)佩恩能共享彼此的視野。佩恩六道的操縱者長(zhǎng)門通過(guò)背后插滿黑棒作為信號(hào)和查克拉接收器操控每個(gè)佩恩。
拋開(kāi)角色的性格和戰(zhàn)力,佩恩六道和人柱力最本質(zhì)的區(qū)別就是物理層面的身體隔離:佩恩六道是六個(gè)傀儡忍者的戰(zhàn)斗組合,而九尾人柱力是一個(gè)忍者肉身住了兩個(gè)靈魂。二者的差別像極了目前軟件行業(yè)上湖倉(cāng)分體和湖倉(cāng)一體概念的架構(gòu)差異。在分析型數(shù)據(jù)庫(kù)(OLAP)領(lǐng)域,曾先后出現(xiàn) MPP 和 Hadoop,MPP 數(shù)據(jù)庫(kù)主要用作數(shù)據(jù)倉(cāng)庫(kù),Hadoop 大數(shù)據(jù)平臺(tái)承擔(dān)起數(shù)據(jù)湖的職能。因此,隨著用戶對(duì)湖和倉(cāng)的要求不斷提高,自然會(huì)出現(xiàn)湖倉(cāng)協(xié)同的嘗試和探索,也就形成了 MPP+Hadoop 模式,我們稱之為湖倉(cāng)分體模式。湖倉(cāng)分體模式下的湖、倉(cāng)各自獨(dú)立部署,數(shù)據(jù)通過(guò) ETL 的方式打通。正如佩恩六道,每個(gè)傀儡忍者的肉身是獨(dú)立的,但視覺(jué)是共享的,由長(zhǎng)門通過(guò)查克拉接收器進(jìn)行整體操控。
通過(guò)佩恩六道形象的理解了湖倉(cāng)分體,九尾人柱力自然就成了湖倉(cāng)一體的最佳闡釋。湖倉(cāng)一體架構(gòu)下的湖和倉(cāng)是原生一體的,物理層面部署在同一集群,共享同一份數(shù)據(jù),沒(méi)有數(shù)據(jù)冗余。正如九尾妖狐封印在鳴人(人柱力)體內(nèi),肉身層面天然一體,不可分割。
將九尾人柱力比作湖倉(cāng)一體,將佩恩六道比作湖倉(cāng)分體,并不意味著湖倉(cāng)一體和湖倉(cāng)分體的“戰(zhàn)力”也如漫畫原著一樣存在爭(zhēng)議。湖倉(cāng)一體與湖倉(cāng)分體不僅在架構(gòu)層面有著差異,架構(gòu)設(shè)計(jì)理念對(duì)企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的影響也是巨大的。湖倉(cāng)分體模式,也就是 MPP+Hadoop 模式的最大問(wèn)題和特點(diǎn)就是數(shù)據(jù)孤島,造成數(shù)據(jù)孤島的原因有幾個(gè)方面:1、技術(shù)架構(gòu)原生造成的數(shù)據(jù)孤島

湖倉(cāng)分體方案基本上是以湖、倉(cāng)和其他組件構(gòu)成,邏輯上為用戶提供統(tǒng)一的數(shù)據(jù)管理,但物理層面湖和倉(cāng)仍然是分離的,同一份數(shù)據(jù)在多個(gè)集群冗余存儲(chǔ),導(dǎo)致分體模式下的湖和倉(cāng)各自形成數(shù)據(jù)孤島。2、集群規(guī)模受限造成的數(shù)據(jù)孤島

多數(shù)的湖通過(guò) Hadoop 構(gòu)建,數(shù)倉(cāng)是 MPP 數(shù)據(jù)庫(kù),當(dāng)數(shù)據(jù)達(dá)到 PB 級(jí)別,由于 Hadoop 和 MPP 集群規(guī)模受限,企業(yè)往往會(huì)部署和使用多個(gè) Hadoop 集群和多個(gè) MPP 集群,事實(shí)上進(jìn)一步造成了數(shù)據(jù)孤島。
3、高并發(fā)被迫形成的數(shù)據(jù)孤島

越來(lái)越多的分析應(yīng)用場(chǎng)景導(dǎo)致了逐漸高漲的并發(fā)查詢需求,無(wú)論是 Hadoop 還是 MPP 都法支撐這種復(fù)雜查詢的并發(fā)需求。MPP 數(shù)據(jù)倉(cāng)庫(kù)單一集群支持的并發(fā)數(shù)僅達(dá)到幾十左右,而 Hadoop 支持的并發(fā)則更低,因此一個(gè)遍歷數(shù)百 TB 數(shù)據(jù)的復(fù)雜查詢可能使整個(gè)系統(tǒng)的性能受到很大影響。為了滿足高并發(fā),企業(yè)不得不把業(yè)務(wù)分割到更多的集群中,造成更嚴(yán)重的數(shù)據(jù)孤島。湖倉(cāng)一體通過(guò)什么樣的技術(shù)實(shí)現(xiàn)的?
隨著公有云和私有云的普及,為了保證存儲(chǔ)和計(jì)算可以獨(dú)立的彈性擴(kuò)展和伸縮,數(shù)據(jù)平臺(tái)的設(shè)計(jì)出現(xiàn)了一個(gè)嶄新的架構(gòu),即存算分離架構(gòu)。MPP 數(shù)據(jù)庫(kù)存算耦合,而 Hadoop 不得不通過(guò)計(jì)算和存儲(chǔ)部署在同一物理集群拉近計(jì)算與數(shù)據(jù)的距離,因此 MPP 和 Hadoop 都不再適應(yīng)云平臺(tái)的要求。在此階段,Snowflake 和 OushuDB 突破了傳統(tǒng) MPP 和 Hadoop 的局限性,率先實(shí)現(xiàn)了存算完全分離,成為湖倉(cāng)一體實(shí)現(xiàn)的關(guān)鍵技術(shù)。 
以 OushuDB 為例,實(shí)現(xiàn)了存算分離的云原生架構(gòu),并通過(guò)虛擬計(jì)算集群技術(shù)在數(shù)十萬(wàn)節(jié)點(diǎn)的超大規(guī)模集群上實(shí)現(xiàn)了高并發(fā),保障事務(wù)支持,提供實(shí)時(shí)能力,一份數(shù)據(jù)再無(wú)數(shù)據(jù)孤島。 
火影老粉對(duì)九尾人柱力和佩恩六道兩角色的戰(zhàn)力之爭(zhēng)從未停止過(guò),就像現(xiàn)階段湖倉(cāng)一體市場(chǎng)上的分歧持續(xù)存在著,但是正如九尾人柱力頭頂主角光環(huán)一樣,湖倉(cāng)一體架構(gòu)必將在群雄逐鹿之后的數(shù)據(jù)管理領(lǐng)域成為關(guān)注焦點(diǎn)。
標(biāo)簽: