袋鼠云思樞:數(shù)駒DTengine,助力企業(yè)構(gòu)建高效的流批一體數(shù)據(jù)湖計算平臺
7月28日,以“數(shù)智進化,現(xiàn)在即未來”為主題的袋鼠云2022產(chǎn)品發(fā)布會于線上正式開幕。發(fā)布會上,袋鼠云宣布將集團進行全新升級:從“數(shù)字化基礎(chǔ)設(shè)施供應(yīng)商”,升級為“全鏈路數(shù)字化技術(shù)與服務(wù)提供商”,并由袋鼠云產(chǎn)研負(fù)責(zé)人思樞對外正式發(fā)布了全新的四大產(chǎn)品體系:數(shù)據(jù)智能分析與洞察平臺“數(shù)雁EasyDigit”、低代碼數(shù)字孿生平臺EasyV、一站式大數(shù)據(jù)開發(fā)與治理平臺“數(shù)棧DTinsight”和極速湖倉引擎“數(shù)駒DTengine”。

他表示,“當(dāng)前,數(shù)字化轉(zhuǎn)型已然成為幾乎所有企業(yè)的必選項,越來越多的企業(yè)將數(shù)據(jù)視為核心資產(chǎn),加快數(shù)字化轉(zhuǎn)型的戰(zhàn)略部署。行業(yè)的變革、客戶的需求不斷督促著我們向前,袋鼠云產(chǎn)品研發(fā)迭代升級的腳步從未停止。
回顧過去,袋鼠云秉承讓數(shù)據(jù)創(chuàng)造價值的使命,在大數(shù)據(jù)領(lǐng)域的多個方面實現(xiàn)突破;在未來,袋鼠云要深耕行業(yè),實現(xiàn)業(yè)務(wù)與數(shù)據(jù)的雙向驅(qū)動,進一步夯實企業(yè)數(shù)字化轉(zhuǎn)型的數(shù)據(jù)基座,最大化幫助企業(yè)釋放數(shù)據(jù)價值。”
思樞重點向大家分享了全新四大產(chǎn)品體系中的堅實底座——袋鼠云自主研發(fā)的極速湖倉引擎「數(shù)駒DTengine」。
以下為思樞演講全文:
大家好,我是袋鼠云產(chǎn)研負(fù)責(zé)人——思樞。非常感謝大家參與袋鼠云2022產(chǎn)品發(fā)布會,也很榮幸能夠有機會在這里向大家介紹袋鼠云煥新升級后的系列產(chǎn)品。
首先想問大家一個問題,這也是很多數(shù)字化企業(yè)面臨的問題:數(shù)據(jù)革命時代來臨時,如何加快數(shù)據(jù)價值化呈現(xiàn)?
在這個過程中會面臨4個問題:一是部署問題,如何簡單快速部署一套大數(shù)據(jù)組件;二是數(shù)據(jù)源接入問題,如何對接多源多種異構(gòu)的數(shù)據(jù)源,這些海量的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)如何存儲;三是數(shù)據(jù)處理效率問題,在面對這些海量的數(shù)據(jù)時,如何降低數(shù)據(jù)開發(fā)處理的門檻,并提高數(shù)據(jù)分析的效率;四是數(shù)據(jù)安全問題,數(shù)據(jù)透出的時候如何做到精細(xì)化權(quán)限管控。

有理由相信,許多數(shù)字化企業(yè)都迫切需要一套系統(tǒng)來解決上述問題,而數(shù)駒也正是由此而生。
數(shù)駒是什么?
/what is DTengine?/
下面首先請大家先重點看一下數(shù)駒的產(chǎn)品架構(gòu)圖:

數(shù)駒主要包括兩個平臺產(chǎn)品:一是大數(shù)據(jù)基礎(chǔ)平臺——EasyMR,負(fù)責(zé)Hadoop、Hive、Spark、Flink、Kafka、Hbase等大數(shù)據(jù)組件的自動化集群部署、監(jiān)控、遷移、升級等功能。
EasyMR除了能監(jiān)管Hadoop生態(tài)體系組件,也可以根據(jù)EasyMR提供的Schema規(guī)范自動編排,快速集成客戶側(cè)自定義的開發(fā)應(yīng)用。
所以使用EasyMR部署一套Hadoop組件,即使是零技術(shù)基礎(chǔ)的小白,也可以通過可視化的界面進行一步步的引導(dǎo)操作,半個小時就能完成部署。
這里也說下EasyMR的開源版ChengYing已經(jīng)在Github上開源,大家有興趣可以下載試用。
Github:https://github.com/DTStack/chengying;
Gitee:https://gitee.com/dtstack_dev_0/chengying
二是數(shù)據(jù)湖平臺——DataLake,在存儲層通過流批一體數(shù)據(jù)同步框架ChunJun,將結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一高效入湖,入湖后對數(shù)據(jù)文件做統(tǒng)一的規(guī)范管理和高效索引,極大的提高查詢效率。
在元數(shù)據(jù)層做統(tǒng)一的Catalog管理,Schema的自動推導(dǎo),分區(qū)的動態(tài)生成和表結(jié)構(gòu)演進。并且DataLake在計算層可以支持Flink、Spark、Trino等多種引擎做跨數(shù)據(jù)存儲的聯(lián)邦查詢。
讓業(yè)務(wù)響應(yīng)更加及時,讓企業(yè)運轉(zhuǎn)更加高效,數(shù)駒誕生的目的就是讓企業(yè)產(chǎn)生的所有數(shù)據(jù),都能夠被采集、被存儲、被計算,賦予數(shù)據(jù)全新價值。
數(shù)駒好在哪?
/What's good about?DTengine?/
除了數(shù)據(jù)高效入湖、聯(lián)邦查詢外,數(shù)駒還有其他幾大領(lǐng)先產(chǎn)品特性和技術(shù)內(nèi)核,接下來進行簡單分享,幫助大家更好的理解數(shù)駒。
產(chǎn)品特性
·?數(shù)據(jù)入湖:集成流批一體框架ChunJun一鍵生成湖表信息
·?聯(lián)邦查詢:內(nèi)置多種數(shù)據(jù)連接器高效索引,跨源聯(lián)合分析查詢
·?自主可控,安全保障:360°數(shù)據(jù)訪問安全體系,細(xì)粒度的數(shù)據(jù)權(quán)限劃分
·?極致便捷:一站式服務(wù),開箱即用可視化操作
·?流批一體:統(tǒng)一存儲邏輯,統(tǒng)一SQL語言,支持流批一體化分析
·?兼容并蓄,優(yōu)化提升:對Spark、Flink、Trino等計算組件深度優(yōu)化加速計算
袋鼠云一直以來都希望幫助企業(yè)充分發(fā)揮數(shù)字化能力,打造數(shù)字經(jīng)濟時代助力企業(yè)智能化“蝶變”的利器。基于此目標(biāo),我們?yōu)閿?shù)駒打造的流批一體主要應(yīng)用場景,一套代碼實現(xiàn)多種業(yè)務(wù)場景,高效分析。

企業(yè)平臺在支撐上層多種業(yè)務(wù)應(yīng)用的過程中,依賴多種計算任務(wù),包含離線和實時,二者獨立運行,業(yè)務(wù)邏輯相同,但因數(shù)據(jù)延遲、代碼語言差異等導(dǎo)致最終結(jié)果存在差異,需要額外的人力進行兩套計算引擎的維護,造成大量的成本損耗。
基于數(shù)駒平臺的數(shù)據(jù)存儲管理能力,可以同時支持上層計算引擎批和流的計算能力,幫助企業(yè)構(gòu)建流批一體的數(shù)倉平臺,實現(xiàn)一套架構(gòu)同時滿足流批業(yè)務(wù)操作,降低學(xué)習(xí)、使用、維護成本,提高開發(fā)效率。
數(shù)駒將如何?
/How will DTengine?/
數(shù)駒作為袋鼠云今年推出的全新產(chǎn)品,近期有四大規(guī)劃:
未來規(guī)劃
·湖表管理優(yōu)化:周期性的清理過期數(shù)據(jù)、快照,合并壓縮小文件提升讀取表的性能
·索引加速:通過bloom index、data skipping index、zorder index等一系列索引構(gòu)建,提升數(shù)據(jù)湖查詢性能,做到毫秒級響應(yīng)
·?智能優(yōu)化:相同特征的查詢請求可以直接通過查詢緩存和湖表數(shù)據(jù)變更快速返回結(jié)果,做到智能加速
·?智能運維:對事件、監(jiān)控等運維對象深入透視,通過規(guī)則、算法等決策服務(wù)及時發(fā)布異常警告、自動進行運維決策

作為袋鼠云全新產(chǎn)品矩陣的排頭兵,數(shù)駒將不斷進化,繼續(xù)在追求更極致的查詢效率,更快捷的部署運維的道路上砥礪前行,堅持為企業(yè)數(shù)字化轉(zhuǎn)型保駕護航。