Teradata在華落幕,國產(chǎn)化崛起,袋鼠云數(shù)棧會是更好的選擇嗎?
2月15日,數(shù)倉軟件巨頭Teradata宣布根據(jù)其對中國當(dāng)前和未來商業(yè)環(huán)境的慎重評估,將逐步結(jié)束在中國的直接運營,后續(xù)進(jìn)入中國公司的關(guān)閉程序。
一石激起千層浪,這一消息,在國內(nèi)的To B市場引起了廣泛關(guān)注。Teradata這家進(jìn)入中國市場26年,為國內(nèi)數(shù)倉發(fā)展帶來重要啟蒙,奠定數(shù)據(jù)服務(wù)人才基礎(chǔ),被業(yè)界稱之為 “數(shù)倉人才黃埔軍?!钡臄?shù)據(jù)軟件巨頭如今在華落幕,令人感嘆。
近些年來,國產(chǎn)大數(shù)據(jù)基礎(chǔ)建設(shè)百花齊放、發(fā)展蓬勃,中國軟件企業(yè)在信創(chuàng)產(chǎn)業(yè)政策的助攻下,迎來了發(fā)展的黃金期,技術(shù)和產(chǎn)品能力快速提升,憑借自主可控、創(chuàng)新安全等優(yōu)勢,已經(jīng)逐步實現(xiàn)對Teradata等國外主流軟件的成功替換。
其中包括以Hadoop體系為主的CDH、星環(huán),袋鼠云等公司,以國產(chǎn)化數(shù)據(jù)庫為主的阿里云ADB、華為GussDB、南大通用GBase等數(shù)據(jù)庫廠商,都紛紛在國產(chǎn)化領(lǐng)域交出了不錯的成績單。
袋鼠云從2016年開始一直深耕于大數(shù)據(jù)領(lǐng)域,以卓越的技術(shù)能力服務(wù)3000+客戶,涉及行業(yè)解決方案、大數(shù)據(jù)產(chǎn)品、數(shù)倉交建模交付、數(shù)據(jù)分析等多個領(lǐng)域。在產(chǎn)品和國際同行之間差距不斷縮小的同時,這次Teradata的離開,我們也在思考在這塊市場上袋鼠云可以為客戶提供什么樣的服務(wù)。
Teradata無縫遷移至數(shù)棧-EasyMR
Teradata是一個MPP數(shù)據(jù)庫,采用share nothing架構(gòu),每個節(jié)點擁有自己的資源,如CPU、內(nèi)存、磁盤等,每個APM管理自己的數(shù)據(jù)協(xié)同工作,通過BYNET進(jìn)行網(wǎng)絡(luò)互聯(lián)。在業(yè)務(wù)場景上,主要應(yīng)用于數(shù)據(jù)建模與分析。

該類數(shù)據(jù)庫SQL兼容性好,支持事物處理、PB級別結(jié)構(gòu)化數(shù)據(jù)處理速度快,但集群規(guī)模調(diào)整要求多,增加節(jié)點麻煩,單節(jié)點緩慢會拖累整體性能,在大數(shù)據(jù)量的處理任務(wù)上,有支持能力嚴(yán)重不足的問題。
如果客戶數(shù)據(jù)量大,存儲和計算成本較高,建議采用Hadoop大數(shù)據(jù)計算引擎生態(tài),其兼容能力強、擴展性高,基于HDFS進(jìn)行結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)存儲,Spark、Flink、Trino多類計算引擎可以滿足不同分析場景。
袋鼠云數(shù)棧自研的大數(shù)據(jù)基礎(chǔ)平臺「EasyMR」,是基于Hadoop、Hive、Spark、Flink、HBase、Kafka、Trino等開源組件,構(gòu)建的彈性計算引擎,提供安全可靠、彈性伸縮、低成本的大數(shù)據(jù)存儲與計算服務(wù)。
于2017年投入商業(yè)化使用以來,交付過500+商業(yè)化客戶,覆蓋金融、政務(wù)、制造、教育等多個行業(yè),期間開源ChunJun、Taier、ChengYing等項目,貢獻(xiàn)給開源社區(qū)。并于2022年推出EasyMR數(shù)據(jù)湖版本,在業(yè)務(wù)場景驅(qū)動下,不斷完善技術(shù)體系,服務(wù)大數(shù)據(jù)市場。

EasyMR可提供的場景解決方案
· ChunJun數(shù)據(jù)同步插件:雙向異構(gòu)數(shù)據(jù)源、批流一體的數(shù)據(jù)同步插件,實現(xiàn)業(yè)務(wù)數(shù)據(jù)庫向大數(shù)據(jù)數(shù)倉的數(shù)據(jù)同步,可進(jìn)行數(shù)據(jù)整庫同步、批同步、實時同步;
· Spark+Hive:分布式離線數(shù)據(jù)倉庫建設(shè),進(jìn)行數(shù)據(jù)批處理;
· Spark+Hive+Iceberg/Hudi:離線數(shù)倉批處理+數(shù)據(jù)即時更新;
· Kafka+Flink:實時數(shù)據(jù)倉庫建設(shè);
· Flink+Kafka+Iceberg/Hudi:批流一體化;
· Trino+Hive:OLAP引擎進(jìn)行億級數(shù)據(jù)關(guān)聯(lián)的秒級查詢;
· ClickHouse:OLAP引擎進(jìn)行寬表的毫秒級查詢;
· HBase:大數(shù)據(jù)量存儲,高并發(fā)快速查詢。
Teradata數(shù)據(jù)庫遷移至EasyMR,數(shù)??商峁┑姆?wù)
· 歷史數(shù)據(jù)的整庫遷移;
· Teradata SQL任務(wù)的平滑遷移。
袋鼠云大數(shù)據(jù)基礎(chǔ)平臺「EasyMR」秉承“信創(chuàng)、開源、輕量、專業(yè)”的理念提供安全可靠的大數(shù)據(jù)存儲與計算服務(wù),為企業(yè)數(shù)字化轉(zhuǎn)型提供基石。
數(shù)棧兼容Teradata Vantage數(shù)據(jù)分析
Teradata Vantage 是一個云計算數(shù)據(jù)分析平臺,提供數(shù)據(jù)匯聚與建模、數(shù)據(jù)服務(wù)與分析、機器學(xué)習(xí)建模等能力,同時預(yù)置行業(yè)數(shù)據(jù)模型,如FS-LDM涵蓋銀行、證券、保險的10大主題模型,為客戶提供數(shù)據(jù)分析服務(wù)。
袋鼠云數(shù)棧提供一站式大數(shù)據(jù)開發(fā)與治理、數(shù)據(jù)智能分析與洞察、機器與深度學(xué)習(xí)建模等產(chǎn)品化應(yīng)用,涵蓋離線開發(fā)、實時開發(fā)、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)服務(wù)、指標(biāo)管理分析、客戶數(shù)據(jù)洞察等平臺。
提供大數(shù)據(jù)匯聚、數(shù)倉建模、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)、數(shù)據(jù)分析的全生命周期能力,并基于Dataops理念構(gòu)建數(shù)據(jù)生產(chǎn)流程,加快數(shù)據(jù)分析鏈路,為企業(yè)數(shù)據(jù)治理提供易用、穩(wěn)定的數(shù)據(jù)平臺,達(dá)到降本增效的目的。


袋鼠云數(shù)棧產(chǎn)品矩陣
· 離線開發(fā)平臺BatchWorks:一站式大數(shù)據(jù)批處理平臺,涵蓋全鏈路數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、任務(wù)運維、監(jiān)控告警等功能,具備靈活的多集群、多引擎對接能力,加速釋放數(shù)據(jù)價值;
· 實時開發(fā)平臺Streamworks:基于Apache Flink 構(gòu)建的云原生一站式大數(shù)據(jù)實時平臺,覆蓋從實時數(shù)據(jù)采集到實時數(shù)據(jù)開發(fā)全鏈路流程,提供亞秒級的數(shù)據(jù)計算處理;
· 數(shù)據(jù)資產(chǎn)平臺DataAssets:采集全量資產(chǎn)數(shù)據(jù),打通數(shù)據(jù)關(guān)系網(wǎng)絡(luò),實現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化和資產(chǎn)化管理,提供全域數(shù)據(jù)治理能力;
· 數(shù)據(jù)服務(wù)平臺EasyAPI:可視化生成與注冊 API 的數(shù)據(jù)服務(wù)管理平臺,快速構(gòu)建 OneService 數(shù)據(jù)共享服務(wù);
· 指標(biāo)管理分析平臺EasyIndex:通過指標(biāo)的規(guī)范化定義、標(biāo)準(zhǔn)化開發(fā),搭建企業(yè)數(shù)據(jù)指標(biāo)體系與自助取數(shù)服務(wù),實現(xiàn)指標(biāo)數(shù)據(jù)的可視、可用、可管;
· 客戶數(shù)據(jù)洞察平臺DataTag:通過標(biāo)簽萃取、標(biāo)簽管理、標(biāo)簽圈群、群組分析、全面畫像,構(gòu)建以業(yè)務(wù)價值為導(dǎo)向的標(biāo)簽體系和多樣化群組,應(yīng)用于企業(yè)智能化運營與營銷;
· 數(shù)據(jù)湖平臺EasyLake:提供面向湖倉一體的數(shù)據(jù)湖管理分析服務(wù),基于統(tǒng)一的元數(shù)據(jù)抽象構(gòu)建一致性的數(shù)據(jù)訪問,提供海量數(shù)據(jù)的存儲管理和實時分析處理能力,幫助企業(yè)快速構(gòu)建湖倉一體化平臺。
同時,數(shù)棧基于在金融、政府、制造、教育等各個行業(yè)的客戶場景沉淀,產(chǎn)品內(nèi)置多種行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)倉模型、指標(biāo)體系、標(biāo)簽體系,為企業(yè)數(shù)據(jù)建設(shè)提供參考與賦能,以及提供全國性、本地化的行業(yè)咨詢與數(shù)據(jù)交付實施服務(wù)。下面簡單舉幾個例子:
● 數(shù)據(jù)標(biāo)準(zhǔn)行業(yè)模板

● 指標(biāo)體系行業(yè)模版

● 標(biāo)簽體系行業(yè)模版


不止于此,數(shù)棧提供全生命周期的數(shù)據(jù)建模與服務(wù)能力,并預(yù)置多種行業(yè)模型,為企業(yè)數(shù)字化轉(zhuǎn)型提供框架與動能。
國產(chǎn)信創(chuàng),數(shù)棧在路上
2月22日,總書記在政治局集體學(xué)習(xí)會議上強調(diào):“要打好科技儀器設(shè)備、操作系統(tǒng)和基礎(chǔ)軟件國產(chǎn)化攻堅戰(zhàn),提升國產(chǎn)化替代水平和應(yīng)用規(guī)模,爭取早日實現(xiàn)用我國自主的研究平臺、儀器設(shè)備來解決重大基礎(chǔ)研究問題?!?/p>
近些年來,在國家政策指導(dǎo)下,企業(yè)數(shù)字化基礎(chǔ)設(shè)施逐步國產(chǎn)化。袋鼠云作為國內(nèi)領(lǐng)先的數(shù)字化技術(shù)與服務(wù)提供商,始終堅持自主研發(fā)和國產(chǎn)化路線,高度重視技術(shù)創(chuàng)新,公司研發(fā)費用逐年提升,研發(fā)費用占比高達(dá)20%以上,高于行業(yè)研發(fā)投入的平均水平。
目前,袋鼠云已與麒麟軟件、中科方德、浪潮云、華為云、阿里云、瀚高、龍芯科技、中興通訊等16家國內(nèi)主流操作系統(tǒng)、服務(wù)器、數(shù)據(jù)庫、芯片廠商完成產(chǎn)品兼容性互認(rèn)證。這大大提升了袋鼠云旗下產(chǎn)品在國內(nèi)企業(yè)應(yīng)用環(huán)境中的兼容性和擴展性,在軟硬件層面全面兼容X86、ARM、MIPS架構(gòu)體系,支持市面所有公有云、私有云、混合云廠商平臺,支持CDH、TDH、Libra、Fushionlnsight等存儲引擎。
未來,袋鼠云將繼續(xù)秉承“讓數(shù)據(jù)創(chuàng)造價值”的使命,在大數(shù)據(jù)道路上持續(xù)深耕,為企業(yè)的數(shù)字化轉(zhuǎn)型貢獻(xiàn)自己的一份力量。

想了解或咨詢更多有關(guān)袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbzhan
同時,歡迎對大數(shù)據(jù)開源項目有興趣的同學(xué)加入「袋鼠云開源框架釘釘技術(shù) qun」,交流最新開源技術(shù)信息,qun 號碼:30537511,項目地址:https://github.com/DTStack