大數(shù)據(jù)計算引擎 EasyMR:擁抱開源,引領(lǐng)技術(shù)創(chuàng)新
身處數(shù)字經(jīng)濟時代,隨著大數(shù)據(jù)應(yīng)用越來越廣泛,越來越多的企業(yè)和組織開始關(guān)注大數(shù)據(jù)基礎(chǔ)平臺的建設(shè)和運營。在認識到其的重要性之后,如何具體著手搭建或采購大數(shù)據(jù)基礎(chǔ)平臺成為下一步需要解決的問題。
在大數(shù)據(jù)基礎(chǔ)平臺中,大數(shù)據(jù)組件是非常重要的一部分,包括數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化等。在選擇大數(shù)據(jù)組件時,我們常常在閉源組件和開源組件選擇中反復(fù)糾結(jié)。
本文將從優(yōu)勢、劣勢兩個維度分析開源組件、閉源組件對大數(shù)據(jù)基礎(chǔ)平臺建設(shè)的影響,并結(jié)合袋鼠云自研的大數(shù)據(jù)計算引擎 EasyMR?的實踐經(jīng)歷進行分享。
開源組件
在大數(shù)據(jù)領(lǐng)域,開源組件已經(jīng)成為了構(gòu)建大數(shù)據(jù)平臺的重要基石。例如 Hadoop、Spark、Hive、HBase、Kafka、Storm、Flink 等開源軟件已經(jīng)成為了大數(shù)據(jù)處理和分析的主要工具。
這些開源組件不僅提供了高效、可擴展、可靠的大數(shù)據(jù)處理和存儲能力,而且還促進了生態(tài)系統(tǒng)的發(fā)展,形成了龐大的開發(fā)社區(qū)和豐富的第三方工具及應(yīng)用程序。
優(yōu)勢
● 免費
開源組件一般都是免費的,其源代碼是公開的,任何人都可以下載、使用、修改和分發(fā),這將極大降低企業(yè)的開發(fā)和建設(shè)成本。
● 靈活性
由于源代碼是公開的,企業(yè)可以對其進行自定義修改,以適應(yīng)自身業(yè)務(wù)需求,增強了靈活性。
● 可擴展性
開源組件通常具有良好的擴展性,可以很容易地集成和升級到其他開源組件。
● 社區(qū)支持
開源組件一般擁有龐大的社區(qū),社區(qū)成員均可以貢獻代碼,提供解決方案和支持。這意味著在使用過程中遇到問題,可以得到快速的幫助和解決方案。
開源軟件的開發(fā)和維護通常由廣泛的社區(qū)貢獻提供,從而形成共同的技術(shù)標(biāo)準和最佳實踐,這有助于提高軟件質(zhì)量和安全性,并為企業(yè)提供更好的互操作性和可移植性。
劣勢
● 依賴社區(qū)
開源組件的發(fā)展取決于社區(qū)的貢獻,如果社區(qū)貢獻較少或者停滯不前,開源組件可能會面臨更新緩慢或停止維護的問題。
● 安全性
開源組件的源代碼是公開的,這使得黑客和惡意用戶可以更輕松地發(fā)現(xiàn)和利用其中的漏洞,企業(yè)在使用開源組件時,需要進行必要的安全檢查和漏洞修復(fù)。
商業(yè)閉源組件
例如 MapR 公司的 MapR-DB、MapR-ES,IBM 公司的 IBM Streams,Cloudera 公司的 Cloudera Manager、Cloudera Navigator、Cloudera Data Science Workbench 等都是比較主流的大數(shù)據(jù)閉源組件。
優(yōu)勢
● 技術(shù)支持
閉源組件通常由廠商提供技術(shù)支持,可以為企業(yè)提供更為專業(yè)、快速的支持,保障企業(yè)的業(yè)務(wù)穩(wěn)定性。
● 安全性
商業(yè)閉源組件的源代碼不公開,使得黑客和惡意用戶難以發(fā)現(xiàn)和利用其中的漏洞,企業(yè)在使用閉源組件時,可以減少安全方面的擔(dān)憂。
● 定制性
商業(yè)閉源組件可以提供定制化的服務(wù),以滿足企業(yè)的個性化需求。
劣勢
● 依賴廠商
商業(yè)閉源組件的維護和發(fā)展需要依賴廠商的支持,其更新迭代速度比較依賴企業(yè)的研發(fā)投入,如果廠商出現(xiàn)問題或者停止支持,企業(yè)可能需要更換整個組件。
● 價格高昂
商業(yè)閉源組件通常需要購買許可證或者按使用量收費,這會極大增加企業(yè)的成本。
● 數(shù)據(jù)生產(chǎn)效率低
商業(yè)閉源組件通常會對使用者的自由度和可控性產(chǎn)生限制,如禁止對源代碼進行修改等要求。
開源 or 閉源?
開源組件 or 閉源組件,企業(yè)究竟應(yīng)該如何選擇?
對比來看,對于需要靈活性和可定制性較高的企業(yè)來說,開源組件更為適合;而對于更為注重技術(shù)支持和安全性的企業(yè)來說,商業(yè)閉源組件則更具有優(yōu)勢。
開源組件和商業(yè)閉源組件各有優(yōu)缺點,注定了它們擁有各自的市場需求。但基于 DB-Engines 全球數(shù)據(jù)管理系統(tǒng)排名來看,開源流行度正在逐年上升,2021年1月開源產(chǎn)品首次超過商業(yè)數(shù)據(jù)庫。

開源軟件可以降低企業(yè)的成本,提高軟件產(chǎn)品的通用性,同時促進技術(shù)創(chuàng)新和生態(tài)系統(tǒng)的發(fā)展。
開源軟件相比閉源軟件的優(yōu)勢主要有兩點,一是眾人拾材火焰高,通過開源社區(qū)的溝通交流,能夠更快提高代碼質(zhì)量;二是開源大大提高了軟件的推廣效率。
可以說,大數(shù)據(jù)基礎(chǔ)平臺組件開源,是當(dāng)前和未來發(fā)展的趨勢。
EasyMR 的實踐之路
袋鼠云大數(shù)據(jù)計算引擎 EasyMR,作為袋鼠云自研的大數(shù)據(jù)基礎(chǔ)平臺,其大數(shù)據(jù)組件100%基于開源 Hadoop,完全兼容Apache開源生態(tài),與開源社區(qū)同步迭代,時刻保持技術(shù)的領(lǐng)先性。
在 CDH、HDP 社區(qū)版不再更新,國產(chǎn)化信創(chuàng)政策大背景下,袋鼠云支持 CDH/HDP 平滑遷移 EasyMR,助力企業(yè)快速實現(xiàn)國產(chǎn)化大數(shù)據(jù)基礎(chǔ)平臺的搭建與遷移,真正實現(xiàn)對業(yè)務(wù)側(cè)不造成任何影響。
袋鼠云作為國內(nèi)領(lǐng)先的數(shù)字化基礎(chǔ)軟件與應(yīng)用服務(wù)商,十分重視強化產(chǎn)品的基礎(chǔ)能力和技術(shù)能力,在開源技術(shù)的基礎(chǔ)上,EasyMR 對 Spark、Flink、Trino、Iceberg 等多個大數(shù)據(jù)核心組件進行了功能及性能增強。具體優(yōu)化見下圖:

僅在2022年袋鼠云技術(shù)同學(xué)就完成了上百次的 commit,為 Hadoop 生態(tài)的技術(shù)發(fā)展貢獻了屬于袋鼠云的力量。
贈人玫瑰手有余香,回饋社區(qū)的同時袋鼠云實現(xiàn)了對整個 Hadoop 體系核心代碼的完全自主掌握,對于 EasyMR?大數(shù)據(jù)平臺遷移、大數(shù)據(jù)組件維保、客戶培訓(xùn)做到了100%自主可控。
國際環(huán)境嚴峻復(fù)雜,袋鼠云深知只有實現(xiàn)關(guān)鍵技術(shù)的自主化、國產(chǎn)化,才能真正實現(xiàn)技術(shù)創(chuàng)新,攻克“卡脖子”難題。
擁抱開源不止于此
ChunJun 作為袋鼠云重磅打造的批流一體的數(shù)據(jù)集成大數(shù)據(jù)開源項目,在袋鼠云及眾多開源技術(shù)愛好者的協(xié)作努力下,目前已進行了5200+commit,擁有3600+star,逐步成為主流的數(shù)據(jù)集成框架。
今年,EasyMR 將集成 ChunJun 項目,為用戶帶來更加穩(wěn)定、高效、易用的批流一體的數(shù)據(jù)集成解決方案。

基于 EasyMR 的運維管理平臺 EasyManager,袋鼠云成功開源一站式全自動化全生命周期運維管家 ChengYing。從開放式統(tǒng)一監(jiān)控,到定義標(biāo)準化部署能力,而后引入 Prometheus/Grafana/ 自研 dt-alert 組件,完成統(tǒng)一監(jiān)控2.0的功能優(yōu)化,再到多集群管理,幫助企業(yè)快速搭建自己的運維管理平臺。?

EasyMR 的最新版運維管理平臺 EasyManager 中的前端組件及樣式是基于袋鼠云開源項目 ant-design 的 React UI 組件庫、樣式庫進行打造。袋鼠云 dt- React 組件為使用者提供更豐富的組件庫,可以更好的管理組件,減少代碼冗余提高前端開發(fā)。具體內(nèi)容將在之后的文章中進行詳解。
袋鼠云秉承著開源共享的理念,受益開源的同時積極擁抱世界、擁抱開源,期待與更多開源愛好者一起共建優(yōu)秀開源產(chǎn)品。
同時,袋鼠云始終堅持自主研發(fā)和國產(chǎn)化路線,在技術(shù)創(chuàng)新上不遺余力,為企業(yè)IT高效、平穩(wěn)運行保駕護航。
《數(shù)據(jù)治理行業(yè)實踐白皮書》下載地址:https://fs80.cn/l134d5?
想了解或咨詢更多有關(guān)袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbzhan
同時,歡迎對大數(shù)據(jù)開源項目有興趣的同學(xué)加入「袋鼠云開源框架釘釘技術(shù) qun」,交流最新開源技術(shù)信息,qun 號碼:30537511,項目地址:https://github.com/DTStack