現(xiàn)代數(shù)據(jù)堆棧MDS有什么現(xiàn)代之處
Dazdata MDS
現(xiàn)代數(shù)據(jù)堆棧(MDS)已經(jīng)普及了幾年,但直到最近才在其定義上趨同。在我們深入探討MDS的哲學(xué)和技術(shù)指標(biāo)之前,讓我們先談?wù)剛鹘y(tǒng)數(shù)據(jù)堆棧的失敗。
為什么MDS越來越受歡迎?
原因很簡(jiǎn)單,傳統(tǒng)數(shù)據(jù)堆棧 (TDS) 無法滿足任何現(xiàn)代組織的數(shù)據(jù)需求。為了保持競(jìng)爭(zhēng)優(yōu)勢(shì),組織需要能夠在正確的時(shí)間采取行動(dòng)的數(shù)據(jù),并且足夠靈活地適應(yīng)變化。TDS通常是指邏輯耦合且復(fù)雜的本地Hadoop(生態(tài)系統(tǒng))和SQL倉庫。
在我們深入研究什么是現(xiàn)代數(shù)據(jù)堆棧(MDS)之前,讓我們首先看一下仍在使用 TDS 的組織面臨的一些問題。
典型的 TDS 設(shè)置會(huì)導(dǎo)致三個(gè)主要問題
1. 解開和建立基礎(chǔ)設(shè)施的周轉(zhuǎn)時(shí)間長(zhǎng)
??? 使用本地基礎(chǔ)設(shè)施的公司負(fù)責(zé)與之相關(guān)的所有成本,例如保持一切維護(hù)和平穩(wěn)運(yùn)行所需的工程師大軍。
??? 由于設(shè)置是如此緊密地相互關(guān)聯(lián),看似微小的更改可能會(huì)破壞系統(tǒng)的其他部分。在對(duì)現(xiàn)有環(huán)境進(jìn)行任何改進(jìn)之前,找到系統(tǒng)之間的確切邏輯耦合需要大量的工作時(shí)間進(jìn)行分析。
2. 對(duì)新信息反應(yīng)遲鈍
??? 隨著公司的發(fā)展,其數(shù)據(jù)和計(jì)算能力需求也在增加。在橫向擴(kuò)展(擴(kuò)展)本地基礎(chǔ)結(jié)構(gòu)時(shí),在資源和時(shí)間方面非常昂貴。
??? 由于本地基礎(chǔ)結(jié)構(gòu)難以擴(kuò)展,這自然會(huì)導(dǎo)致分析數(shù)據(jù)的計(jì)算能力受到限制。數(shù)據(jù)管道可能需要數(shù)小時(shí)才能完成,隨著組織的發(fā)展,這個(gè)問題變得更加復(fù)雜。
??? TDS 需要緩慢的 ETL(提取、轉(zhuǎn)換、加載)操作,然后新引入的數(shù)據(jù)才能符合數(shù)據(jù)模型的其余部分。新的數(shù)據(jù)更新可能需要數(shù)周和數(shù)小時(shí)的重構(gòu)才能顯示見解。當(dāng)數(shù)據(jù)準(zhǔn)備就緒時(shí),組織無法及時(shí)采取行動(dòng),導(dǎo)致錯(cuò)失機(jī)會(huì)。
3. 昂貴的洞察之旅
??? 許多報(bào)告生成都是手動(dòng)完成的,尤其是當(dāng)數(shù)據(jù)來自不同來源時(shí)。報(bào)告是手動(dòng)生成的,手動(dòng)清理,然后手動(dòng)傳輸?shù)紼xcel(喘氣!這會(huì)導(dǎo)致出錯(cuò)、占用其他業(yè)務(wù)關(guān)鍵型任務(wù)的時(shí)間以及無法擴(kuò)展。
??? 由于環(huán)境復(fù)雜,分析師無法有效地履行其職責(zé)。數(shù)據(jù)工程師被拉入操作查詢,阻止他們完成實(shí)際工作(例如使數(shù)據(jù)管道更具可擴(kuò)展性!
看到業(yè)務(wù)環(huán)境的競(jìng)爭(zhēng)激烈以及快速適應(yīng)新信息的需求,很明顯,傳統(tǒng)的數(shù)據(jù)堆棧并不是理想的解決方案。這就是現(xiàn)代數(shù)據(jù)堆棧的用武之地,可幫助您的企業(yè)保持競(jìng)爭(zhēng)力。
現(xiàn)代數(shù)據(jù)堆棧有哪些優(yōu)勢(shì)?
1. 從以 IT 為中心 IT 轉(zhuǎn)向以業(yè)務(wù)為中心的運(yùn)營模式
??? 借助 MDS,您的組織可以重新獲得專注于業(yè)務(wù)方面的自由,而不是陷入與 IT 相關(guān)的困境。
??? 您的組織可以擁有更精簡(jiǎn)的數(shù)據(jù)團(tuán)隊(duì),并且可以專注于更高價(jià)值的數(shù)據(jù)任務(wù),而不是浪費(fèi)時(shí)間進(jìn)行傳統(tǒng)數(shù)據(jù)堆棧的管理和性能優(yōu)化。
??? MDS提供的工具在設(shè)計(jì)時(shí)考慮了更大的可訪問性(無代碼或需要很少的代碼),大大降低了進(jìn)入的技術(shù)門檻。
??? MDS 將自助服務(wù)視為核心功能,減少了對(duì)數(shù)據(jù)專業(yè)人員的依賴。這意味著CMO可以自己提取活動(dòng)分析,并將數(shù)據(jù)團(tuán)隊(duì)視為推動(dòng)者而不是瓶頸。
2. 即插即用的靈活性取代了長(zhǎng)期承諾
??? 由于基礎(chǔ)設(shè)施不再在本地部署并部署在云中,因此公司不再需要擔(dān)心硬件/平臺(tái)維護(hù)及其相關(guān)成本(從而節(jié)省大量成本)。
??? 存儲(chǔ)和計(jì)算隨時(shí)可用,通過云提供商的彈性縮短數(shù)據(jù)處理響應(yīng)時(shí)間。
??? 現(xiàn)代數(shù)據(jù)堆棧利用軟件即服務(wù)平臺(tái) (SaaS),創(chuàng)建開箱即用的工具。這意味著您的團(tuán)隊(duì)可以在最低的設(shè)置要求下開始工作。(因此,我們使用現(xiàn)代數(shù)據(jù)堆棧作為每個(gè)新的DataOps / MLOps工具口號(hào))
3. 從一次性分析轉(zhuǎn)向運(yùn)營 BI 和 AI
??? 現(xiàn)代數(shù)據(jù)堆棧的設(shè)置和迭代速度要快得多,無需大型 IT 團(tuán)隊(duì)。這使得非科技公司可以在幾個(gè)小時(shí)內(nèi)開始產(chǎn)生可操作的見解,而不是通常的幾天或幾周。
??? 數(shù)據(jù)可以來自各種第一方和第三方來源?,F(xiàn)代數(shù)據(jù)堆棧可以將所有這些源集成到其數(shù)據(jù)攝取工具中,而數(shù)據(jù)攝取工具又將與商業(yè)智能工具配合使用。
4. 將數(shù)據(jù)治理視為一等公民
??? 我們會(huì)在可以更早發(fā)現(xiàn)和緩解問題的地方進(jìn)行處理。
??? MDS 供應(yīng)商提供的工具可實(shí)現(xiàn)更好的數(shù)據(jù)質(zhì)量、隱私控制和訪問治理。隨著網(wǎng)絡(luò)安全威脅、負(fù)責(zé)任的 AI 以及數(shù)據(jù)法規(guī)的增加,在沒有考慮數(shù)據(jù)治理的情況下構(gòu)建的系統(tǒng)是每個(gè) CIO 的噩夢(mèng)。未能保護(hù)數(shù)據(jù)可能會(huì)給組織帶來災(zāi)難性后果。
??? 雖然保護(hù)整個(gè)堆棧仍然是一個(gè)挑戰(zhàn),但 MDS 技術(shù)提供商不會(huì)將數(shù)據(jù)治理視為事后的想法。這導(dǎo)致數(shù)據(jù)治理成為整個(gè)堆棧流程的一部分。
那么現(xiàn)代數(shù)據(jù)堆棧是什么?
很簡(jiǎn)單,現(xiàn)代數(shù)據(jù)堆棧 (MDS) 是一組托管在云中的工具,使組織能夠?qū)崿F(xiàn)高效的數(shù)據(jù)集成。我們相信 MDS 是 DataOps 和 MLOps 的基礎(chǔ)。
MDS 創(chuàng)建干凈、可信且始終可用的數(shù)據(jù),使業(yè)務(wù)用戶能夠進(jìn)行自助發(fā)現(xiàn),從而實(shí)現(xiàn)真正的數(shù)據(jù)驅(qū)動(dòng)型文化。
MDS 的組成部分是什么?
MDS由多層堆疊而成(如蛋糕),每層都有自己的功能。
1. 數(shù)據(jù)攝取
這是將數(shù)據(jù)從各種來源(數(shù)據(jù)庫、服務(wù)器日志、第三方應(yīng)用程序等)傳輸?shù)酱鎯?chǔ)介質(zhì)的地方。
示例工具:Fivetran、Airbyte
2. 數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)倉庫或數(shù)據(jù)湖(或湖倉?。┦且环N(通?;谠频模┙鉀Q方案,用于存儲(chǔ)從數(shù)據(jù)引入工具發(fā)送的所有收集的數(shù)據(jù)。在這里可以訪問和分析數(shù)據(jù)。
示例工具:Snowflake,Databricks,Delta Lake
3. 數(shù)據(jù)轉(zhuǎn)換
一旦原始數(shù)據(jù)被移動(dòng)到存儲(chǔ)中,就需要將其轉(zhuǎn)換為用戶友好的數(shù)據(jù)模型。這使分析師或數(shù)據(jù)科學(xué)家可以輕松查詢數(shù)據(jù)以提取見解、構(gòu)建儀表板甚至 ML 模型。
示例工具:EasyMorph、Airflow、DBT
4. 數(shù)據(jù)分析/商業(yè)智能
在這里分析數(shù)據(jù)并創(chuàng)建儀表板供用戶瀏覽數(shù)據(jù)?,F(xiàn)代數(shù)據(jù)分析工具的設(shè)計(jì)也考慮到了非技術(shù)用戶。這使領(lǐng)域?qū)<夷軌蚧卮饦I(yè)務(wù)問題,而無需依賴開發(fā)人員和分析師。
示例工具:Looker、Power BI、ThoughtSpot
5. 數(shù)據(jù)治理
數(shù)據(jù)目錄和治理
??? 允許組織跟蹤和理解其數(shù)據(jù),這有助于數(shù)據(jù)可發(fā)現(xiàn)性、質(zhì)量和共享。如果沒有這些工具,數(shù)據(jù)湖很容易成為數(shù)據(jù)沼澤。
數(shù)據(jù)隱私和訪問治理
??? 這些工具可幫助組織在數(shù)據(jù)保護(hù)方面保持合法合規(guī)。敏感數(shù)據(jù)泄露等問題可以得到緩解。
示例工具:Atlan、Immuta、Informatica
我需要所有這些不同的組件嗎?
好消息是,不,您不需要所有這些功能即可運(yùn)行!MDS設(shè)置類似于訂購食物,您可以按照當(dāng)時(shí)需求的方式進(jìn)行設(shè)置。例如,您可以訂購蛋糕但保留奶油。需要注意的重要一點(diǎn)是,盡管沒有任何奶油,但最終結(jié)果是你仍然有一個(gè)可以吃的蛋糕。
MDS 設(shè)置是模塊化的,旨在與其他組件和工具兼容(即插即用)。這意味著您可以根據(jù)組織的要求切換組件。您還可以自定義設(shè)置以使用現(xiàn)有基礎(chǔ)結(jié)構(gòu),而不是完全棄用它。
這種模塊化(相對(duì)于單片)的另一個(gè)優(yōu)點(diǎn)是,您可以水平旋轉(zhuǎn)組件并避免供應(yīng)商鎖定。不喜歡供應(yīng)商為數(shù)據(jù)存儲(chǔ)層提供的特定工具?換成更適合您需求的其他供應(yīng)商。如果組織很年輕,它很可能不需要一次所有組件,因?yàn)樗男枨蟾?jiǎn)單。隨著組織的發(fā)展,它可以根據(jù)需要切換或添加更多組件。
不同 MDS 設(shè)置的示例
并非所有組織都是一樣的,也不是所有組織都是一刀切的。以下是不同類型的組織可以在其 MDS 中使用的工具示例。
1. 同時(shí)滿足商業(yè)智能和數(shù)據(jù)科學(xué)要求的企業(yè) MDS
EventHub + Delta Lake + Databricks + PowerBI
由于許多組織都訂閱了Microsoft 365,因此PowerBI是一個(gè)自然的選擇,因?yàn)樗谄髽I(yè)訂閱中。隨著對(duì)實(shí)時(shí)報(bào)告的需求變得越來越占主導(dǎo)地位,將結(jié)構(gòu)化流式處理與 PowerBI 相結(jié)合可以無縫集成到現(xiàn)有分析體系結(jié)構(gòu)中。
2. 具有混合/多云雄心的中型分析團(tuán)隊(duì)
FiveTran+SnowFlake+Looker
中小企業(yè)有不同程度的需求,傾向于混合和匹配工具和云提供商。Snowflake 是一個(gè)合適的選擇,因?yàn)樗c云無關(guān),并且與大多數(shù) ETL 工具兼容。與 Azure 解決方案相比,列出的工具價(jià)格昂貴。
3. 數(shù)據(jù)驅(qū)動(dòng)的啟動(dòng)
AirByte + DBT + Big Query + Metabase
初創(chuàng)企業(yè)的團(tuán)隊(duì)規(guī)模較小,基礎(chǔ)設(shè)施需求更簡(jiǎn)單,因此工具需要既經(jīng)濟(jì)高效又易于使用。例如,Metabase是一個(gè)可視化工具,不需要SQL知識(shí)來構(gòu)建,也不需要BI專家的幫助來使用。
設(shè)置 MDS 有多難?
對(duì)于開始全新領(lǐng)域的組織來說,這可能非常簡(jiǎn)單,因?yàn)橹饕脑铺峁┥烫峁㎝DS模板(re。AWS湖形成)。但對(duì)于擁有現(xiàn)有傳統(tǒng)數(shù)據(jù)堆棧的組織來說,這并不像將所有內(nèi)容遷移到云那么簡(jiǎn)單。
如果要從現(xiàn)有的成熟數(shù)據(jù)堆棧遷移到云,仔細(xì)的重新架構(gòu)將至關(guān)重要。如果新的云基礎(chǔ)結(jié)構(gòu)是以耦合的整體方式設(shè)置的(將一堆本地虛擬機(jī)移動(dòng)到云中),則只會(huì)浪費(fèi)時(shí)間。
下一節(jié)概述了設(shè)置新 MDS 時(shí)要注意的重要事項(xiàng)。
使用 MDS 時(shí)需要注意的事項(xiàng)
我們必須記住,MDS不僅適用于專業(yè)數(shù)據(jù)科學(xué)家,也適用于任何想要處理數(shù)據(jù)的人。由于MDS在設(shè)計(jì)上是模塊化的,因此許多組織傾向于找到所有最佳工具并將它們集成在一起。問題解決了,對(duì)吧?
這種方法的問題在于,MDS 現(xiàn)在是圍繞工具構(gòu)建的,而不是為用戶構(gòu)建的。雖然從建筑和工程的角度來看這很好,但它會(huì)進(jìn)入最常見的故障模式:糟糕且令人沮喪的用戶體驗(yàn)。
首次實(shí)施 MDS 時(shí),通常的方法是查看組織需要什么并相應(yīng)地購買工具(儀表板、分析等)。不幸的是,這形成了一個(gè) MDS,它是一個(gè)脫節(jié)的花哨工具集合;與用于解決問題的協(xié)作堆棧相去甚遠(yuǎn)。
用戶體驗(yàn)不佳的MDS將導(dǎo)致一個(gè)設(shè)計(jì)精美的數(shù)據(jù)平臺(tái),他們?cè)噲D支持的分析師和科學(xué)家的采用率為零。
好的MDS和壞的MDS有什么區(qū)別?
這一切都?xì)w結(jié)為一個(gè)簡(jiǎn)單的概念:用戶體驗(yàn)。僅僅因?yàn)橐粋€(gè)組織擁有最好和最昂貴的工具并不能保證和諧。這些工具的用戶應(yīng)該能夠完成工作,而不會(huì)覺得他們?cè)诖蛞粓?chǎng)艱苦的戰(zhàn)斗。從本質(zhì)上講,組織應(yīng)該構(gòu)建一個(gè)圍繞最適合其用戶的內(nèi)容設(shè)計(jì)的 MDS。
最終,這一切都?xì)w結(jié)為用戶體驗(yàn)。設(shè)計(jì)新式數(shù)據(jù)堆棧時(shí),請(qǐng)牢記用戶的需求和痛點(diǎn):
善解人意和包容
??? MDS 需要對(duì)所有用戶可用且具有包容性。
??? 允許用戶培養(yǎng)對(duì)數(shù)據(jù)的信任并鼓勵(lì)協(xié)作。
??? 使用戶能夠執(zhí)行他們應(yīng)該執(zhí)行的作業(yè)(不要強(qiáng)迫分析師編寫復(fù)雜的轉(zhuǎn)換)。
周密的計(jì)劃;簡(jiǎn)單開始
??? MDS 不需要具有所有組件即可運(yùn)行。
??? 規(guī)劃組織當(dāng)時(shí)需要的組件,以避免不必要的成本和復(fù)雜性。
??? 簡(jiǎn)單地說,具有引入、轉(zhuǎn)換和存儲(chǔ)的簡(jiǎn)單設(shè)置仍然是有效的 MDS。
??? 相應(yīng)地展開并添加組件。
尋找合適的合作伙伴
??? 每個(gè)組織都是不同的,這意味著沒有一刀切的解決方案。您不能只采用與另一個(gè)組織相同的設(shè)置并期望它正常工作。
??? 因此,不要羞于與供應(yīng)商聯(lián)系,以幫助您設(shè)計(jì)適合您組織的 MDS。您甚至可以請(qǐng)求演示。
??? 有許多公司專門幫助組織構(gòu)建和設(shè)置適合其環(huán)境的現(xiàn)代數(shù)據(jù)堆棧 - 無論是初創(chuàng)企業(yè)還是大型企業(yè)。與人交談,閱讀內(nèi)容,并加入 Slack 社區(qū)的陣列。
在哪里可以找到有關(guān) MDS 的更多信息?
這是一個(gè)大規(guī)模爆炸的景觀,并且每天都在不斷發(fā)展!以下是一些快速了解現(xiàn)代數(shù)據(jù)堆棧的資源:
??? Modern Data Stack | Andrew Ermogenous | Substack
??? The Data Exchange — Data ∪ Machine Learning ∪ AI
??? The Beginner’s Guide to the Modern Data Stack | by Prukalpa | Towards Data Science
結(jié)論
第二次世界大戰(zhàn)后,汽車制造商努力降低生產(chǎn)成本,并在生產(chǎn)過程中遇到了許多障礙,損害了他們的利潤(rùn)。后來,豐田創(chuàng)建了準(zhǔn)時(shí)制(JIT)生產(chǎn)系統(tǒng),該系統(tǒng)消除了大部分問題,并在不影響質(zhì)量的情況下提高了效率。不久之后,其他制造商意識(shí)到了這些好處并采用了類似的方法。
回到科技行業(yè),組織意識(shí)到數(shù)據(jù)變得越來越復(fù)雜,他們的傳統(tǒng)數(shù)據(jù)堆棧根本無法應(yīng)對(duì)?,F(xiàn)代數(shù)據(jù)堆棧是一種解決方案,可以幫助組織節(jié)省時(shí)間、精力和金錢。與傳統(tǒng)數(shù)據(jù)堆棧相比,它更快、更具可擴(kuò)展性且更易于訪問。MDS 還可幫助組織過渡到現(xiàn)代數(shù)據(jù)驅(qū)動(dòng)型組織,這對(duì)于創(chuàng)建業(yè)務(wù)解決方案至關(guān)重要。在當(dāng)今時(shí)代,沒有可操作的數(shù)據(jù),任何組織都無法保持競(jìng)爭(zhēng)力。
僅這些好處就足以讓任何組織認(rèn)真重新評(píng)估其當(dāng)前系統(tǒng)。但是,重要的是不要趕上技術(shù)嗡嗡聲,為了現(xiàn)代化而進(jìn)行現(xiàn)代化改造。要真正從 MDS 中受益,需要仔細(xì)規(guī)劃以實(shí)現(xiàn)良好的用戶體驗(yàn)。設(shè)計(jì)一個(gè)好的MDS,讓你的員工做他們的工作,回報(bào)將是無價(jià)的。