現代數據棧MDS的主要特征
Dazdata MDS
1. 云優(yōu)先
2. 圍繞云數據倉庫/湖構建
3. 專注于解決一個問題
4. 以 SaaS 或開放核心形式提供
5. 低進入門檻
6. 社區(qū)積極支持
1. 云優(yōu)先
現代公有云供應商使 MDS 工具變得具有高度彈性和可擴展性。這使組織可以輕松地將它們集成到其現有的云基礎架構中。
2. 圍繞云數據倉庫/湖構建
現代數據堆棧工具認識到,中央云數據倉庫/湖是數據分析的動力。因此,它們旨在與所有著名的云數據倉庫(如Redshift,Bigquery,Snowflake,Databricks等)無縫集成,并充分利用其功能。
3. 專注于解決一個具體問題
現代數據堆棧是由數據管道的不同階段連接的工具拼湊而成的。每個工具都專注于數據處理/管理的一個特定方面。這使得現代數據堆棧工具能夠適應各種架構,并插入任何現有堆棧,只需很少或無需更改。
4. 以 SaaS 或開放核心形式提供
現代數據堆棧工具主要以SaaS(軟件即服務)的形式提供。在某些情況下,核心組件是開源的,并帶有付費附加功能,如端到端托管和專業(yè)支持。
5. 進入門檻低
現代數據堆棧工具打包在簡單的即用即付和基于使用情況的定價模型中。數據從業(yè)者可以在做出重大承諾之前探索新工具及其功能和實用性。這樣可以節(jié)省金錢和時間。
此外,MDS 工具被設計為<a href="https://venturebeat.com/2021/02/14/no-code-low-code-why-you-should-be-paying-attention/">低代碼甚至無代碼。工具設置可以在幾個小時內完成,不需要大量的技術專業(yè)知識或時間投入。
6. 得到社區(qū)的積極支持
現代數據堆棧解決方案提供商在社區(qū)建設上投入了大量時間和精力。有 Slack 小組、聚會和會議,積極支持工具用戶和數據從業(yè)者。這促進了圍繞這些工具的支持性和創(chuàng)造性生態(tài)系統(tǒng)。
是什么導致了現代數據棧MDS的出現?
Hadoop和公共云的出現
亞馬遜Redshift的推出
對更好工具的需求不斷增長
Hadoop和公共云的出現
在Hadoop之前,只能垂直擴展基礎設施。因此,數據處理需要大量的前期投資。?然后Hadoop出現了,使得在廉價硬件上水平擴展存儲和計算成為可能。但即使在那之后,用戶體驗也很笨拙(map-reduce),只有大型組織才能投資于使其正常工作所需的特殊技能。但是,當公共云變得便宜且易于訪問時,即使是較小的公司也可以負擔得起云上的存儲和計算。
亞馬遜Redshift的推出
同時,微服務架構已經普及了NoSQL和非關系數據庫。當加載到 Hadoop 集群進行分析時,這些非關系數據很難使用 SQL 進行處理。這迫使數據團隊使用其他編程語言(如Java,Scala和Python)來處理數據。組織開始依賴昂貴的工程資源和高度專業(yè)化的技能。?數據民主受到了打擊。
亞馬遜的Redshift改變了這一切。
Redshift于2012年推出,是第一個云數據倉庫。它不僅允許將大量數據存儲在水平可擴展的基礎架構上,而且還可以使用純SQL查詢數據。
對更好工具的需求不斷增長
在接下來的幾年中,數據倉庫解決方案提供商能夠進一步改進架構,分離存儲和計算,并提供更好的價格點和可擴展性。但是,轉換、建模、清理數據并將其轉換為可操作的見解仍然繁瑣且容易出錯。
快速增長的企業(yè)對大型基礎設施投資所獲得的回報感到不滿。他們的數據在數量、種類和復雜性方面都有所增長,但生態(tài)系統(tǒng)仍然沒有能夠很好地管理它的工具。
隱私也已成為一個嚴肅的問題,全球各國政府都希望保護其公民免受過度數字化信息系統(tǒng)的影響。這導致了嚴格的監(jiān)管框架,如歐盟的GDPR和加利福尼亞州的CCPA。
隨著分析數據平臺的基本構建塊的成熟和穩(wěn)定,更好的數據管理和可觀察性變得非常重要。開發(fā)一套更好的工具來應對這些挑戰(zhàn)是肥沃的土壤。投資者和企業(yè)家開始感興趣,現代數據堆棧成為關注和創(chuàng)新的焦點。
現代數據平臺的基本組成部分是什么?
若要了解特定 MDS 工具的優(yōu)點并做出正確的工具選擇,首先了解數據平臺的各個組件以及為每個組件提供服務的工具的通用功能非常有用。
數據平臺的基本組件(在數據流方向上)是:
數據收集和跟蹤
數據攝取
數據轉換
數據存儲(數據倉庫/湖)
指標運算層
商業(yè)智能工具BI
反向ETL數據服務
業(yè)務流程(工作流引擎)
數據管理、質量和治理
數據收集和跟蹤
這包括從客戶端應用程序(移動、Web、IoT 設備)收集行為數據的過程,以及從后端服務收集事務數據的過程。
該領域的MDS工具側重于減少由于設計不當,實施不正確,遺漏或延遲跟蹤數據而引起的質量問題。
MDS 數據收集和跟蹤工具的常見功能
事件架構設計接口
協作和同行評審的工作流程
將事件架構與堆棧的其余部分集成
根據事件架構自動生成跟蹤 SDK
根據架構驗證事件
數據攝取
引入是一種將原始數據從其真實來源提取并加載到中央數據倉庫/湖的機制。
現代數據生態(tài)系統(tǒng)具有管道,可將來自數百個第一方和第三方來源的原始數據引入倉庫。需要不斷布局新的引入管道,以滿足不斷增長的業(yè)務需求。
MDS 數據攝取工具旨在減少樣板文件、提高工作效率并確保數據質量。
MDS 數據引入工具的常見功能
可配置框架
即插即用連接器,適用于眾所周知的數據格式和來源
適用于熱門存儲目的地的即插即用集成
根據引入的數據進行質量檢查
引入管道的監(jiān)視和警報
數據轉換
轉換是對原始數據進行清理、規(guī)范化、篩選、聯接、建模和匯總以使其更易于理解和查詢的過程。在?ELT 體系結構中,轉換在數據引入后立即發(fā)生。
MDS 數據轉換工具專注于減少樣板文件,提供支持一致數據模型設計的框架,促進代碼重用和可測試性。
MDS 數據轉換工具的常見功能
對軟件工程最佳實踐的強大支持,如版本控制、測試、CI/CD 和代碼可重用性
支持常見的轉換模式,如冪等性、快照和增量
自動生成文檔
與其它工具集成
數據存儲(數據倉庫/湖)
數據倉庫/湖是現代數據平臺的核心。它充當組織所有行為和交易數據的歷史記錄。
MDS 數據存儲系統(tǒng)專注于提供無服務器自動縮放、閃電般的性能、規(guī)模經濟、更好的數據治理和高開發(fā)人員生產力。
MDS 數據倉庫/湖的通用功能
重負載期間自動縮放
支持開放數據格式,如Parquet,ORC和Avro
強大的安全性和訪問控制
數據治理功能,例如管理個人身份信息
支持批量和實時數據引入
豐富的信息架構
指標運算層
指標運算層位于數據模型和 BI 工具之間,允許數據團隊以聲明方式定義不同維度的指標。它提供了一個 API,用于將指標計算請求轉換為 SQL 查詢,并針對數據倉庫運行它們。
指標層有助于實現一致的報告,尤其是在指標定義和計算邏輯往往在不同部門之間存在差異的大型組織中。
MDS 指標工具的常見功能
指標的聲明性定義
指標定義的版本控制
用于查詢指標的 API
與流行的 BI 工具集成
針對低延遲的性能優(yōu)化
商業(yè)智能工具
BI 工具是數據使用者用來了解數據并支持組織中業(yè)務決策的分析、報告和儀表板工具。
MDS BI 工具專注于通過使組織中的任何人都可以輕松快速分析數據并構建功能豐富的報告來實現數據民主。
MDS BI 工具的常見功能
低代碼或無代碼
針對特定用例(如地理空間數據)的數據可視化
內置指標定義層
與數據堆棧中的其他工具集成
嵌入式協作和文檔功能
反向ETL
反向 ETL 是將轉換后的數據從數據倉庫移動到下游系統(tǒng)(如運營、財務、營銷、CRM、銷售,甚至回產品)的過程,以促進運營決策。
反向 ETL 工具類似于 MDS 數據引入工具,不同之處在于數據流的方向是相反的(從數據倉庫到下游系統(tǒng))。
反向 ETL 工具的常見功能
可配置框架
即插即用連接器,適用于眾所周知的數據格式和目標
流行數據源的即插即用集成
針對流出數據進行質量檢查
數據管道的監(jiān)視和警報
業(yè)務流程(工作流引擎)
業(yè)務流程系統(tǒng)需要按計劃運行數據管道、按需請求/放棄基礎結構資源、對故障做出反應以及從通用接口管理數據管道之間的依賴關系。
MDS 編排工具專注于提供工作流計劃的端到端管理、對復雜工作流依賴關系的廣泛支持以及與 Kubernetes 等現代基礎架構組件的無縫集成。
MDS 編排工具的常見功能
工作流的聲明性定義
復雜的調度
回填、重新運行和臨時運行
與數據堆棧中的其他工具集成
模塊化和可擴展設計
適用于流行云和基礎架構服務的插件
數據管理、質量和治理
數據治理是一個總稱,包括通過有效收集和利用元數據來管理數據質量、沿襲、發(fā)現、編目、信息安全和數據隱私。
MDS 數據治理工具專注于實現高度的透明度、協作和數據民主。
MDS 數據治理工具的常見功能
與數據堆棧中的其他工具集成
在整個組織中搜索和發(fā)現數據資產
觀察運動和靜止的數據,以確保數據質量
數據沿襲的可視化
數據文檔的眾包
協作和共享
監(jiān)控和警報數據安全和隱私不合規(guī)
跨現代數據堆棧的數據目錄和治理
如何開始使用現代數據堆棧?
鑒于生態(tài)系統(tǒng)中有大量可用的工具選擇,為您的業(yè)務需求選擇合適的 MDS 工具可能是一項艱巨的任務。
本部分重點介紹一些重要注意事項,以幫助你根據數據團隊的需求做出正確的選擇。
如何評估現代數據堆棧中的工具
1. 你真的需要這個工具嗎?
2. 該工具是否與您現有的基礎架構無縫集成?
3. 您是否具備必要的技術技能?
4. 多少錢?
5. 設置/載入需要付出什么努力?
6. 有哪些托管選項?
7. 該工具是否可擴展?
8. 該工具將如何影響您當前的云基礎架構?
9. 您是否可以輕松訪問原始數據?
10. 需要什么樣的數據隱私和訪問控制?
11. 是否有用于擴展性的開放 API?
12. 工具界面是否易于使用和直觀?
13. 該工具是否與您的項目管理和協作平臺配合良好?
14. 源代碼是開放的還是專有的?
15. 該工具是否得到了提供商和社區(qū)的良好支持?
16. 解決方案提供商公司是否有足夠的資金?
17. 刀具占地面積是多少?
現在,讓我們仔細討論每個問題
你真的需要這個工具嗎?
盡管大多數MDS工具都很經濟且易于設置,但仍然值得問問自己是否真的需要該工具。如果您的數據占用空間可以忽略不計,并且您的團隊規(guī)模較小,那么如果沒有額外的工具開銷,您可能會更好。
該工具是否與您現有的基礎架構無縫集成?
理想情況下,您應該選擇一個適合您現有基礎架構和數據架構的工具。如果您的組織已經擁有成熟的設置,則工具遷移的成本可能很高。購買適合您現有基礎架構的工具或至少注意權衡,將為您的數據團隊節(jié)省大量時間和精力。
您是否具備必要的技術技能?
從長遠來看,您的團隊是否具備管理、維護或擴展工具的技能?即使沒有代碼 MDS 工具,配置和微調也可能需要一些編碼技能和工作。
多少錢?
在做出選擇之前,請瀏覽定價層。從包含最基本功能的最低層開始,并根據需要進行擴展,這是很有意義的。
考慮基礎架構/云成本 - 它們可能并不總是包含在定價中。
尋找隱性成本。始終讓您的法律和財務團隊參與所有定價談判。
設置和載入需要付出什么努力?
評估安裝和載入所需的工作量??紤]遷移工作、用戶培訓和對其他團隊的依賴關系(如果有)。
有哪些托管選項?
您的基礎架構和安全團隊可能會要求將該工具托管在本地或云中。檢查這是否受支持,以及是否需要額外的成本/工作量。
該工具是否可擴展?
驗證該工具是否可以縱向擴展,以滿足未來 3 到 5 年內在用戶數量、存儲和計算等方面的增長需求。
該工具將如何影響您當前的云基礎架構?
如果該工具設置為使用現有云資源,則可能會影響其性能和可用性。在規(guī)劃基礎結構要求時,需要考慮到這一點。
您是否可以輕松訪問原始數據?
您的原始數據位于何處?該工具是否將其存儲在您自己的云中?還是將其存儲在工具的內部存儲中?如果是這樣,您是否可以輕松訪問它?此外,您是否能夠以標準文件格式或通過 API 輕松地將原始數據導入您自己的倉庫?這些是重要的注意事項,尤其是在您的組織處理敏感數據或需要遵守嚴格的數據法律時。
需要什么樣的數據隱私和訪問控制?
該工具是否支持 SSO 提供程序或需要單獨的憑據?
數據是否在動態(tài)和靜態(tài)中加密?
該工具支持哪些訪問控制策略,它如何遵守 GDPR 等監(jiān)管框架?
是否有用于擴展性的開放 API?
值得檢查該工具是否具有 API 來幫助您在需要時擴展其功能。
工具界面是否易于使用且直觀?
用戶體驗不佳的工具不會輕易被采用。請務必確定目標受眾的用戶體驗期望,以及該工具是否可以匹配他們。此外,請注意開發(fā)人員體驗,以最大程度地減少對使用的阻力和降低的生產力。
該工具是否與您的項目管理和協作平臺配合良好?
您選擇的工具應與 Jira、Confluence、Slack 和 Email 等項目管理和協作平臺很好地集成,以支持全球分布式團隊的日常任務。
源代碼是開放的還是專有的?
在這兩種情況下,都必須通過定期發(fā)布新版本、升級和錯誤修復來主動維護軟件。
但是,如果該工具是開源的,則必須具有足夠寬松的許可,并且使用您的團隊可以使用其當前專業(yè)知識支持的語言編寫。
該工具是否得到了提供商和社區(qū)的良好支持?
確保您選擇的工具有廣泛的文檔和可靠的社區(qū)支持。此外,請確保工具提供商可以在必要時提供高質量的技術支持。
解決方案提供商公司是否有足夠的資金?
現代數據生態(tài)系統(tǒng)中每天都有新工具出現。因此,重要的是要知道您選擇的工具的解決方案提供商公司是否得到了強有力的領導和充足的資金支持。當您對滿足您要求但尚未在社區(qū)中廣泛采用的工具感興趣時,這一點尤其重要。
工具占地面積是多少?
如果您選擇占用空間較大的工具,則需要進行徹底的研究,以確保不必過早更換它。占用空間較大的工具更難更換,因為它們在數據平臺中的范圍更大。
現代數據堆棧的未來
現代數據堆棧工具成倍地提高了數據從業(yè)者的工作效率。正因為如此,團隊已經準備好并愿意考慮解決更復雜的數據問題。數據網格、BI、流處理和數據操作化等新實踐已成為進一步創(chuàng)新的沃土。
與此同時,新興的 MDS 工具不斷突破數據存儲、處理、分析和管理的界限。看看現代數據堆棧將如何進一步發(fā)展以解決數據中的下一個復雜程度,這將是一件有趣的事情。