現(xiàn)代數(shù)據(jù)棧MDS興起
Dazdata MDS
云、開源和 SaaS 商業(yè)模式改變了軟件行業(yè)以及公司思考和構(gòu)建產(chǎn)品的方式。今天,我們可以在比以前更少的時間和成本內(nèi)建立整個技術(shù)堆棧。毫不奇怪,這些轉(zhuǎn)換為現(xiàn)代數(shù)據(jù)堆棧鋪平了道路。
現(xiàn)代數(shù)據(jù)堆棧由一組靈活的技術(shù)組成,可幫助企業(yè)存儲、管理和學(xué)習(xí)數(shù)據(jù)。通常,現(xiàn)代數(shù)據(jù)堆?;诨谠频姆?wù)構(gòu)建,并且越來越多地包含低代碼和無代碼工具,使用戶能夠探索和使用數(shù)據(jù)。
什么是數(shù)據(jù)堆棧?
術(shù)語“數(shù)據(jù)堆?!逼鹪从凇凹夹g(shù)堆棧”,軟件工程師結(jié)合不同技術(shù)來構(gòu)建產(chǎn)品和服務(wù)的非常深思熟慮的組合。雖然技術(shù)堆棧可能專注于各種用例,但數(shù)據(jù)堆棧是專門為支持存儲、管理和訪問數(shù)據(jù)而構(gòu)建的。數(shù)據(jù)堆棧通常由尋求在戰(zhàn)略決策中利用其數(shù)據(jù)的公司構(gòu)建。
數(shù)據(jù)堆棧、數(shù)據(jù)平臺與數(shù)據(jù)基礎(chǔ)架構(gòu)
數(shù)據(jù)堆棧:組織用于存儲、管理和訪問數(shù)據(jù)的一組技術(shù)和服務(wù)。通常,這是作為技術(shù)和服務(wù)的列表共享的,但是給定堆棧背后的工作和理論比簡單格式所允許的要多方面得多。
數(shù)據(jù)平臺:將數(shù)據(jù)堆棧實(shí)施到基礎(chǔ)架構(gòu)中,即。您的每項(xiàng)技術(shù)和服務(wù)如何相互連接。通常,這被共享為抽象底層基礎(chǔ)結(jié)構(gòu)的圖表,但顯示了每個組件如何與其他組件協(xié)作。
數(shù)據(jù)基礎(chǔ)架構(gòu):為數(shù)據(jù)堆棧提供支持的底層計(jì)算系統(tǒng)。它通常以圖表的形式共享,但側(cè)重于網(wǎng)絡(luò)、硬件資源和低級 API。
數(shù)據(jù)堆棧如何演變
底層數(shù)據(jù)基礎(chǔ)架構(gòu)架構(gòu)的三個主要變化為現(xiàn)代數(shù)據(jù)堆棧鋪平了道路,并構(gòu)成了其定義的基礎(chǔ)。
1. 從本地遷移到云
現(xiàn)代數(shù)據(jù)堆棧通常利用云托管存儲對安全性和彈性的改進(jìn),但更重要的是以極低的成本存儲和處理非常大的數(shù)據(jù)塊。
2. 從 ETL 到 ELT 的轉(zhuǎn)變
數(shù)據(jù)倉庫曾經(jīng)是數(shù)據(jù)團(tuán)隊(duì)的巨大瓶頸。人們大多使用基于行的關(guān)系數(shù)據(jù)庫作為他們的數(shù)據(jù)倉庫,這對于數(shù)據(jù)分析工作負(fù)載來說不能很好地擴(kuò)展,因?yàn)樗鼘⑾嚓P(guān)數(shù)據(jù)分散到多個磁盤或服務(wù)器上。即使使用Hadoop等技術(shù),map-reduce jobs仍然需要數(shù)小時才能運(yùn)行,并且編寫和維護(hù)非常復(fù)雜。 此外,由于傳統(tǒng)數(shù)據(jù)倉庫的處理能力有限,數(shù)據(jù)工程師過去常常在加載數(shù)據(jù)之前編寫轉(zhuǎn)換作業(yè),從而導(dǎo)致術(shù)語 ETL(提取-轉(zhuǎn)換-加載)。 現(xiàn)在,隨著基于云的高性能列式數(shù)據(jù)倉庫的發(fā)展,數(shù)據(jù)工程師可以在幾分鐘內(nèi)運(yùn)行 PB 級查詢。借助現(xiàn)代數(shù)據(jù)堆棧,他們可以在幾分鐘內(nèi)預(yù)配并開始將數(shù)據(jù)加載到數(shù)據(jù)倉庫中(ELT、提取-加載-轉(zhuǎn)換),分析師不再需要依賴工程師來轉(zhuǎn)換數(shù)據(jù)。
3. 自助式分析的興起使數(shù)據(jù)探索民主化
無論公司規(guī)模如何,SQL的知識都限制了人們在沒有分析師幫助的情況下訪問存儲在數(shù)據(jù)庫和倉庫中的數(shù)據(jù)。例如,在傳統(tǒng)的數(shù)據(jù)堆棧中,想要訪問過產(chǎn)品某個區(qū)域的客戶列表的客戶經(jīng)理需要友好的工程師或分析師的幫助來為他們“提取”數(shù)據(jù)。
公司已經(jīng)認(rèn)識到了這一瓶頸,并使用Metabase等商業(yè)智能工具使組織中的每個人都能夠從數(shù)據(jù)中探索和找到答案?,F(xiàn)在,設(shè)計(jì)師可以了解其功能的用法,高管可以探索戰(zhàn)略選擇,客戶經(jīng)理可以進(jìn)行銷售,所有這些都無需依賴分析師。
現(xiàn)代數(shù)據(jù)堆棧的優(yōu)勢
模塊性
由于新式數(shù)據(jù)堆棧由具有通常具有標(biāo)準(zhǔn)連接點(diǎn)的技術(shù)組成,因此團(tuán)隊(duì)可以根據(jù)需求的發(fā)展交換堆棧的各個部分。這有助于他們避免供應(yīng)商鎖定,并允許團(tuán)隊(duì)隨著數(shù)據(jù)需求的成熟而擴(kuò)大堆棧。
速度(運(yùn)營和執(zhí)行)
由于舊數(shù)據(jù)倉庫中處理能力的限制,管道過去需要數(shù)小時(如果不是數(shù)天)才能運(yùn)行。如今,借助現(xiàn)代數(shù)據(jù)堆棧及其對彈性計(jì)算資源的訪問,可以在幾分鐘內(nèi)完成相同的工作。
此外,由于其組件的獨(dú)立性質(zhì),現(xiàn)代數(shù)據(jù)堆棧的設(shè)置和迭代速度明顯更快。如今,一家年輕的初創(chuàng)公司可以在短短幾個小時內(nèi)構(gòu)建一個分析堆棧來跟蹤他們的實(shí)驗(yàn),而無需編寫任何代碼 - 這項(xiàng)工作在傳統(tǒng)堆棧中需要數(shù)天或數(shù)周的時間。
成本
基于云的技術(shù)和數(shù)據(jù)存儲通常比本地技術(shù)和數(shù)據(jù)存儲節(jié)省大量成本。本地數(shù)據(jù)倉庫需要支付 100% 的服務(wù)器使用費(fèi)用,這使得擴(kuò)展變得困難或成本高昂。借助 Redshift、Snowflake 和 BigQuery 等基于云的數(shù)據(jù)倉庫,您只需為使用的內(nèi)容付費(fèi),并可以無縫擴(kuò)展海量工作負(fù)載。
現(xiàn)代數(shù)據(jù)堆棧的組件
大多數(shù)團(tuán)隊(duì)將數(shù)據(jù)堆棧組織成層,就像蛋糕一樣。并非每個團(tuán)隊(duì)都需要覆蓋每一層,但每個團(tuán)隊(duì)都有獨(dú)特的角色,有助于建立完整、美味的食譜。
例如,一個只是試圖驗(yàn)證一些實(shí)驗(yàn)的獨(dú)立創(chuàng)始人可能不需要復(fù)雜的轉(zhuǎn)換工具,但可能需要一種方法將其數(shù)據(jù)源連接到分析工具。
數(shù)據(jù)源
這就是您的數(shù)據(jù)來源:它可以是您的生產(chǎn)數(shù)據(jù)庫(例如PostgreSQL),Web服務(wù)器的日志,或者第三方應(yīng)用程序,如Stripe,Zendesk或您正在使用的任何其他產(chǎn)品。團(tuán)隊(duì)通常擁有多個數(shù)據(jù)源,所有這些數(shù)據(jù)源都流入集中式數(shù)據(jù)存儲解決方案。
數(shù)據(jù)引入
這就是數(shù)據(jù)從數(shù)據(jù)源移動和規(guī)范化到數(shù)據(jù)存儲的方式。
這個領(lǐng)域的主要公司是:Fivetran,Airbyte,Stitchdata和Segment。
數(shù)據(jù)存儲
這是聚合和存儲來自數(shù)據(jù)源的所有數(shù)據(jù)的位置。在成熟的數(shù)據(jù)堆棧中,它是通常是數(shù)據(jù)倉庫,但可能只是一個數(shù)據(jù)庫的只讀副本在早期階段的公司。
這個領(lǐng)域的三家主要公司是:Snowflake,Amazon Redshift和Google BigQuery。
數(shù)據(jù)轉(zhuǎn)換和建模
數(shù)據(jù)轉(zhuǎn)換和建模有助于將不同的數(shù)據(jù)源打包到用戶友好的模型中,以便人們可以探索這些組合集,而無需篩選原始數(shù)據(jù)并猜測它們所代表的內(nèi)容。
這個領(lǐng)域值得注意的公司:dbt和Dataform。
數(shù)據(jù)分析
數(shù)據(jù)分析有時簡化為“數(shù)據(jù)可視化”或“商業(yè)智能”,可幫助用戶在其數(shù)據(jù)中探索和發(fā)現(xiàn)見解。這通常涉及構(gòu)建可視化或其他表示形式,并且可以包括開發(fā)儀表板和其他用于監(jiān)視的工具。
現(xiàn)代數(shù)據(jù)分析包括幫助非技術(shù)用戶在無需了解 SQL 的情況下探索數(shù)據(jù)的工具。這使他們擺脫了對開發(fā)人員和分析師的依賴,并鼓勵每個人從數(shù)據(jù)中探索和學(xué)習(xí)。
我們很有偏見,但我們認(rèn)為Metabase是一個很好的選擇。您可以在這里嘗試一下.
數(shù)據(jù)操作化
也稱為“反向 ETL”,數(shù)據(jù)操作化是將數(shù)據(jù)從數(shù)據(jù)倉庫移回第三方系統(tǒng)以使數(shù)據(jù)可操作的過程。例如,將倉庫中的客戶數(shù)據(jù)同步到客戶服務(wù)軟件中,以便您的一線座席可以更好地為他們提供支持。
這個領(lǐng)域的著名公司:Census和Hightouch。
本文只是冰山一角,但我們希望它能讓您清楚地了解構(gòu)建和使用現(xiàn)代數(shù)據(jù)堆棧的特征和優(yōu)勢。