最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

你想知道的關(guān)于現(xiàn)代數(shù)據(jù)棧MDS的所有內(nèi)容

2023-04-03 16:22 作者:檸萌徒弟  | 我要投稿

如今,每個(gè)人都在談?wù)摤F(xiàn)代數(shù)據(jù)堆棧(MDS)。我是一個(gè)數(shù)據(jù)系統(tǒng)人員。我在大數(shù)據(jù)時(shí)代就開(kāi)始構(gòu)建核心數(shù)據(jù)庫(kù)系統(tǒng),見(jiàn)證了云計(jì)算在過(guò)去十年中的誕生和繁榮。但是當(dāng)我第一次遇到“現(xiàn)代數(shù)據(jù)堆棧”這個(gè)詞時(shí),我感到困惑 - 它只是云服務(wù)供應(yīng)商為吸引人們眼球而創(chuàng)造的另一個(gè)流行語(yǔ)嗎?網(wǎng)上的文章很多,但大多數(shù)都相當(dāng)市場(chǎng)化和銷售。在運(yùn)行了一家在現(xiàn)代數(shù)據(jù)堆棧領(lǐng)域構(gòu)建核心系統(tǒng)的初創(chuàng)公司一段時(shí)間后,我想分享我的想法。在本文中,我將用簡(jiǎn)單的術(shù)語(yǔ)向您解釋“現(xiàn)代數(shù)據(jù)堆?!?,并討論為什么現(xiàn)代數(shù)據(jù)堆棧在公司中真的很重要。

什么是現(xiàn)代數(shù)據(jù)堆棧?

對(duì)現(xiàn)代數(shù)據(jù)堆棧最一般(也許也是最不清楚)的解釋是,它是圍繞數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的一組工具,用于簡(jiǎn)化數(shù)據(jù)集成。現(xiàn)代數(shù)據(jù)堆棧的基本起點(diǎn)是節(jié)省數(shù)據(jù)工程師和數(shù)據(jù)分析師的時(shí)間。在這里,數(shù)據(jù)集成本質(zhì)上是將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)放在一起,然后進(jìn)行分析和操作。例如,在電子商務(wù)網(wǎng)站中,必須有用戶訪問(wèn)數(shù)據(jù)、用戶訂單數(shù)據(jù)、商品信息數(shù)據(jù)等數(shù)據(jù)源。通過(guò)以某些方式將這些數(shù)據(jù)放在一起,我們可以獲得一些知識(shí),例如哪些類型的用戶對(duì)哪些產(chǎn)品感興趣,哪種類型的產(chǎn)品最適合銷售,等等。一般來(lái)說(shuō),現(xiàn)代數(shù)據(jù)堆棧就是幫助人們將數(shù)據(jù)轉(zhuǎn)化為知識(shí)。

來(lái)自 Fivetran 的現(xiàn)代數(shù)據(jù)堆棧的插圖

上圖來(lái)自 Fivetran 首席執(zhí)行官 George Fraser 在 Tableau 大會(huì) 2019 上的分享。在分享中,George 解釋了現(xiàn)代數(shù)據(jù)堆棧的樣子。數(shù)據(jù)倉(cāng)庫(kù)從各種數(shù)據(jù)源獲取輸入,在倉(cāng)庫(kù)內(nèi)部轉(zhuǎn)換,并提供建模良好的數(shù)據(jù)來(lái)支持商業(yè)智能,

看完上面對(duì)現(xiàn)代數(shù)據(jù)棧的定義,你可能會(huì)問(wèn):為什么這個(gè)架構(gòu)是“現(xiàn)代”的?這聽(tīng)起來(lái)像是營(yíng)銷噱頭的流行語(yǔ)嗎?的確,“現(xiàn)代數(shù)據(jù)堆?!币辉~聽(tīng)起來(lái)如此以營(yíng)銷為導(dǎo)向,以至于人們甚至可能不喜歡它。在我們深入研究現(xiàn)代數(shù)據(jù)堆棧之前,讓我們先探索一下誰(shuí)首先發(fā)明了這個(gè)術(shù)語(yǔ)。

誰(shuí)發(fā)明了“現(xiàn)代數(shù)據(jù)堆?!币辉~?

坦率地說(shuō),由于現(xiàn)有的模棱兩可之處,很難找到關(guān)于其根源的非常明確的答案。但是,可以肯定的是,該術(shù)語(yǔ)是由Fivetran,dbt及其背后的風(fēng)險(xiǎn)投資推廣的。

通過(guò)在網(wǎng)上搜索,我們可以發(fā)現(xiàn)這個(gè)詞第一次流行是在 2020 年之后。最著名的演講/文章來(lái)自2020年下半年,由dbt首席執(zhí)行官特里斯坦·漢迪(Tristan Handy)撰寫(xiě)。在他的文章《現(xiàn)代數(shù)據(jù)棧:過(guò)去、現(xiàn)在和未來(lái)》中,現(xiàn)代數(shù)據(jù)棧的發(fā)展分為三個(gè)時(shí)代:寒武紀(jì)大爆發(fā)I(2012-2016)、部署(2016-2020)和寒武紀(jì)大爆發(fā)II(2020-2025)。我建議讀者閱讀原文,了解這三個(gè)時(shí)代的確切定義。同年,知名風(fēng)險(xiǎn)投資公司a16z發(fā)布了另一份題為“現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施的新興架構(gòu):2020”的報(bào)告。本文從VC的角度解釋了2020年美國(guó)各科技公司使用的數(shù)據(jù)基礎(chǔ)設(shè)施。

“現(xiàn)代數(shù)據(jù)堆棧”在谷歌趨勢(shì)上的搜索流行度

事實(shí)上,經(jīng)過(guò)更深入的搜索,你會(huì)發(fā)現(xiàn) Fivetran 的首席執(zhí)行官喬治·弗雷澤在 2019 年的一次演講中提到了這個(gè)概念。特里斯坦在推特上還表示,他在2016年提出了類似的想法,即“現(xiàn)代BI堆?!?。

dbt首席執(zhí)行官Tristan Handy在Twitter上的回復(fù)

為什么我們需要現(xiàn)代數(shù)據(jù)堆棧?

了解了現(xiàn)代數(shù)據(jù)堆棧的歷史,我們可以回到上一個(gè)問(wèn)題:為什么這種架構(gòu)是“現(xiàn)代”的?為什么我們需要一個(gè)“現(xiàn)代”數(shù)據(jù)堆棧?以前的數(shù)據(jù)堆棧不完美嗎?為了回答這些問(wèn)題,我認(rèn)為我們應(yīng)該關(guān)注“數(shù)據(jù)”,而不是“現(xiàn)代”。數(shù)據(jù)是現(xiàn)代數(shù)據(jù)堆棧的核心,而不是技術(shù)。這個(gè)術(shù)語(yǔ)的本質(zhì)是它改變了公司使用技術(shù)的方式:公司不再為某個(gè)技術(shù)產(chǎn)品構(gòu)建堆棧,而是為自己的數(shù)據(jù)構(gòu)建堆棧。

讓我們回顧一下 20 年前公司如何管理其數(shù)據(jù)。二十年前,企業(yè)數(shù)據(jù)基本上存儲(chǔ)在甲骨文、IBM和微軟銷售的數(shù)據(jù)庫(kù)系統(tǒng)中。這些用例中的一些典型特征如下。

? ? 首先,甲骨文、IBM和微軟等科技巨頭銷售的數(shù)據(jù)庫(kù)系統(tǒng)價(jià)格昂貴,并非所有公司都能負(fù)擔(dān)得起這些數(shù)據(jù)庫(kù)系統(tǒng)。

? ? 其次,數(shù)據(jù)庫(kù)供應(yīng)商提供咨詢和支持服務(wù),而不是運(yùn)維服務(wù)。通常,企業(yè)需要聘請(qǐng)專門的DBA團(tuán)隊(duì)來(lái)操作和維護(hù)這些數(shù)據(jù)庫(kù),并在這些數(shù)據(jù)庫(kù)之上構(gòu)建應(yīng)用程序。

? ? 第三,數(shù)據(jù)規(guī)模和應(yīng)用程序數(shù)量都不大。

由于這些原因,當(dāng)企業(yè)試圖管理自己的數(shù)據(jù)時(shí),他們并沒(méi)有真正為數(shù)據(jù)構(gòu)建框架。相反,他們正在為數(shù)據(jù)庫(kù)構(gòu)建一個(gè)框架。

現(xiàn)在時(shí)間不同了。在過(guò)去的20年里,企業(yè)的數(shù)據(jù)規(guī)模和應(yīng)用數(shù)量呈指數(shù)級(jí)增長(zhǎng)。一些數(shù)據(jù)庫(kù)產(chǎn)品從現(xiàn)代企業(yè)的需求中應(yīng)運(yùn)而生。云計(jì)算的發(fā)展和普及,進(jìn)一步刺激了更多企業(yè)使用數(shù)據(jù)庫(kù)。另一方面,市場(chǎng)的爆炸式增長(zhǎng)也導(dǎo)致了數(shù)據(jù)庫(kù)領(lǐng)域的可持續(xù)發(fā)展。與20年前相比:

? ? 數(shù)據(jù)庫(kù)的價(jià)格和使用欄已大大降低。

? ? 數(shù)據(jù)庫(kù)供應(yīng)商不僅銷售軟件,還銷售服務(wù)。

? ? 數(shù)據(jù)庫(kù)不再爭(zhēng)奪性能,而是爭(zhēng)奪易用性。

在面對(duì)海量數(shù)據(jù)和應(yīng)用時(shí),如果數(shù)據(jù)軟件的價(jià)格足夠低,性能足夠好,企業(yè)就可以把時(shí)間從處理數(shù)據(jù)庫(kù)的繁瑣工作中省下來(lái),專注于如何讓數(shù)據(jù)管理更容易。這正是現(xiàn)代數(shù)據(jù)堆棧背后的初衷:使數(shù)據(jù)管理更容易。

如何使數(shù)據(jù)管理更輕松?

如上所述,現(xiàn)代數(shù)據(jù)堆棧的倡導(dǎo)者包括dbt,F(xiàn)ivetran,a16z,其他數(shù)據(jù)軟件公司和許多風(fēng)險(xiǎn)投資。他們都想改變的是公司準(zhǔn)備數(shù)據(jù)進(jìn)行分析的方式:從傳統(tǒng)的ETL(提取,轉(zhuǎn)換,加載)到ELT(提取,加載,轉(zhuǎn)換)。下面是 George Fraser在 Tableau 大會(huì) 2019 上的分享,解釋了 ETL 和 ELT 之間的區(qū)別。這里 ETL 意味著要將數(shù)據(jù)源引入數(shù)據(jù)倉(cāng)庫(kù),必須經(jīng)過(guò)三個(gè)步驟:數(shù)據(jù)提取、轉(zhuǎn)換和加載。相反,ELT 的意思是,在將數(shù)據(jù)加載到云數(shù)據(jù)倉(cāng)庫(kù)之前,只需要數(shù)據(jù)提取和數(shù)據(jù)加載。數(shù)據(jù)轉(zhuǎn)換直接在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)執(zhí)行。

ETL 和 ELT 之間的區(qū)別

將傳統(tǒng)的 ETL 轉(zhuǎn)換為新型的 ELT,可以將復(fù)雜的數(shù)據(jù)計(jì)算從數(shù)據(jù)倉(cāng)庫(kù)外部移動(dòng)到內(nèi)部。此移動(dòng)可以簡(jiǎn)化整個(gè)數(shù)據(jù)的管理。這聽(tīng)起來(lái)仍然有點(diǎn)令人困惑:ELT如何簡(jiǎn)化我們的數(shù)據(jù)管理?您能否通過(guò)一個(gè)簡(jiǎn)單的步驟將公司的“舊技術(shù)堆棧”轉(zhuǎn)變?yōu)椤艾F(xiàn)代數(shù)據(jù)堆?!保?/p>

想象一下,如果沒(méi)有 ELT,我們的數(shù)據(jù)管理會(huì)是什么樣子。公司的一些員工想要分析原始數(shù)據(jù),他們使用 ETL 工具構(gòu)建管道,將數(shù)據(jù)清理處理到數(shù)據(jù)倉(cāng)庫(kù)中的表 X 中,然后在數(shù)據(jù)倉(cāng)庫(kù)中分析表 X。在分析過(guò)程中,他們發(fā)現(xiàn)他們沒(méi)有提取一列數(shù)據(jù),或者數(shù)據(jù)處理方法錯(cuò)誤,或者數(shù)據(jù)的單位錯(cuò)誤。這時(shí),她/他該怎么辦?唯一的方法是從數(shù)據(jù)源重新獲取數(shù)據(jù),重新生成 ETL 管道,然后重新分析數(shù)據(jù)。但是,數(shù)據(jù)源中的數(shù)據(jù)通常是臨時(shí)的。通常,企業(yè)僅將數(shù)據(jù)源保存 30 天或 <> 天。也就是說(shuō),當(dāng)她/他想要重新提取數(shù)據(jù)、構(gòu)建管道并執(zhí)行分析時(shí),原始數(shù)據(jù)可能已經(jīng)丟失。

ELT以蠻力方式解決了這個(gè)問(wèn)題:將所有原始數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。當(dāng)原始數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中時(shí),不存在所謂的數(shù)據(jù)丟失問(wèn)題,可以找到所有歷史記錄。當(dāng)我們想要處理數(shù)據(jù)時(shí),我們不構(gòu)建任何用于處理的管道,而是直接編寫(xiě) SQL,并使用數(shù)據(jù)倉(cāng)庫(kù)本身的算力進(jìn)行處理。

這聽(tīng)起來(lái)很簡(jiǎn)單,似乎不像是 2020 年代才出現(xiàn)的東西。為什么 20 年前沒(méi)有使用 ELT?為什么ELT是最近幾年才推廣的?我認(rèn)為這有幾個(gè)原因。

? ? 首先,20年前的數(shù)據(jù)量比較小,數(shù)據(jù)格式比現(xiàn)在比較簡(jiǎn)單,處理要求不高。即使每個(gè)人開(kāi)發(fā)應(yīng)用程序都很麻煩,但都可以由堆棧工程師解決。

? ? 其次,20年前的數(shù)據(jù)庫(kù)系統(tǒng)太貴了,無(wú)法購(gòu)買或不想花很多錢來(lái)存儲(chǔ)大量數(shù)據(jù)。

? ? 第三,當(dāng)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)的性能還比較弱。如今,工程師的成本很高,應(yīng)用復(fù)雜多樣,不再可能簡(jiǎn)單地依靠工程師來(lái)解決問(wèn)題;云計(jì)算的出現(xiàn)大大降低了數(shù)據(jù)倉(cāng)庫(kù)的成本,使得廉價(jià)存儲(chǔ)海量歷史數(shù)據(jù)成為可能;性能有了很大的提升,在數(shù)據(jù)倉(cāng)庫(kù)中處理大量數(shù)據(jù)不再困難。

如果我們仔細(xì)思考,就會(huì)發(fā)現(xiàn)ELT的本質(zhì)其實(shí)就是把數(shù)據(jù)倉(cāng)庫(kù)變成數(shù)據(jù)管理的中心,盡可能地利用數(shù)據(jù)倉(cāng)庫(kù)的能力來(lái)處理數(shù)據(jù)問(wèn)題?,F(xiàn)在回到本文的主題,這種以數(shù)據(jù)倉(cāng)庫(kù)為中心的構(gòu)建堆棧的方式是現(xiàn)代數(shù)據(jù)堆棧所倡導(dǎo)的方式:數(shù)據(jù)倉(cāng)庫(kù)功能的廣泛使用。ELT 只是現(xiàn)代數(shù)據(jù)堆棧的一部分。事實(shí)上,現(xiàn)代數(shù)據(jù)棧還包括其他方面,包括數(shù)據(jù)可視化、元數(shù)據(jù)信息管理、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)共享等。我們不會(huì)在本文中介紹這些主題。

現(xiàn)代數(shù)據(jù)堆棧與云計(jì)算有什么關(guān)系?

現(xiàn)代數(shù)據(jù)堆棧和云計(jì)算密切相關(guān),但不一定是因果關(guān)系。事實(shí)上,云計(jì)算確實(shí)催化了現(xiàn)代數(shù)據(jù)棧的發(fā)展?,F(xiàn)代數(shù)據(jù)棧的本質(zhì)是簡(jiǎn)化數(shù)據(jù)管理,而云計(jì)算則是降低數(shù)據(jù)管理成本;因此,起點(diǎn)是不同的。然而,如果沒(méi)有低成本的解決方案,就沒(méi)有辦法使數(shù)據(jù)管理更容易。

現(xiàn)代數(shù)據(jù)堆棧上是否會(huì)有一個(gè)放之四海而皆準(zhǔn)的系統(tǒng)?

這里的一刀切系統(tǒng)是指一個(gè)可以做任何事情的系統(tǒng):它可以支持操作處理、分析處理、流處理、數(shù)據(jù)可視化、數(shù)據(jù)共享、數(shù)據(jù)治理等。所有任務(wù)都由一個(gè)系統(tǒng)完成。我認(rèn)為這是一個(gè)理想的愿景,但實(shí)際上,我們還沒(méi)有達(dá)到一種尺寸可以適合所有人的階段。這里的關(guān)鍵問(wèn)題不是它在技術(shù)上是否可行,而是產(chǎn)品是否可以被廣泛接受。

我認(rèn)為這個(gè)問(wèn)題可以從產(chǎn)品競(jìng)爭(zhēng)和用戶需求的角度來(lái)探討。

? ? 從產(chǎn)品競(jìng)爭(zhēng)來(lái)看,現(xiàn)代數(shù)據(jù)軟件的競(jìng)爭(zhēng)不僅僅是“硬”層面的競(jìng)爭(zhēng),比如性能和價(jià)格。供應(yīng)商已將競(jìng)爭(zhēng)擴(kuò)展到“軟”級(jí)別的更多點(diǎn),例如安全性和可用性。一刀切的系統(tǒng)通常很難與專門從事某項(xiàng)任務(wù)的產(chǎn)品競(jìng)爭(zhēng)。一個(gè)很好的例子是縮放。盡管包括Slack,Microsoft Teams等在內(nèi)的許多辦公軟件都可以進(jìn)行視頻會(huì)議,但Zoom憑借其專業(yè)性和易用性已成為該領(lǐng)域的當(dāng)之無(wú)愧的贏家。

? ? 在用戶需求方面,用戶很少需要使用一刀切系統(tǒng)中的所有功能。中小型企業(yè)往往只使用兩三個(gè)功能,自然而然地,他們可能更喜歡在這兩個(gè)或三個(gè)功能中做得最好的系統(tǒng)。在大公司中,用戶確實(shí)使用各種功能,但是當(dāng)試圖說(shuō)服這些用戶替換現(xiàn)有系統(tǒng)時(shí),他們通常會(huì)被高昂的遷移成本所嚇倒。

當(dāng)然,各種觀點(diǎn)都證明了一刀切制度的存在是合理的。最常見(jiàn)的論點(diǎn)是,企業(yè)級(jí)用戶通常只想解決問(wèn)題,而不想花時(shí)間選擇解決方案。一刀切系統(tǒng)的存在可以大大節(jié)省他們選擇產(chǎn)品的時(shí)間。此外,這樣的系統(tǒng)可以提供更適合企業(yè)用戶的統(tǒng)一用戶體驗(yàn)。

我認(rèn)為這個(gè)問(wèn)題沒(méi)有標(biāo)準(zhǔn)答案,我相信未來(lái)的趨勢(shì)(至少在未來(lái) 3-5 年)是共存。盡管如此,一刀切的制度仍將是少數(shù)。無(wú)論是瑞士軍刀、水果刀,還是美工刀,它們都有自己的生存空間,讓瑞士軍刀不會(huì)占領(lǐng)其他種類刀具的市場(chǎng)。

總結(jié)

現(xiàn)代數(shù)據(jù)堆棧服務(wù)于用戶的數(shù)據(jù),它正在徹底改變用戶與少數(shù)科技巨頭綁定的情況。現(xiàn)代數(shù)據(jù)堆棧的目標(biāo)是大大簡(jiǎn)化用戶管理數(shù)據(jù)的難度,讓用戶更關(guān)心數(shù)據(jù)本身,而不是軟件。當(dāng)然,現(xiàn)代數(shù)據(jù)堆棧仍在快速發(fā)展。在下一篇文章中,我將解釋現(xiàn)代數(shù)據(jù)堆棧的當(dāng)前格局,以及在不久的將來(lái)會(huì)發(fā)生什么。


你想知道的關(guān)于現(xiàn)代數(shù)據(jù)棧MDS的所有內(nèi)容的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
连江县| 靖宇县| 浮山县| 衡南县| 漾濞| 西安市| 玛多县| 绥德县| 潞城市| 兰坪| 资阳市| 甘泉县| 鹤庆县| 保亭| 丰顺县| 姜堰市| 家居| 彭州市| 施秉县| 林芝县| 水富县| 渭源县| 铜陵市| 库尔勒市| 罗定市| 鹿邑县| 淳安县| 正宁县| 顺平县| 祁阳县| 南康市| 日土县| 邵东县| 屏山县| 利津县| 林州市| 泰州市| 莱西市| 麻江县| 林州市| 永善县|