最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

你想知道的關于現(xiàn)代數(shù)據(jù)棧MDS的所有內(nèi)容

2023-04-03 17:15 作者:bili_42440936711  | 我要投稿

如今,每個人都在談論現(xiàn)代數(shù)據(jù)堆棧(MDS)。我是一個數(shù)據(jù)系統(tǒng)人員。我在大數(shù)據(jù)時代就開始構(gòu)建核心數(shù)據(jù)庫系統(tǒng),見證了云計算在過去十年中的誕生和繁榮。但是當我第一次遇到“現(xiàn)代數(shù)據(jù)堆?!边@個詞時,我感到困惑 - 它只是云服務供應商為吸引人們眼球而創(chuàng)造的另一個流行語嗎?網(wǎng)上的文章很多,但大多數(shù)都相當市場化和銷售。在運行了一家在現(xiàn)代數(shù)據(jù)堆棧領域構(gòu)建核心系統(tǒng)的初創(chuàng)公司一段時間后,我想分享我的想法。在本文中,我將用簡單的術(shù)語向您解釋“現(xiàn)代數(shù)據(jù)堆棧”,并討論為什么現(xiàn)代數(shù)據(jù)堆棧在公司中真的很重要。

什么是現(xiàn)代數(shù)據(jù)堆棧?

對現(xiàn)代數(shù)據(jù)堆棧最一般(也許也是最不清楚)的解釋是,它是圍繞數(shù)據(jù)倉庫構(gòu)建的一組工具,用于簡化數(shù)據(jù)集成?,F(xiàn)代數(shù)據(jù)堆棧的基本起點是節(jié)省數(shù)據(jù)工程師和數(shù)據(jù)分析師的時間。在這里,數(shù)據(jù)集成本質(zhì)上是將來自不同數(shù)據(jù)源的數(shù)據(jù)放在一起,然后進行分析和操作。例如,在電子商務網(wǎng)站中,必須有用戶訪問數(shù)據(jù)、用戶訂單數(shù)據(jù)、商品信息數(shù)據(jù)等數(shù)據(jù)源。通過以某些方式將這些數(shù)據(jù)放在一起,我們可以獲得一些知識,例如哪些類型的用戶對哪些產(chǎn)品感興趣,哪種類型的產(chǎn)品最適合銷售,等等。一般來說,現(xiàn)代數(shù)據(jù)堆棧就是幫助人們將數(shù)據(jù)轉(zhuǎn)化為知識。

?

?

來自 Fivetran 的現(xiàn)代數(shù)據(jù)堆棧的插圖

上圖來自 Fivetran 首席執(zhí)行官 George Fraser 在 Tableau 大會 2019 上的分享。在分享中,George 解釋了現(xiàn)代數(shù)據(jù)堆棧的樣子。數(shù)據(jù)倉庫從各種數(shù)據(jù)源獲取輸入,在倉庫內(nèi)部轉(zhuǎn)換,并提供建模良好的數(shù)據(jù)來支持商業(yè)智能,

看完上面對現(xiàn)代數(shù)據(jù)棧的定義,你可能會問:為什么這個架構(gòu)是“現(xiàn)代”的?這聽起來像是營銷噱頭的流行語嗎?的確,“現(xiàn)代數(shù)據(jù)堆棧”一詞聽起來如此以營銷為導向,以至于人們甚至可能不喜歡它。在我們深入研究現(xiàn)代數(shù)據(jù)堆棧之前,讓我們先探索一下誰首先發(fā)明了這個術(shù)語。

誰發(fā)明了“現(xiàn)代數(shù)據(jù)堆?!币辉~?

坦率地說,由于現(xiàn)有的模棱兩可之處,很難找到關于其根源的非常明確的答案。但是,可以肯定的是,該術(shù)語是由Fivetran,dbt及其背后的風險投資推廣的。

通過在網(wǎng)上搜索,我們可以發(fā)現(xiàn)這個詞第一次流行是在 2020 年之后。最著名的演講/文章來自2020年下半年,由dbt首席執(zhí)行官特里斯坦·漢迪(Tristan Handy)撰寫。在他的文章《現(xiàn)代數(shù)據(jù)棧:過去、現(xiàn)在和未來》中,現(xiàn)代數(shù)據(jù)棧的發(fā)展分為三個時代:寒武紀大爆發(fā)I(2012-2016)、部署(2016-2020)和寒武紀大爆發(fā)II(2020-2025)。我建議讀者閱讀原文,了解這三個時代的確切定義。同年,知名風險投資公司a16z發(fā)布了另一份題為“現(xiàn)代數(shù)據(jù)基礎設施的新興架構(gòu):2020”的報告。本文從VC的角度解釋了2020年美國各科技公司使用的數(shù)據(jù)基礎設施。

?

?

“現(xiàn)代數(shù)據(jù)堆?!痹诠雀柃厔萆系乃阉髁餍卸?/p>

事實上,經(jīng)過更深入的搜索,你會發(fā)現(xiàn) Fivetran 的首席執(zhí)行官喬治·弗雷澤在 2019 年的一次演講中提到了這個概念。特里斯坦在推特上還表示,他在2016年提出了類似的想法,即“現(xiàn)代BI堆棧”。

?

?

dbt首席執(zhí)行官Tristan Handy在Twitter上的回復

為什么我們需要現(xiàn)代數(shù)據(jù)堆棧?

了解了現(xiàn)代數(shù)據(jù)堆棧的歷史,我們可以回到上一個問題:為什么這種架構(gòu)是“現(xiàn)代”的?為什么我們需要一個“現(xiàn)代”數(shù)據(jù)堆棧?以前的數(shù)據(jù)堆棧不完美嗎?為了回答這些問題,我認為我們應該關注“數(shù)據(jù)”,而不是“現(xiàn)代”。數(shù)據(jù)是現(xiàn)代數(shù)據(jù)堆棧的核心,而不是技術(shù)。這個術(shù)語的本質(zhì)是它改變了公司使用技術(shù)的方式:公司不再為某個技術(shù)產(chǎn)品構(gòu)建堆棧,而是為自己的數(shù)據(jù)構(gòu)建堆棧。

讓我們回顧一下 20 年前公司如何管理其數(shù)據(jù)。二十年前,企業(yè)數(shù)據(jù)基本上存儲在甲骨文、IBM和微軟銷售的數(shù)據(jù)庫系統(tǒng)中。這些用例中的一些典型特征如下。

  • 首先,甲骨文、IBM和微軟等科技巨頭銷售的數(shù)據(jù)庫系統(tǒng)價格昂貴,并非所有公司都能負擔得起這些數(shù)據(jù)庫系統(tǒng)。

  • 其次,數(shù)據(jù)庫供應商提供咨詢和支持服務,而不是運維服務。通常,企業(yè)需要聘請專門的DBA團隊來操作和維護這些數(shù)據(jù)庫,并在這些數(shù)據(jù)庫之上構(gòu)建應用程序。

  • 第三,數(shù)據(jù)規(guī)模和應用程序數(shù)量都不大。

由于這些原因,當企業(yè)試圖管理自己的數(shù)據(jù)時,他們并沒有真正為數(shù)據(jù)構(gòu)建框架。相反,他們正在為數(shù)據(jù)庫構(gòu)建一個框架。

現(xiàn)在時間不同了。在過去的20年里,企業(yè)的數(shù)據(jù)規(guī)模和應用數(shù)量呈指數(shù)級增長。一些數(shù)據(jù)庫產(chǎn)品從現(xiàn)代企業(yè)的需求中應運而生。云計算的發(fā)展和普及,進一步刺激了更多企業(yè)使用數(shù)據(jù)庫。另一方面,市場的爆炸式增長也導致了數(shù)據(jù)庫領域的可持續(xù)發(fā)展。與20年前相比:

  • 數(shù)據(jù)庫的價格和使用欄已大大降低。

  • 數(shù)據(jù)庫供應商不僅銷售軟件,還銷售服務。

  • 數(shù)據(jù)庫不再爭奪性能,而是爭奪易用性。

在面對海量數(shù)據(jù)和應用時,如果數(shù)據(jù)軟件的價格足夠低,性能足夠好,企業(yè)就可以把時間從處理數(shù)據(jù)庫的繁瑣工作中省下來,專注于如何讓數(shù)據(jù)管理更容易。這正是現(xiàn)代數(shù)據(jù)堆棧背后的初衷:使數(shù)據(jù)管理更容易。

如何使數(shù)據(jù)管理更輕松?

如上所述,現(xiàn)代數(shù)據(jù)堆棧的倡導者包括dbt,F(xiàn)ivetran,a16z,其他數(shù)據(jù)軟件公司和許多風險投資。他們都想改變的是公司準備數(shù)據(jù)進行分析的方式:從傳統(tǒng)的ETL(提取,轉(zhuǎn)換,加載)到ELT(提取,加載,轉(zhuǎn)換)。下面是 George Fraser在 Tableau 大會 2019 上的分享,解釋了 ETL 和 ELT 之間的區(qū)別。這里 ETL 意味著要將數(shù)據(jù)源引入數(shù)據(jù)倉庫,必須經(jīng)過三個步驟:數(shù)據(jù)提取、轉(zhuǎn)換和加載。相反,ELT 的意思是,在將數(shù)據(jù)加載到云數(shù)據(jù)倉庫之前,只需要數(shù)據(jù)提取和數(shù)據(jù)加載。數(shù)據(jù)轉(zhuǎn)換直接在數(shù)據(jù)倉庫內(nèi)執(zhí)行。

?

?

ETL 和 ELT 之間的區(qū)別

將傳統(tǒng)的 ETL 轉(zhuǎn)換為新型的 ELT,可以將復雜的數(shù)據(jù)計算從數(shù)據(jù)倉庫外部移動到內(nèi)部。此移動可以簡化整個數(shù)據(jù)的管理。這聽起來仍然有點令人困惑:ELT如何簡化我們的數(shù)據(jù)管理?您能否通過一個簡單的步驟將公司的“舊技術(shù)堆?!鞭D(zhuǎn)變?yōu)椤艾F(xiàn)代數(shù)據(jù)堆棧”?

想象一下,如果沒有 ELT,我們的數(shù)據(jù)管理會是什么樣子。公司的一些員工想要分析原始數(shù)據(jù),他們使用 ETL 工具構(gòu)建管道,將數(shù)據(jù)清理處理到數(shù)據(jù)倉庫中的表 X 中,然后在數(shù)據(jù)倉庫中分析表 X。在分析過程中,他們發(fā)現(xiàn)他們沒有提取一列數(shù)據(jù),或者數(shù)據(jù)處理方法錯誤,或者數(shù)據(jù)的單位錯誤。這時,她/他該怎么辦?唯一的方法是從數(shù)據(jù)源重新獲取數(shù)據(jù),重新生成 ETL 管道,然后重新分析數(shù)據(jù)。但是,數(shù)據(jù)源中的數(shù)據(jù)通常是臨時的。通常,企業(yè)僅將數(shù)據(jù)源保存 30 天或 <> 天。也就是說,當她/他想要重新提取數(shù)據(jù)、構(gòu)建管道并執(zhí)行分析時,原始數(shù)據(jù)可能已經(jīng)丟失。

ELT以蠻力方式解決了這個問題:將所有原始數(shù)據(jù)存儲在數(shù)據(jù)倉庫中。當原始數(shù)據(jù)存儲在數(shù)據(jù)倉庫中時,不存在所謂的數(shù)據(jù)丟失問題,可以找到所有歷史記錄。當我們想要處理數(shù)據(jù)時,我們不構(gòu)建任何用于處理的管道,而是直接編寫 SQL,并使用數(shù)據(jù)倉庫本身的算力進行處理。

這聽起來很簡單,似乎不像是 2020 年代才出現(xiàn)的東西。為什么 20 年前沒有使用 ELT?為什么ELT是最近幾年才推廣的?我認為這有幾個原因。

  • 首先,20年前的數(shù)據(jù)量比較小,數(shù)據(jù)格式比現(xiàn)在比較簡單,處理要求不高。即使每個人開發(fā)應用程序都很麻煩,但都可以由堆棧工程師解決。

  • 其次,20年前的數(shù)據(jù)庫系統(tǒng)太貴了,無法購買或不想花很多錢來存儲大量數(shù)據(jù)。

  • 第三,當時數(shù)據(jù)庫系統(tǒng)的性能還比較弱。如今,工程師的成本很高,應用復雜多樣,不再可能簡單地依靠工程師來解決問題;云計算的出現(xiàn)大大降低了數(shù)據(jù)倉庫的成本,使得廉價存儲海量歷史數(shù)據(jù)成為可能;性能有了很大的提升,在數(shù)據(jù)倉庫中處理大量數(shù)據(jù)不再困難。

如果我們仔細思考,就會發(fā)現(xiàn)ELT的本質(zhì)其實就是把數(shù)據(jù)倉庫變成數(shù)據(jù)管理的中心,盡可能地利用數(shù)據(jù)倉庫的能力來處理數(shù)據(jù)問題?,F(xiàn)在回到本文的主題,這種以數(shù)據(jù)倉庫為中心的構(gòu)建堆棧的方式是現(xiàn)代數(shù)據(jù)堆棧所倡導的方式:數(shù)據(jù)倉庫功能的廣泛使用。ELT 只是現(xiàn)代數(shù)據(jù)堆棧的一部分。事實上,現(xiàn)代數(shù)據(jù)棧還包括其他方面,包括數(shù)據(jù)可視化、元數(shù)據(jù)信息管理、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)共享等。我們不會在本文中介紹這些主題。

現(xiàn)代數(shù)據(jù)堆棧與云計算有什么關系?

現(xiàn)代數(shù)據(jù)堆棧和云計算密切相關,但不一定是因果關系。事實上,云計算確實催化了現(xiàn)代數(shù)據(jù)棧的發(fā)展?,F(xiàn)代數(shù)據(jù)棧的本質(zhì)是簡化數(shù)據(jù)管理,而云計算則是降低數(shù)據(jù)管理成本;因此,起點是不同的。然而,如果沒有低成本的解決方案,就沒有辦法使數(shù)據(jù)管理更容易。

現(xiàn)代數(shù)據(jù)堆棧上是否會有一個放之四海而皆準的系統(tǒng)?

這里的一刀切系統(tǒng)是指一個可以做任何事情的系統(tǒng):它可以支持操作處理、分析處理、流處理、數(shù)據(jù)可視化、數(shù)據(jù)共享、數(shù)據(jù)治理等。所有任務都由一個系統(tǒng)完成。我認為這是一個理想的愿景,但實際上,我們還沒有達到一種尺寸可以適合所有人的階段。這里的關鍵問題不是它在技術(shù)上是否可行,而是產(chǎn)品是否可以被廣泛接受。

我認為這個問題可以從產(chǎn)品競爭和用戶需求的角度來探討。

  • 從產(chǎn)品競爭來看,現(xiàn)代數(shù)據(jù)軟件的競爭不僅僅是“硬”層面的競爭,比如性能和價格。供應商已將競爭擴展到“軟”級別的更多點,例如安全性和可用性。一刀切的系統(tǒng)通常很難與專門從事某項任務的產(chǎn)品競爭。一個很好的例子是縮放。盡管包括Slack,Microsoft Teams等在內(nèi)的許多辦公軟件都可以進行視頻會議,但Zoom憑借其專業(yè)性和易用性已成為該領域的當之無愧的贏家。

  • 在用戶需求方面,用戶很少需要使用一刀切系統(tǒng)中的所有功能。中小型企業(yè)往往只使用兩三個功能,自然而然地,他們可能更喜歡在這兩個或三個功能中做得最好的系統(tǒng)。在大公司中,用戶確實使用各種功能,但是當試圖說服這些用戶替換現(xiàn)有系統(tǒng)時,他們通常會被高昂的遷移成本所嚇倒。

當然,各種觀點都證明了一刀切制度的存在是合理的。最常見的論點是,企業(yè)級用戶通常只想解決問題,而不想花時間選擇解決方案。一刀切系統(tǒng)的存在可以大大節(jié)省他們選擇產(chǎn)品的時間。此外,這樣的系統(tǒng)可以提供更適合企業(yè)用戶的統(tǒng)一用戶體驗。

我認為這個問題沒有標準答案,我相信未來的趨勢(至少在未來 3-5 年)是共存。盡管如此,一刀切的制度仍將是少數(shù)。無論是瑞士軍刀、水果刀,還是美工刀,它們都有自己的生存空間,讓瑞士軍刀不會占領其他種類刀具的市場。

總結(jié)

現(xiàn)代數(shù)據(jù)堆棧服務于用戶的數(shù)據(jù),它正在徹底改變用戶與少數(shù)科技巨頭綁定的情況?,F(xiàn)代數(shù)據(jù)堆棧的目標是大大簡化用戶管理數(shù)據(jù)的難度,讓用戶更關心數(shù)據(jù)本身,而不是軟件。當然,現(xiàn)代數(shù)據(jù)堆棧仍在快速發(fā)展。在下一篇文章中,我將解釋現(xiàn)代數(shù)據(jù)堆棧的當前格局,以及在不久的將來會發(fā)生什么。

?

?

?

?

?

?

?


你想知道的關于現(xiàn)代數(shù)據(jù)棧MDS的所有內(nèi)容的評論 (共 條)

分享到微博請遵守國家法律
黑龙江省| 城步| 周宁县| 库车县| 正镶白旗| 巴中市| 三明市| 封丘县| 靖边县| 新和县| 连江县| 尼木县| 西青区| 海南省| 麟游县| 民丰县| 秦皇岛市| 襄城县| 怀来县| 琼海市| 昔阳县| 嘉禾县| 岢岚县| 富川| 关岭| 府谷县| 胶南市| 惠安县| 赣榆县| 丹阳市| 宁化县| 黔西| 洪江市| 海晏县| 塔城市| 罗山县| 鲁山县| 临夏市| 瑞昌市| 沭阳县| 叶城县|