最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

《科技觀察》129:亞馬遜云科技:“Zero ETL”邁出關(guān)鍵一步,數(shù)據(jù)由此實現(xiàn)“無感知”

2022-12-24 16:10 作者:申斯基  | 我要投稿

毫無疑問,經(jīng)過近二十年的信息化和數(shù)字化的建設(shè),大部分企業(yè)已經(jīng)從“沒有數(shù)據(jù)”發(fā)展到了“數(shù)據(jù)太多”的階段。今天,各行各業(yè)正在由過去“粗放式”的增長向著數(shù)據(jù)支撐的“精細化”運營轉(zhuǎn)型,但隨之而來的是 ETL 任務的激劇膨脹,企業(yè)的整個數(shù)據(jù)倉庫可能充斥著數(shù)百萬張表,而無數(shù)個 ETL 任務不僅會讓重復操作變得過多,操作過程復雜,同時還嚴重耗費時間,可以說這讓企業(yè)的數(shù)據(jù)集成工作面臨著十分嚴峻的挑戰(zhàn)。

所謂“ETL”,指的是將業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過提?。‥xtract)、轉(zhuǎn)換清洗(Transform)和加載(Load)到數(shù)據(jù)倉庫、大數(shù)據(jù)平臺的過程,目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。也正因此,ETL對任何一家企業(yè)來說歷來都是“老大難”的問題。數(shù)據(jù)顯示,在企業(yè)的BI(商業(yè)智能)項目中,構(gòu)建 ETL 會花掉整個項目至少1/3的時間;而自傳統(tǒng)數(shù)據(jù)倉庫理論形成,ETL 構(gòu)建與維護甚至會占據(jù)數(shù)據(jù)工程師超過70%的工作量。

在此背景下,在剛剛舉辦的2022亞馬遜云科技 re:Invent 全球大會上,亞馬遜云科技發(fā)布了一系列的全新技術(shù),希望最大化幫助企業(yè)減少數(shù)據(jù)集成帶來的痛苦和挑戰(zhàn),而這些新技術(shù)、新功能的上線,不僅能夠幫助企業(yè)的數(shù)據(jù)工程師實現(xiàn)“減負”,更賦予了數(shù)據(jù)“無感知”、“更自由”的流動能力,而這也標志著亞馬遜云科技向“Zero ETL”——即創(chuàng)造一個沒有ETL理想世界的愿景再次邁出重要一步,其價值無疑重要而深遠。

天下“苦ETL”久矣的背后

早在1991年,有著“數(shù)據(jù)倉庫之父”稱號的比爾·恩門(Bill Inmon)出版了他的第一本關(guān)于數(shù)據(jù)倉庫的著作《Building the Data Warehouse》,標志著數(shù)據(jù)倉庫概念的正式確立,而歷經(jīng)三十多年的發(fā)展,數(shù)據(jù)倉庫大概經(jīng)歷了三個階段的發(fā)展。

從早期諸如 Teradata、Greenplum 為代表傳統(tǒng)數(shù)倉時代,到后來離線存儲計算平臺(Hadoop、Hive、Spark、Flink)和實時數(shù)倉技術(shù)(Druid、Clickhouse、Doris)與平臺同時涌現(xiàn)的湖倉并存時代,技術(shù)在發(fā)展的浪潮下快速迭代,以云原生數(shù)倉為中心的現(xiàn)代數(shù)據(jù)棧時代已然到來。

但是,無論是何種時代下的數(shù)據(jù)倉庫,都是把業(yè)務系統(tǒng)的數(shù)據(jù)從各個地方匯集過來,通過一系列標準化、規(guī)范化的操作,再存起來放在同一個地方,這個過程就是我們通常所說的“ETL”,而要完成這一工作,企業(yè)所面臨的挑戰(zhàn)是巨大的,我們可以從幾個維度來做觀察:

一是,數(shù)據(jù)量激增的問題,目前雖然可以通過數(shù)據(jù)上云、湖倉一體的技術(shù)解決數(shù)據(jù)企業(yè)數(shù)據(jù)存儲的問題,讓企業(yè)的數(shù)據(jù)管理實現(xiàn)更統(tǒng)一,數(shù)據(jù)接口更標準,分析更自助。但與此同時,隨著數(shù)據(jù)量的爆炸,比如說一家中大型企業(yè)的BI項目可能會有幾百到幾千張的報表,每張報表可能有超過十個以上的指標,這就意味著有幾萬甚至幾十萬的業(yè)務指標,那么這些口徑是不是統(tǒng)一?這些數(shù)據(jù)是不是在被人使用?以及如何確定這些報表背后的數(shù)據(jù)價值呢?

二是,ETL“膨脹”的問題,數(shù)據(jù)的集成工作還會讓ETL任務和過程變得“膨脹”。這背后不僅僅只是存儲的問題,它帶來更大的挑戰(zhàn)在于,這一過程中有著無數(shù)的ETL的任務,其實在不斷地做著重復性的工作,不斷地消耗整個數(shù)據(jù)集群的資源,而每一張報表背后每運行一次,都可能涉及到幾百甚至幾千的費用,因此對企業(yè)而言,如何簡化流程,控制成本也是必須要進行認真考量的問題。

三是,選型和維護的問題,主要體現(xiàn)在對于企業(yè)的數(shù)據(jù)工程師而言,當前市面上的ETL工具多,這也代表這選擇多和學習成本高,ETL的工具選型就是個難題。除此之外,由ETL“膨脹”難題帶來的挑戰(zhàn)還體現(xiàn)在,當下越復雜的項目調(diào)度任務越多,動輒數(shù)千個 ETL 任務的項目已“屢見不鮮”,因此數(shù)據(jù)工程師要實現(xiàn)任務調(diào)度與排查,背后的復雜與維護也是一個巨大的難題。

由此可見,企業(yè)的數(shù)據(jù)集成或者說完成ETL的過程,就是重復操作多,操作流程很繁瑣,耗費時間巨多,成本居高不下的過程,因此整個業(yè)界也就有了天下“苦ETL”久矣的說法。

“Zero ETL”邁出關(guān)鍵一步

也正是洞察到這種全新的挑戰(zhàn),作為全球云計算、云數(shù)據(jù)庫領(lǐng)域的領(lǐng)導者,亞馬遜云科技一直致力于實現(xiàn)“Zero ETL”的愿景,同時也一直在投入開發(fā)基于“Zero ETL”理念的技術(shù)功能。

此前,亞馬遜云科技就實現(xiàn)了Amazon Athena的Federated Query聯(lián)邦查詢功能,可以對存儲在關(guān)系數(shù)據(jù)源、非關(guān)系數(shù)據(jù)源、對象數(shù)據(jù)源和外部自定義數(shù)據(jù)源中的數(shù)據(jù)運行 SQL 查詢,而無需移動數(shù)據(jù)。還有流式服務(如Amazon Kinesis 和 Amazon MSK)向數(shù)據(jù)存儲服務(如 Amazon S3)無縫注入數(shù)據(jù),從而幫助企業(yè)客戶及時分析數(shù)據(jù)。

而在 re:Invent 2022 全球大會上,亞馬遜云科技的“Zero ETL”目標又再次邁出“關(guān)鍵一步”——首當其沖的是,就是最新發(fā)布的Amazon Aurora zero-ETL與Amazon Redshift集成功能,它可以幫助客戶近乎實時地分析 PB 級交易數(shù)據(jù)。

據(jù)了解,借助Amazon Redshift集成的Amazon Aurora zero-ETL功能,企業(yè)的交易數(shù)據(jù)在寫入Amazon Aurora后的幾秒鐘內(nèi)可以自動連續(xù)復制,使其在Amazon Redshift中“即時可用”。而一旦數(shù)據(jù)在Amazon Redshift中可用,企業(yè)客戶可立即可以開始分析數(shù)據(jù),并且應用數(shù)據(jù)共享和Amazon Redshift ML等高級功能獲得全面的預測性洞察。

更關(guān)鍵的是,企業(yè)客戶還可以將數(shù)據(jù)從多個Amazon Aurora數(shù)據(jù)庫集群復制到同一個Amazon Redshift實例,跨多個應用程序獲得洞察。這樣一來,客戶可以使用Amazon Aurora支持交易數(shù)據(jù)庫需求,使用 Amazon Redshift進行分析,而無需構(gòu)建或維護復雜的數(shù)據(jù)管道。

那么,Amazon Aurora Zero-ETL to Amazon Redshift最大的好處或者說優(yōu)勢是什么呢?簡而言之,這意味著亞馬遜云科技打通了Aurora數(shù)據(jù)庫和Redshift 數(shù)據(jù)倉庫,讓企業(yè)客戶不用執(zhí)行ETL就能進行同步,且不會相互影響各自的正常運行。

換句話說,在過去企業(yè)如果需要跑一個ETL的業(yè)務,通常的流程是在白天執(zhí)行ETL業(yè)務,把數(shù)據(jù)庫中的數(shù)據(jù)導入到數(shù)據(jù)倉庫中,在晚上再進行分析;而現(xiàn)在,有了這項集成功能的“加持”之后,企業(yè)就可以完全“跳過”ETL的環(huán)節(jié),直接在數(shù)倉中就能夠進行分析,同時不用在中間去構(gòu)建很多復雜的基礎(chǔ)設(shè)施,它也能自動保證任務完成。

其次,亞馬遜云科技在Amazon Redshift 中的一系列全新實踐和創(chuàng)新,同樣也是其踐行“Zero ETL”理念的最新印證,具體來看:亞馬遜云科技宣布Amazon Redshift與Apache Spark實現(xiàn)集成,能夠讓企業(yè)客戶可以更加輕松地通過Apache Spark訪問Amazon Redshift上的實時數(shù)據(jù)。

我們知道,亞馬遜云科技支持在Amazon EMR、Amazon Glue和Amazon SageMaker上運行Apache Spark,而企業(yè)客戶通常希望直接從這些服務中分析Amazon Redshift中的數(shù)據(jù)。但是,這一過程并不輕松,企業(yè)需要經(jīng)歷復雜、耗時的過程查找、測試和認證第三方連接器,以在他們的環(huán)境和Amazon Redshift之間讀取和寫入數(shù)據(jù),這些流程無疑都顯著增加了整個操作的復雜性,使企業(yè)客戶難以充分利用Apache Spark的價值。

而Amazon Redshift與Apache Spark實現(xiàn)集成,就可以幫助客戶在使用亞馬遜云科技的分析和機器學習服務時可以更快更輕松地通過 Apache Spark 應用程序訪問到 Redshift 上的數(shù)據(jù),這樣開發(fā)人員就可以快速而敏捷地實現(xiàn)分析與機器學習。

在此基礎(chǔ)上,亞馬遜云科技的Amazon Redshift也支持 Amazon S3 自動復制(預覽版),借助這項新功能,Amazon Redshift 會將企業(yè)指定到達的 Amazon S3 的文件自動加載到企業(yè)的數(shù)據(jù)倉庫中,例如 CSV、JSON、Parquet 和 Avro,無需手動或重復運行復制過程,而Amazon Redshift 可自動提取文件并負責幕后數(shù)據(jù)的加載步驟;同時,亞馬遜云科技最新的Amazon Redshift streaming ingestion 流式數(shù)據(jù)接入功能也成功上線,該功能可以直接讓流式數(shù)據(jù)接入數(shù)據(jù)倉庫,能夠為企業(yè)打造云原生實時數(shù)倉奠定關(guān)鍵基礎(chǔ),幫助企業(yè)可以輕松地探索實時分析場景,同時基于歷史數(shù)據(jù)的實時預測、反欺詐等場景。

最后,為了更大的幫助企業(yè)完成數(shù)據(jù)集成的工作,亞馬遜云科技數(shù)據(jù)服務目前已可以連接超過100種外部數(shù)據(jù)源,像 Adobe、Salesforce 等各類 SaaS 應用,也包括各類 on-premise 數(shù)據(jù)源類型,因此企業(yè)可借助亞馬遜云科技提供的技術(shù)和工具,全面釋放數(shù)據(jù)的更多的價值。

事實上,最新發(fā)布的Amazon Aurora zero-ETL與Amazon Redshift集成功能也好,還是Amazon Redshift與Apache Spark實現(xiàn)集成也好,背后都體現(xiàn)了亞馬遜云科技為了實現(xiàn)數(shù)據(jù)一體化的融合,正在將其數(shù)據(jù)庫、數(shù)據(jù)服務底層打通,把各種各樣的數(shù)據(jù)都連接到執(zhí)行分析所需要的地方去,由此實現(xiàn)數(shù)據(jù)平滑“無感”的流動,這既是“Zero ETL”的未來,更標志著企業(yè)未來在云上通過數(shù)據(jù)一體化融合,實現(xiàn)端到端數(shù)據(jù)之旅也正從夢想變成現(xiàn)實。

讓數(shù)據(jù)分析變得“觸手可及”

從亞馬遜云科技在“Zero ETL”的實踐和探索中,其實不難發(fā)現(xiàn),作為誕生于2012年的全球首個云數(shù)據(jù)倉庫,Amazon Redshift今天也正通過“與時俱進”的創(chuàng)新,為企業(yè)用戶提供更多功能,以便更輕松、更快速、更安全地存儲、處理和分析其所有數(shù)據(jù),相信也會為千行百業(yè)的數(shù)字化轉(zhuǎn)型提供更強大的驅(qū)動力。

客觀地說,數(shù)據(jù)倉庫歷經(jīng)多年的發(fā)展,幫助企業(yè)解決了很多數(shù)據(jù)方面的難題,但也要看到,隨著企業(yè)實時數(shù)據(jù)分析的需求變得越來越迫切,特別是金融、電信等行業(yè),由于日常需要處理大量人工智能、機器學習以及海量的結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)實時分析等業(yè)務,因此也對數(shù)倉提出了新的挑戰(zhàn),主要表現(xiàn)在:

復雜性高,主要表現(xiàn)在很多的數(shù)據(jù)倉庫使用上復雜性高,軟件維護以及業(yè)務系統(tǒng)的維護的復雜性也很高;靈活性差,過去的數(shù)據(jù)倉庫技術(shù)并不能很好地滿足今天越來越多樣化的分析數(shù)據(jù)類型與分析工作負載,對半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)也無法提供原生的高效支持,此外也沒有針對數(shù)據(jù)科學,機器學習等深度分析場景的優(yōu)化;性價比低,隨著新硬件特別是閃存技術(shù)的發(fā)展,以及數(shù)據(jù)倉庫部署模式的多樣化,也意味著存算分離,彈性使用正在變成企業(yè)的剛需,這也讓過去數(shù)據(jù)倉庫的付費模式變得性價比越來越低。

為此,Amazon Redshift也進行了大膽的技術(shù)創(chuàng)新,特別是其在無服務器(Serverless)化領(lǐng)域的探索,就為未來云原生實時數(shù)據(jù)倉庫的發(fā)展“打了個樣”。

第一,基于Serverless架構(gòu)設(shè)計,Amazon Redshift能夠幫助企業(yè)自動擴展資源,無需用戶管理數(shù)據(jù)倉庫集群,使得用戶體驗得以簡化;同時智能動態(tài)計算能夠自動調(diào)配和擴展數(shù)據(jù)倉庫容量,提供一致快速的用戶體驗;此外,Amazon Redshift紅海提供與用戶的數(shù)據(jù)湖和其他數(shù)據(jù)源的無縫集成,性能出色,速度比任何其他云數(shù)據(jù)倉庫快三倍,且具有自動維護功能,存儲和計算分離,能夠?qū)⒊杀咀罡呓档?5%。

第二,源于“Zero ETL”理念創(chuàng)新,Amazon Redshift對不同數(shù)據(jù)來源的普適性較好,可以針對操作性數(shù)據(jù)庫完成實時數(shù)據(jù)查詢;與第三方數(shù)據(jù)的數(shù)據(jù)市場進行良好的數(shù)據(jù)共享;可以連接商業(yè)智能類的數(shù)據(jù)應用,實現(xiàn)對大數(shù)據(jù)的實時分析和可視化;同時可以同Amazon S3數(shù)據(jù)湖進行功能整合,完成數(shù)據(jù)湖的導出,并基于開放標準數(shù)據(jù)格式進行分析等。

第三,專為實時數(shù)據(jù)應用場景而生,亞馬遜云科技圍繞Amazon Redshift構(gòu)建了多種類型實時數(shù)據(jù)倉庫架構(gòu),如為支持APP埋點數(shù)據(jù)實時采集與分析類應用所構(gòu)建的實時數(shù)據(jù)倉庫架構(gòu),就特別針對實時數(shù)據(jù)攝入、高并發(fā)實時查詢等典型功能進行針對性優(yōu)化設(shè)計,將易于使用和結(jié)構(gòu)靈活的特點釋放得“淋漓盡致”。

此外,基于kafka+flink架構(gòu)并進行適配性改進,支撐實時報表的應用需求??梢詫崟r按照不同維度進行匯總計算,依照指定形式歸類數(shù)據(jù),同時能夠以每5分鐘向Amazon Redshift實時表導入800萬條數(shù)據(jù),且可以秒級完成實時報表的歷史數(shù)據(jù)定期刪除或定期重建,這就相當于預制了多類型常用的“菜單”、“模板”,能夠相當廣泛的對接企業(yè)客戶的主流實時數(shù)據(jù)分析需求,做到了讓即時大數(shù)據(jù)分析的體驗“觸手可及”。

總的來看,無論是“Zero ETL”的探索實踐,還是基于Serverless架構(gòu)的大膽創(chuàng)新,背后都體現(xiàn)出了亞馬遜云科技正以其強大的技術(shù)創(chuàng)新能力,減少企業(yè)在數(shù)據(jù)集成中面臨的痛苦,讓企業(yè)在新時代下的云原生實時數(shù)倉應用更簡單方便,可以說真正為企業(yè)的實時數(shù)據(jù)分析乃至數(shù)字化轉(zhuǎn)型提供了更好的選擇,其價值也可謂:“不至于現(xiàn)在,更關(guān)乎未來?!?/p>


《科技觀察》129:亞馬遜云科技:“Zero ETL”邁出關(guān)鍵一步,數(shù)據(jù)由此實現(xiàn)“無感知”的評論 (共 條)

分享到微博請遵守國家法律
蛟河市| 南宫市| 商丘市| 澜沧| 铜川市| 东宁县| 中卫市| 祁连县| 福泉市| 永修县| 东乌珠穆沁旗| 西乌珠穆沁旗| 商洛市| 石门县| 九江市| 滦平县| 循化| 上犹县| 东港市| 伊宁市| 南溪县| 宜兴市| 台安县| 昌都县| 岱山县| 武山县| 建始县| 江阴市| 日照市| 马边| 老河口市| 马关县| 五常市| 榕江县| 娄烦县| 固始县| 乌恰县| 孙吴县| 义马市| 峨眉山市| 北川|