開(kāi)源軟件AirByte:入湖入倉(cāng),數(shù)據(jù)集成管道
從ETL到ELT 就傳統(tǒng)的 ETL而言,當(dāng)我們開(kāi)始構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),都要先去了解業(yè)務(wù)流程,明晰業(yè)務(wù)是如何運(yùn)轉(zhuǎn)的,數(shù)據(jù)是如何留痕的。通過(guò)收集用戶(hù)的相關(guān)需求,從而去規(guī)劃設(shè)計(jì)報(bào)表。企業(yè)需要進(jìn)行數(shù)倉(cāng)分域、分層、邏輯建模等一系列操作,完成這些后才會(huì)去數(shù)據(jù)倉(cāng)庫(kù)中建表。 在這之后,企業(yè)就需要進(jìn)行 ETL 操作了,由于多數(shù)數(shù)倉(cāng)僅接受 SQL 的關(guān)系數(shù)據(jù)結(jié)構(gòu),因此,企業(yè)需要將不符合要求的數(shù)據(jù)轉(zhuǎn)換為基于 SQL 的數(shù)據(jù)。這種方式在有限內(nèi)存和處理能力的本地?cái)?shù)據(jù)庫(kù)中普遍存在。我們不難發(fā)現(xiàn) ETL 的問(wèn)題,主要是流程長(zhǎng)和笨重。如果企業(yè)業(yè)務(wù)或者底層數(shù)據(jù)頻繁變化,ETL 流程就要隨之調(diào)整,這不僅浪費(fèi)時(shí)間,而且也受制于吞吐量,成本極高。 因此,ELT 應(yīng)運(yùn)而生。工程師發(fā)現(xiàn) ETL 復(fù)雜的地方主要是在 T 和 L 的強(qiáng)耦合,所以 ELT 的核心思想就是解耦。與 ETL 不同,ELT 不需要在加載過(guò)程之前進(jìn)行數(shù)據(jù)轉(zhuǎn)換。ELT 將原始數(shù)據(jù)直接加載到數(shù)倉(cāng)中。使用 ELT 數(shù)據(jù)管道,數(shù)據(jù)清理、豐富和數(shù)據(jù)轉(zhuǎn)換等過(guò)程都在數(shù)倉(cāng)內(nèi)完成。原始數(shù)據(jù)無(wú)限期地存儲(chǔ)在數(shù)倉(cāng)中,允許進(jìn)行多次轉(zhuǎn)換。 企業(yè)數(shù)據(jù)量的爆發(fā)。數(shù)據(jù)已經(jīng)成為現(xiàn)代企業(yè)成功的必備要素。越來(lái)越多的企業(yè)需要數(shù)據(jù)的聚合,無(wú)論是結(jié)構(gòu)化、非結(jié)構(gòu)化抑或半結(jié)構(gòu)化數(shù)據(jù),他們都希望以統(tǒng)一的平臺(tái)接口來(lái)收集和處理。也正是因?yàn)檫@些數(shù)據(jù)資源的增長(zhǎng),推動(dòng)了企業(yè)的數(shù)字化進(jìn)程,他們需要更靈活和敏捷的方式來(lái)處理數(shù)據(jù),顯然,傳統(tǒng)的 ETL 并不能滿(mǎn)足這些需求。 Airbyte的簡(jiǎn)單流程 從Airbyte支持的“Sources”中選擇想要連接的數(shù)據(jù)源,并配置相應(yīng)信息
2. 從Airbyte支持的“Destinations”中選擇數(shù)據(jù)寫(xiě)入的目標(biāo),并配置相應(yīng)信息。
3. 有了數(shù)據(jù)源和目標(biāo)的信息,我們就可以建立一條連接(connection),并設(shè)置一個(gè)同步周期來(lái)同步數(shù)據(jù)了
至此這個(gè)數(shù)據(jù)同步任務(wù)算是完成配置,可以按照周期定時(shí)跑起來(lái)了。 Airbyte看似功能單一,但正如很多流行的開(kāi)源軟件一樣,Airbyte強(qiáng)大的地方是:它定義了一個(gè)被廣泛接受的標(biāo)準(zhǔn),并形成了一個(gè)龐大的“連接器”(Connectors)生態(tài)。 Airbyte 的商業(yè)模式 開(kāi)源版本可用作自助服務(wù)、免費(fèi)解決方案。它可以訪(fǎng)問(wèn)無(wú)限連接器、復(fù)制、監(jiān)控和通過(guò)社區(qū)為用戶(hù)提供支持。云版本除了提供開(kāi)源的所有功能之外,還提供其平臺(tái)的云托管服務(wù),并按積分收費(fèi)。其信用消耗與基礎(chǔ)設(shè)施計(jì)算時(shí)間相關(guān)。它帶有云數(shù)據(jù)托管、數(shù)據(jù)管理、多個(gè)工作區(qū)等。 云版本提供 14 天的免費(fèi)試用期,之后按每個(gè)積分 2.50 美元的價(jià)格按月收費(fèi)。 企業(yè)版是針對(duì)處理大數(shù)據(jù)量需求的用戶(hù),依據(jù)客戶(hù)用例收費(fèi)。Airbyte 不對(duì)失敗的客戶(hù)用例收費(fèi)。Airbyte 希望通過(guò)開(kāi)源模式和付費(fèi)貢獻(xiàn)者計(jì)劃,解決行業(yè)對(duì)長(zhǎng)尾連接器的需求。從這方面來(lái)看,閉源產(chǎn)品大多是無(wú)法滿(mǎn)足的。此外,他們還希望通過(guò)開(kāi)源加快業(yè)界使用他們的連接器,從而提高產(chǎn)品可靠性。