數(shù)據(jù)中臺為什么要匯聚數(shù)據(jù)?_光點科技
數(shù)據(jù)中臺是當(dāng)下大數(shù)據(jù)領(lǐng)域最前沿的數(shù)據(jù)建設(shè)體系, 它并不是從零開始, 無中生有的,數(shù)據(jù)中臺是傳統(tǒng)的數(shù)據(jù)倉庫的一種升級, 是數(shù)據(jù)采集、建設(shè)、管理與使用的一整套體系。
數(shù)據(jù)匯聚是數(shù)據(jù)中臺必須提供的核心工具,把各種異構(gòu)網(wǎng)絡(luò)、異構(gòu)數(shù)據(jù)源的數(shù)據(jù)方便地采集到數(shù)據(jù)中臺中進行集中存儲,為后續(xù)的加工建模做準(zhǔn)備。

一、數(shù)據(jù)匯聚的概念
數(shù)據(jù)匯聚就是按照確定的數(shù)據(jù)分析框架,收集相關(guān)數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供了素材和依據(jù)。
在匯聚數(shù)據(jù)的時候,通常把數(shù)據(jù)類型分為一手數(shù)據(jù)和二手數(shù)據(jù)這兩個類型。其中一手數(shù)據(jù)主要是指可以通過抽取的方式獲得的數(shù)據(jù),二手數(shù)據(jù)主要是指需要通過一定的方式對原始數(shù)據(jù)進行加工處理最后得到的可以進行使用的數(shù)據(jù)。
二、數(shù)據(jù)匯聚的方式
將不同的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)加載到數(shù)據(jù)倉庫中。數(shù)據(jù)匯聚有多種方式,按照數(shù)據(jù)匯聚的傳輸方式,可以分為文件傳輸、數(shù)據(jù)抽取、內(nèi)容爬蟲等方式。
1.文件傳輸:文件傳輸包含系統(tǒng)日志與文件的傳輸。其中文件方式需要業(yè)務(wù)系統(tǒng)定時進行數(shù)據(jù)抽取,需要業(yè)務(wù)系統(tǒng)改造。很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百MB的日志、文件數(shù)據(jù)采集和傳輸需求。
2.數(shù)據(jù)抽取:數(shù)據(jù)抽取也就是利用接口進行數(shù)據(jù)抽取。它不需要業(yè)務(wù)系統(tǒng)改造,適用場景多,主要針對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構(gòu)合作,使用特點系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。
3.內(nèi)容爬蟲:內(nèi)容爬蟲也就是網(wǎng)絡(luò)數(shù)據(jù)采集它主要針對無法訪問數(shù)據(jù)庫,只能訪問網(wǎng)頁或者API的等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián)。除了網(wǎng)絡(luò)中包含的內(nèi)容之外,對于網(wǎng)絡(luò)流量的采集可以使用DPI或者DFI等帶寬管理技術(shù)進行處理。
三、數(shù)據(jù)匯聚的作用
隨著大數(shù)據(jù)越來越被重視,數(shù)據(jù)匯聚的重要性也變的尤為突出,現(xiàn)如今數(shù)據(jù)匯聚面臨幾大難點,數(shù)據(jù)來源多種多樣,數(shù)據(jù)量大,數(shù)據(jù)變化快。但數(shù)據(jù)匯聚平臺可服務(wù)于數(shù)據(jù)治理,并且解決數(shù)據(jù)匯聚難、監(jiān)控難等問題。
數(shù)據(jù)匯聚不僅僅是數(shù)據(jù)采集,它更重要的是構(gòu)建數(shù)據(jù)匯聚任務(wù)的配置、管理、監(jiān)控、調(diào)度等服務(wù)。
四、數(shù)據(jù)匯聚的意義
將整個數(shù)據(jù)中臺流程比作商品的加工流程,那么對應(yīng)關(guān)系:
原材料收集——數(shù)據(jù)匯聚 (業(yè)務(wù)系統(tǒng)->ODS層)
材料清洗——清洗整合(ODS層->DWD層)
商品加工——數(shù)據(jù)融合(DW、DM層)
商品出售——數(shù)據(jù)輸出(API服務(wù)、數(shù)據(jù)交換)
數(shù)據(jù)匯聚在數(shù)據(jù)中臺中是首要關(guān)鍵的第一步,也是計算機與外部物理世界連接的橋梁。
關(guān)于光點科技
光點科技是一家在政企數(shù)據(jù)治理、數(shù)據(jù)中臺建設(shè)、數(shù)據(jù)可視化展示分析方面有著豐富經(jīng)驗的公司。作為國內(nèi)專業(yè)的數(shù)據(jù)智能解決方案專家,光點科技自成立以來就一直專注于數(shù)據(jù)產(chǎn)品的研發(fā)和落地,服務(wù)的客戶涉及智慧城市、園區(qū)、政府、集團企業(yè)、金融、制造、能源、電信、工程、教育、檢驗檢測等多個行業(yè)。