友凡基于Flink+Alink+ClickHouse+DS構(gòu)建全端億級(jí)實(shí)時(shí)用戶(hù)畫(huà)像系統(tǒng)
數(shù)倉(cāng)的基本概念如下:
DB 是現(xiàn)有的數(shù)據(jù)來(lái)源(也稱(chēng)各個(gè)系統(tǒng)的元數(shù)據(jù)),可以為mysql、SQLserver、文件日志等,為數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)來(lái)源的一般存在于現(xiàn)有的業(yè)務(wù)系統(tǒng)之中。
ETL的是 Extract-Transform-Load 的縮寫(xiě),用來(lái)描述將數(shù)據(jù)從來(lái)源遷移到目標(biāo)的幾個(gè)過(guò)程:
Extract,數(shù)據(jù)抽取,也就是把數(shù)據(jù)從數(shù)據(jù)源讀出來(lái)。
Transform,數(shù)據(jù)轉(zhuǎn)換,把原始數(shù)據(jù)轉(zhuǎn)換成期望的格式和維度。如果用在數(shù)據(jù)倉(cāng)庫(kù)的場(chǎng)景下,Transform也包含數(shù)據(jù)清洗,清洗掉噪音數(shù)據(jù)。
Load 數(shù)據(jù)加載,把處理后的數(shù)據(jù)加載到目標(biāo)處,比如數(shù)據(jù)倉(cāng)庫(kù)。
ODS(Operational Data Store) 操作性數(shù)據(jù),是作為數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)的一種過(guò)渡,ODS的數(shù)據(jù)結(jié)構(gòu)一般與數(shù)據(jù)來(lái)源保持一致,便于減少ETL的工作復(fù)雜性,而且ODS的數(shù)據(jù)周期一般比較短。ODS的數(shù)據(jù)最終流入DW