散文網(wǎng) » 筆記 »全部筆記 » 數(shù)字化轉(zhuǎn)型-數(shù)據(jù)中臺(tái)-數(shù)據(jù)采集和集成場(chǎng)景分析和工具

數(shù)字化轉(zhuǎn)型-數(shù)據(jù)中臺(tái)-數(shù)據(jù)采集和集成場(chǎng)景分析和工具

2023-06-08 10:36 作者:qiaoxingxing 0人讀過 | 我要投稿

三類采集任務(wù):

1.結(jié)構(gòu)化數(shù)據(jù)庫之間的采集和集成??

oracle、mysql、pg等關(guān)系數(shù)據(jù)庫之間的采集

基本步驟: 配置數(shù)據(jù)源 -> 配置ETL任務(wù) -> 定時(shí)調(diào)度

兩種同步方式:?

- 全量同步: 每次清空目標(biāo)表數(shù)據(jù), 重新導(dǎo)入; 缺點(diǎn): 浪費(fèi)資源、性能差

- 增量同步: 依賴last update date時(shí)間戳字段

實(shí)時(shí)同步: CDC

mysql: binlog

oracle: 沒有開放的日志, goldenGate收費(fèi), 最近的flink cdc支持oracle

2.結(jié)構(gòu)化數(shù)據(jù)庫到非結(jié)構(gòu)化、MPP數(shù)據(jù)庫的采集和集成

非結(jié)構(gòu)化數(shù)據(jù)庫: hdfs、hbase等??

結(jié)構(gòu)化大數(shù)據(jù)量的查詢: mpp db、clickhouse

~~日志數(shù)據(jù)庫、分析型數(shù)據(jù)庫~~

要支持增量同步到MPP

要支持hdfs到MPP的采集: 一般先采集到hdfs, 清理、構(gòu)建寬表之后, 再導(dǎo)入MPP;

3.文件、流數(shù)據(jù)的采集??

比如: 實(shí)時(shí)的日志分析系統(tǒng), 監(jiān)聽日志文件的改動(dòng), 解析保存到分布式數(shù)據(jù)庫, 構(gòu)建全文檢索, 便于查詢;

數(shù)據(jù)量通常比較大, 先寫到消息中間件作為緩沖, 比如kafka, 消費(fèi)端訂閱再寫入數(shù)據(jù)庫

流批一體化: 流處理和批處理, 在一個(gè)管道里同時(shí)處理

工具:?

需求簡(jiǎn)單可以用datax, 支持關(guān)系數(shù)據(jù)庫之間的導(dǎo)入導(dǎo)出, 也支持導(dǎo)入到hdfs

復(fù)雜的可以用SeaTunnel, apache項(xiàng)目, 孵化中

標(biāo)簽：

數(shù)字化轉(zhuǎn)型-數(shù)據(jù)中臺(tái)-數(shù)據(jù)采集和集成場(chǎng)景分析和工具的評(píng)論 (共條)