數(shù)字化轉(zhuǎn)型-數(shù)據(jù)中臺(tái)-數(shù)據(jù)采集和集成場(chǎng)景分析和工具

三類采集任務(wù):
1.結(jié)構(gòu)化數(shù)據(jù)庫之間的采集和集成??
oracle、mysql、pg等關(guān)系數(shù)據(jù)庫之間的采集
基本步驟: 配置數(shù)據(jù)源 -> 配置ETL任務(wù) -> 定時(shí)調(diào)度
兩種同步方式:?
- 全量同步: 每次清空目標(biāo)表數(shù)據(jù), 重新導(dǎo)入; 缺點(diǎn): 浪費(fèi)資源、性能差
- 增量同步: 依賴last update date時(shí)間戳字段
實(shí)時(shí)同步: CDC
mysql: binlog
oracle: 沒有開放的日志, goldenGate收費(fèi), 最近的flink cdc支持oracle
2.結(jié)構(gòu)化數(shù)據(jù)庫到非結(jié)構(gòu)化、MPP數(shù)據(jù)庫的采集和集成
非結(jié)構(gòu)化數(shù)據(jù)庫: hdfs、hbase等??
結(jié)構(gòu)化大數(shù)據(jù)量的查詢: mpp db、clickhouse
~~日志數(shù)據(jù)庫、分析型數(shù)據(jù)庫~~
要支持增量同步到MPP
要支持hdfs到MPP的采集: 一般先采集到hdfs, 清理、構(gòu)建寬表之后, 再導(dǎo)入MPP;
3.文件、流數(shù)據(jù)的采集??
比如: 實(shí)時(shí)的日志分析系統(tǒng), 監(jiān)聽日志文件的改動(dòng), 解析保存到分布式數(shù)據(jù)庫, 構(gòu)建全文檢索, 便于查詢;
數(shù)據(jù)量通常比較大, 先寫到消息中間件作為緩沖, 比如kafka, 消費(fèi)端訂閱再寫入數(shù)據(jù)庫
流批一體化: 流處理和批處理, 在一個(gè)管道里同時(shí)處理
工具:?
需求簡(jiǎn)單可以用datax, 支持關(guān)系數(shù)據(jù)庫之間的導(dǎo)入導(dǎo)出, 也支持導(dǎo)入到hdfs
復(fù)雜的可以用SeaTunnel, apache項(xiàng)目, 孵化中