最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)字化轉(zhuǎn)型-數(shù)據(jù)中臺(tái)-數(shù)據(jù)采集和集成場(chǎng)景分析和工具

2023-06-08 10:36 作者:qiaoxingxing  | 我要投稿


三類采集任務(wù):

1.結(jié)構(gòu)化數(shù)據(jù)庫之間的采集和集成??

oracle、mysql、pg等關(guān)系數(shù)據(jù)庫之間的采集

基本步驟: 配置數(shù)據(jù)源 -> 配置ETL任務(wù) -> 定時(shí)調(diào)度


兩種同步方式:?

- 全量同步: 每次清空目標(biāo)表數(shù)據(jù), 重新導(dǎo)入; 缺點(diǎn): 浪費(fèi)資源、性能差

- 增量同步: 依賴last update date時(shí)間戳字段


實(shí)時(shí)同步: CDC

mysql: binlog

oracle: 沒有開放的日志, goldenGate收費(fèi), 最近的flink cdc支持oracle


2.結(jié)構(gòu)化數(shù)據(jù)庫到非結(jié)構(gòu)化、MPP數(shù)據(jù)庫的采集和集成

非結(jié)構(gòu)化數(shù)據(jù)庫: hdfs、hbase等??

結(jié)構(gòu)化大數(shù)據(jù)量的查詢: mpp db、clickhouse

~~日志數(shù)據(jù)庫、分析型數(shù)據(jù)庫~~

要支持增量同步到MPP

要支持hdfs到MPP的采集: 一般先采集到hdfs, 清理、構(gòu)建寬表之后, 再導(dǎo)入MPP;


3.文件、流數(shù)據(jù)的采集??

比如: 實(shí)時(shí)的日志分析系統(tǒng), 監(jiān)聽日志文件的改動(dòng), 解析保存到分布式數(shù)據(jù)庫, 構(gòu)建全文檢索, 便于查詢;


數(shù)據(jù)量通常比較大, 先寫到消息中間件作為緩沖, 比如kafka, 消費(fèi)端訂閱再寫入數(shù)據(jù)庫


流批一體化: 流處理和批處理, 在一個(gè)管道里同時(shí)處理


工具:?

需求簡(jiǎn)單可以用datax, 支持關(guān)系數(shù)據(jù)庫之間的導(dǎo)入導(dǎo)出, 也支持導(dǎo)入到hdfs

復(fù)雜的可以用SeaTunnel, apache項(xiàng)目, 孵化中


數(shù)字化轉(zhuǎn)型-數(shù)據(jù)中臺(tái)-數(shù)據(jù)采集和集成場(chǎng)景分析和工具的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
云和县| 临漳县| 万宁市| 西充县| 平利县| 屏东县| 沿河| 莱西市| 扎赉特旗| 黄平县| 乌海市| 盖州市| 大安市| 富宁县| 宝坻区| 罗平县| 南涧| 武平县| 廉江市| 郁南县| 象州县| 田东县| 肥城市| 海林市| 云浮市| 太白县| 乌什县| 弥渡县| 浦北县| 峡江县| 杭锦旗| 武清区| 富川| 巴中市| 松阳县| 枣强县| 庆安县| 清水河县| 柳河县| 赣州市| 左权县|