多易 Hudi進(jìn)階與源碼解析
Hudi能夠攝入(Ingest)和管理(Manage)基于HDFS之上的大型分析數(shù)據(jù)集,主要目的是高效的減少入庫(kù)延時(shí)。
Hudi基于Spark/Flink/Hive來(lái)對(duì)HDFS上的數(shù)據(jù)進(jìn)行更新、插入、刪除等。
Hudi在HDFS數(shù)據(jù)集上提供如下流原語(yǔ):插入更新(如何改變數(shù)據(jù)集);增量拉取(如何獲取變更的數(shù)據(jù))。
Hudi可以對(duì)HDFS上的parquet格式數(shù)據(jù)進(jìn)行插入/更新操作。
Hudi通過(guò)自定義InputFormat與Hadoop生態(tài)系統(tǒng)(Spark、Hive、Parquet)集成。
Hudi通過(guò)Savepoint來(lái)實(shí)現(xiàn)數(shù)據(jù)恢復(fù)。
標(biāo)簽: