Airbyte的同步復(fù)制模式
ELT 哲學(xué)的核心原則,即數(shù)據(jù)在提取和加載階段移動時應(yīng)保持不變,以便始終可以在目標(biāo)中訪問原始數(shù)據(jù)。由于目標(biāo)中存在數(shù)據(jù)的未修改版本,因此將來可以重新轉(zhuǎn)換該版本,而無需從源系統(tǒng)重新同步數(shù)據(jù)。

基于此哲學(xué),我們看看Airbyte提供的數(shù)據(jù)同步模式和相關(guān)概念:
同步運行
Airbyte 復(fù)制可以被認(rèn)為是一個循環(huán),它定期從數(shù)據(jù)源請求記錄并將其發(fā)送到目的地。此循環(huán)的每次迭代稱為同步運行。
什么是游標(biāo)
在增量復(fù)制的上下文中,可以將游標(biāo)視為指向源數(shù)據(jù)集的指針,該指針用于跟蹤從該源發(fā)送到目標(biāo)的最新記錄。它用于確保將來不會再次發(fā)送已發(fā)送的記錄。
在每次同步運行中,都會對源執(zhí)行一個查詢以選擇要復(fù)制的記錄,并且此查詢被構(gòu)造為包含游標(biāo),以便僅返回比游標(biāo)更新(即以前未復(fù)制)的記錄。
對于 CDC 復(fù)制,不需要指定游標(biāo),因為事務(wù)日志中的時間戳和/或序列號(用作 CDC 復(fù)制的源)具有相同的用途。
主鍵的用途
主鍵唯一標(biāo)識源數(shù)據(jù)表中的每條記錄。在某些復(fù)制模式下,這是必需的,用于確保對源系統(tǒng)中單個記錄的多個更新將正確應(yīng)用于目標(biāo)系統(tǒng)中的單個記錄。此外,如果使用增量更改數(shù)據(jù)捕獲 (CDC) 復(fù)制。
全量刷新同步與增量同步
全量刷新復(fù)制和增量同步復(fù)制之間的主要區(qū)別在于,在每次同步運行中,從源讀取哪些記錄并將其發(fā)送到目標(biāo):

下圖比較了全量刷新復(fù)制與增量同步復(fù)制 – 此圖表示在不同時間插入的記錄:t1、t2 和 t3,每次插入后跟同步運行。新插入的記錄在源上用紅色框進(jìn)行批注,發(fā)送到目標(biāo)的記錄用亮綠色框進(jìn)行批注。
