最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Tapdata Connector 實(shí)用指南:數(shù)據(jù)入倉(cāng)場(chǎng)景之?dāng)?shù)據(jù)實(shí)時(shí)同步到 BigQuery

2023-02-21 11:02 作者:Tapdata  | 我要投稿

【前言】作為中國(guó)的 “Fivetran/Airbyte”, Tapdata 是一個(gè)以低延遲數(shù)據(jù)移動(dòng)為核心優(yōu)勢(shì)構(gòu)建的現(xiàn)代數(shù)據(jù)平臺(tái),內(nèi)置 60+ 數(shù)據(jù)連接器,擁有穩(wěn)定的實(shí)時(shí)采集和傳輸能力、秒級(jí)響應(yīng)的數(shù)據(jù)實(shí)時(shí)計(jì)算能力、穩(wěn)定易用的數(shù)據(jù)實(shí)時(shí)服務(wù)能力,以及低代碼可視化操作等。典型用例包括數(shù)據(jù)庫(kù)到數(shù)據(jù)庫(kù)的復(fù)制、將數(shù)據(jù)引入數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖,以及通用 ETL 處理等。 隨著 Tapdata Connector 的不斷增長(zhǎng),我們最新推出《Tapdata Connector 實(shí)用指南》系列內(nèi)容,以文字解析輔以視頻演示,還原技術(shù)實(shí)現(xiàn)細(xì)節(jié),模擬實(shí)際技術(shù)及應(yīng)用場(chǎng)景需求,提供可以“收藏跟練”的實(shí)用專(zhuān)欄。本期實(shí)用指南以 SQL Server → BigQuery 為例,演示數(shù)據(jù)入倉(cāng)場(chǎng)景下,如何將數(shù)據(jù)實(shí)時(shí)同步到 BigQuery。

數(shù)據(jù)規(guī)模仍在持續(xù)擴(kuò)大的今天,為了從中獲得可操作的洞察力,進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)分析策略的現(xiàn)代化轉(zhuǎn)型,越來(lái)越多的企業(yè)開(kāi)始把目光投注到 BigQuery 之上,希望通過(guò) BigQuery 來(lái)運(yùn)行大規(guī)模關(guān)鍵任務(wù)應(yīng)用,從而達(dá)到優(yōu)化運(yùn)營(yíng)、改善客戶(hù)體驗(yàn)并降低總體擁有成本的目的。

作為自帶 ETL 的實(shí)時(shí)數(shù)據(jù)平臺(tái),我們也看到了很多從傳統(tǒng)內(nèi)部數(shù)據(jù)倉(cāng)庫(kù)向 BigQuery 的數(shù)據(jù)遷移需求。

一、BigQuery 的云數(shù)倉(cāng)優(yōu)勢(shì)

作為一款由 Google Cloud 提供的云原生企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),BigQuery 借助 Google 基礎(chǔ)架構(gòu)的強(qiáng)大處理能力,可以實(shí)現(xiàn)海量數(shù)據(jù)超快速 SQL 查詢(xún),以及對(duì) PB 級(jí)數(shù)據(jù)進(jìn)行安全并可擴(kuò)展的分析。同時(shí)也因其天然具備的無(wú)服務(wù)器架構(gòu)、低成本等特性,備受數(shù)據(jù)分析師和數(shù)據(jù)工程師的青睞,在數(shù)據(jù)存儲(chǔ)和處理上表現(xiàn)出更出色的便利性。

BigQuery 在企業(yè)中通常用于存儲(chǔ)來(lái)自多個(gè)系統(tǒng)的歷史與最新數(shù)據(jù),作為整體數(shù)據(jù)集成策略的一部分,也常作為既有數(shù)據(jù)庫(kù)的補(bǔ)充存在。其優(yōu)勢(shì)在于:

  • 在不影響線(xiàn)上業(yè)務(wù)的情況下進(jìn)行快速分析:BigQuery 專(zhuān)為快速高效的分析而設(shè)計(jì), 通過(guò)在 BigQuery 中創(chuàng)建數(shù)據(jù)的副本, 可以針對(duì)該副本執(zhí)行復(fù)雜的分析查詢(xún), 而不會(huì)影響線(xiàn)上業(yè)務(wù)。

  • 數(shù)據(jù)集中存儲(chǔ), 提高分析效率:對(duì)于分析師而言,使用多個(gè)平臺(tái)耗時(shí)費(fèi)力,如果將來(lái)自多個(gè)系統(tǒng)的數(shù)據(jù)組合到一個(gè)集中式數(shù)據(jù)倉(cāng)庫(kù)中,可以有效減少這些成本。

  • 安全性保障:可以控制對(duì)加密項(xiàng)目或數(shù)據(jù)集的訪(fǎng)問(wèn),并實(shí)施身份訪(fǎng)問(wèn)管理。

  • 可擴(kuò)展性:支持根據(jù)公司的規(guī)模、性能和成本要求定制數(shù)據(jù)存儲(chǔ)。

  • 友好兼容:作為 Google Cloud 的一部分,它與 Google 系產(chǎn)品更兼容,對(duì)相關(guān)用戶(hù)更友好。

為了實(shí)現(xiàn)上述優(yōu)勢(shì),我們需要首先實(shí)現(xiàn)數(shù)據(jù)向 BigQuery 的同步。

二、SQLServer → BigQuery 的數(shù)據(jù)入倉(cāng)任務(wù)

????點(diǎn)擊查看完整演示(*本演示視頻版本為 Tapdata 本地部署版本)


版本指路

>>> 點(diǎn)擊登錄 Tapdata Cloud

>>> 申請(qǐng)?jiān)囉?Tapdata 本地部署版


BigQuery 準(zhǔn)備工作


  1. 登錄 Google Cloud 憑據(jù)頁(yè)面

  2. 創(chuàng)建服務(wù)賬號(hào),該賬號(hào)將用于后續(xù)的身份驗(yàn)證。

a. 在頁(yè)面頂部,單擊創(chuàng)建憑據(jù) > 服務(wù)賬號(hào)

b. 在服務(wù)賬號(hào)詳情區(qū)域,填寫(xiě)服務(wù)賬號(hào)的名稱(chēng)、ID 和說(shuō)明信息,單擊創(chuàng)建并繼續(xù)。

c. 在角色下拉框中輸入并選中 BigQuery Admin,單擊頁(yè)面底部的完成

3.為服務(wù)賬號(hào)創(chuàng)建認(rèn)證密鑰。 ? ?

a. 在跳轉(zhuǎn)到的憑據(jù)頁(yè)面,單擊頁(yè)面下方剛創(chuàng)建的服務(wù)賬號(hào)。 ??

b. 在密鑰標(biāo)簽頁(yè),單擊添加密鑰 > 創(chuàng)建新密鑰。

c. 在彈出的對(duì)話(huà)框中,選擇密鑰類(lèi)型JSON,然后單擊創(chuàng)建

d. 操作完成后密鑰文件將自動(dòng)下載保存至您的電腦,為保障賬戶(hù)安全性,請(qǐng)妥善保管密鑰文件。

e. 登錄 Google Cloud 控制臺(tái),創(chuàng)建數(shù)據(jù)集和表,如已存在可跳過(guò)本步驟。

i. 創(chuàng)建 BigQuery 數(shù)據(jù)集(*為保障 Tapdata Cloud 正常讀取到數(shù)據(jù)集信息,創(chuàng)建數(shù)據(jù)集時(shí),選擇位置類(lèi)型多區(qū)域)? ? ? ? ?

ii. 創(chuàng)建表


操作流程詳解(Tapdata Cloud)

① 登錄 Tapdata Cloud

* 默認(rèn)已完成 Tapdata Cloud 賬號(hào)注冊(cè)及 Agent 部署

* 確保 Tapdata Agent 所屬機(jī)器可訪(fǎng)問(wèn) Google 云服務(wù),例如可將 Agent 安裝至海外服務(wù)器。


② 創(chuàng)建數(shù)據(jù)源 SQL Server 的連接

在 Tapdata Cloud 連接管理菜單欄,點(diǎn)擊【創(chuàng)建連接】按鈕, 在彈出的窗口中選擇 SQL Server 數(shù)據(jù)庫(kù),并點(diǎn)擊確定。

參考右側(cè)【連接配置幫助】,完成連接創(chuàng)建:

③ 創(chuàng)建數(shù)據(jù)目標(biāo) BigQuery 的連接

  1. 在 Tapdata Cloud 連接管理右側(cè)菜單欄,點(diǎn)擊【創(chuàng)建連接】按鈕,在彈出的窗口中選擇 BigQuery,并點(diǎn)擊確定

  2. 根據(jù)已獲取的服務(wù)賬號(hào),在配置中輸入 Google Cloud 相關(guān)信息,詳細(xì)說(shuō)明如下:

  • 連接名稱(chēng):填寫(xiě)具有業(yè)務(wù)意義的獨(dú)有名稱(chēng)。

  • 連接類(lèi)型:目前僅支持作為目標(biāo)。

  • 訪(fǎng)問(wèn)賬號(hào)(JSON):用文本編輯器打開(kāi)您在準(zhǔn)備工作中下載的密鑰文件,將其復(fù)制粘貼進(jìn)該文本框中。

  • 數(shù)據(jù)集 ID:選擇 BigQuery 中已有的數(shù)據(jù)集。(輸入服務(wù)賬號(hào)后, 即可列出全部數(shù)據(jù)集)

  • agent 設(shè)置:選擇平臺(tái)自動(dòng)分配,如有多個(gè) Agent,請(qǐng)手動(dòng)指定可訪(fǎng)問(wèn) Google 云服務(wù)的 Agent。

  1. 單擊連接測(cè)試,測(cè)試通過(guò)后單擊保存。(*如提示連接測(cè)試失敗,可根據(jù)頁(yè)面提示進(jìn)行修復(fù))

④ 新建并運(yùn)行 SQL Server 到 BigQuery 的同步任務(wù)

三、Why Tapdata?

借助 Tapdata 出色的實(shí)時(shí)數(shù)據(jù)能力和廣泛的數(shù)據(jù)源支持,可以在幾分鐘內(nèi)完成從源庫(kù)到 BigQuery 包括全量、增量等在內(nèi)的多重?cái)?shù)據(jù)同步任務(wù)。


基于 BigQuery 特性,Tapdata 做出了哪些針對(duì)性調(diào)整

在開(kāi)發(fā)過(guò)程中,Tapdata 發(fā)現(xiàn) BigQuery 存在如下三點(diǎn)不同于傳統(tǒng)數(shù)據(jù)庫(kù)的特征:

  • 如使用 JDBC 進(jìn)行數(shù)據(jù)的寫(xiě)入與更新,則性能較差,無(wú)法滿(mǎn)足實(shí)際使用要求;

  • 如使用 StreamAPI 進(jìn)行數(shù)據(jù)寫(xiě)入,雖然速度較快,但寫(xiě)入的數(shù)據(jù)在一段時(shí)間內(nèi)無(wú)法更新;

  • 一些數(shù)據(jù)操作存在 QPS 限制,無(wú)法像傳統(tǒng)數(shù)據(jù)庫(kù)一樣隨意對(duì)數(shù)據(jù)進(jìn)行寫(xiě)入。

為此,Tapdata 選擇將 Stream API 與 Merge API 聯(lián)合使用,既滿(mǎn)足了數(shù)據(jù)高性能寫(xiě)入的需要,又成功將延遲保持在可控范圍內(nèi),具體實(shí)現(xiàn)邏輯如下:

  • 在數(shù)據(jù)全量寫(xiě)入階段,由于只存在數(shù)據(jù)的寫(xiě)入,沒(méi)有變更與刪除操作,因此直接使用 Stream API 進(jìn)行數(shù)據(jù)導(dǎo)入。

  • 在數(shù)據(jù)增量階段,先將增量事件寫(xiě)入一張臨時(shí)表,并按照一定的時(shí)間間隔,將臨時(shí)表與全量的數(shù)據(jù)表通過(guò)一個(gè) SQL 進(jìn)行批量 Merge,完成更新與刪除的同步。

  • 兩個(gè)階段的 Merge 操作,第一次進(jìn)行時(shí),強(qiáng)制等待時(shí)間為 30min,以避免觸發(fā) Stream API 寫(xiě)入的數(shù)據(jù)無(wú)法更新的限制,之后的 Merge 操作時(shí)間可以配置,這個(gè)時(shí)間即為增量的同步延遲時(shí)間,一般配置在 5min 以?xún)?nèi)。

Tapdata 有哪些優(yōu)勢(shì)?

此外,對(duì)于數(shù)據(jù)同步任務(wù)而言,Tapdata 同時(shí)兼具如下優(yōu)勢(shì):

  • 內(nèi)置 60+ 數(shù)據(jù)連接器,穩(wěn)定的實(shí)時(shí)采集和傳輸能力

以實(shí)時(shí)的方式從各個(gè)數(shù)據(jù)來(lái)源,包括數(shù)據(jù)庫(kù)、API、隊(duì)列、物聯(lián)網(wǎng)等數(shù)據(jù)提供者采集或同步最新的數(shù)據(jù)變化。支持多源異構(gòu)數(shù)據(jù)雙向同步,自動(dòng)映射關(guān)系型到非關(guān)系型。一鍵實(shí)現(xiàn)實(shí)時(shí)捕獲,毫秒內(nèi)更新。已內(nèi)置 60+連接器且不斷拓展中,覆蓋大部分主流的數(shù)據(jù)庫(kù)和類(lèi)型,并支持您自定義數(shù)據(jù)源。

  • 具有強(qiáng)可擴(kuò)展性的 PDK 架構(gòu)

4 小時(shí)快速對(duì)接 SaaS API 系統(tǒng);16 小時(shí)快速對(duì)接數(shù)據(jù)庫(kù)系統(tǒng)。

  • 對(duì)源庫(kù)幾乎無(wú)影響

基于自研的 CDC 日志解析技術(shù),0入侵實(shí)時(shí)采集數(shù)據(jù),對(duì)源庫(kù)幾乎無(wú)影響。

  • 全鏈路實(shí)時(shí)

基于 Pipeline 流式數(shù)據(jù)處理,以應(yīng)對(duì)基于單條數(shù)據(jù)記錄的即時(shí)處理需求,如數(shù)據(jù)庫(kù) CDC、消息、IoT 事件等。不同于傳統(tǒng) ETL,每一條新產(chǎn)生并進(jìn)入到平臺(tái)的數(shù)據(jù),會(huì)在秒級(jí)范圍被響應(yīng),計(jì)算,處理并寫(xiě)入到目標(biāo)表中。同時(shí)提供了基于時(shí)間窗的統(tǒng)計(jì)分析能力,適用于實(shí)時(shí)分析場(chǎng)景。

  • 數(shù)據(jù)一致性保障

通過(guò)多種自研技術(shù),保障目標(biāo)端數(shù)據(jù)與源數(shù)據(jù)的高一致性,并支持通過(guò)多種方式完成一致性校驗(yàn),保障生產(chǎn)要求。

  • 可視化任務(wù)運(yùn)行監(jiān)控和告警

包含 20+ 可觀(guān)測(cè)性指標(biāo),包括全量同步進(jìn)度、增量同步延遲等,能夠?qū)崟r(shí)監(jiān)控在運(yùn)行任務(wù)的最新運(yùn)行狀態(tài)、日志信息等,支持任務(wù)告警。


【相關(guān)閱讀】

原文鏈接:https://tapdata.net/tapdata-connector-sqlserver-bigquery.html











Tapdata Connector 實(shí)用指南:數(shù)據(jù)入倉(cāng)場(chǎng)景之?dāng)?shù)據(jù)實(shí)時(shí)同步到 BigQuery的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
余姚市| 体育| 怀化市| 桐城市| 五大连池市| 常宁市| 富源县| 九龙坡区| 苗栗县| 宁波市| 横峰县| 张家川| 彩票| 红河县| 苍溪县| 秀山| 深圳市| 孝义市| 雅安市| 东安县| 南溪县| 大厂| 永康市| 乃东县| 枣阳市| 云浮市| 塘沽区| 中西区| 博罗县| 眉山市| 黄龙县| 台南县| 同江市| 锦屏县| 湘阴县| 汨罗市| 溧阳市| 龙海市| 马山县| 天气| 平阳县|