實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉課程2023
實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉課程2023
資料地址1:https://pan.baidu.com/s/18eAStOUMK5Jg21N5RBBJ1g 提取碼: bmqk
資料地址2:https://share.weiyun.com/OL2DSs1X 密碼:uhxykm
分享一樣實(shí)時(shí)數(shù)倉的課程——《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》,2023年6月完結(jié)新課,提供配套的源碼+文檔+虛擬機(jī)下載!!
《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》-day01:
01.flink核心概念復(fù)習(xí).
02.flink核心概念復(fù)習(xí)-事件時(shí)間語義與watermark.
03.實(shí)時(shí)數(shù)倉-架構(gòu)理論及市場(chǎng)上各類架構(gòu)調(diào)研.
04.實(shí)時(shí)數(shù)倉-基于我們公司的架構(gòu)設(shè)計(jì).
05.實(shí)時(shí)數(shù)倉-ods數(shù)據(jù)公共維度退維需求及設(shè)計(jì).
06.實(shí)時(shí)數(shù)倉-用戶屬性退維的具體方案.
07.實(shí)時(shí)數(shù)倉-用戶屬性表同步到hbase代碼開發(fā).
08.實(shí)時(shí)數(shù)倉-用戶屬性維表同步運(yùn)行測(cè)試.
09.實(shí)時(shí)數(shù)倉-地理位置維表加工并加載到hbase.
10.實(shí)時(shí)數(shù)倉-頁面信息維表加工入庫.
11.實(shí)時(shí)數(shù)倉-今日要點(diǎn)回顧總結(jié).
《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》-day02:
01.實(shí)時(shí)數(shù)倉-公共維度退維開發(fā)-數(shù)據(jù)準(zhǔn)備.
02.實(shí)時(shí)數(shù)倉-公共維度退維-行為日志表創(chuàng)建映射.
03.實(shí)時(shí)數(shù)倉-公共維度退維-其他映射表創(chuàng)建.
04.實(shí)時(shí)數(shù)倉-公共維度退維-主代碼開發(fā).
05.實(shí)時(shí)數(shù)倉-流量主題看板-指標(biāo)開發(fā)任務(wù)1.
06.實(shí)時(shí)數(shù)倉-流量主題看板-指標(biāo)開發(fā)2.
07.實(shí)時(shí)數(shù)倉-流量主題看板-活動(dòng)頁流量統(tǒng)計(jì)‘.
08.號(hào)外-項(xiàng)目中依賴版本沖突的問題.
09.實(shí)時(shí)數(shù)倉-流量主題看板-topn頁面.
10.實(shí)時(shí)數(shù)倉-流量主題olap輕度聚合etl開發(fā).
《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》-day03:
01.實(shí)時(shí)流量概況olap分析基礎(chǔ)表etl任務(wù)-doris中物化視圖的創(chuàng)建和使用.
02.訪問時(shí)長olap-etl任務(wù)-需求分析和邏輯設(shè)計(jì).
03訪問時(shí)長olap-代碼開發(fā)1(數(shù)據(jù)讀取).
04.訪問時(shí)長olap-代碼開發(fā)2(虛擬差值實(shí)現(xiàn)).
05.訪問時(shí)長分析-虛擬插值法亂序問題.
06.訪問時(shí)長分析-插值數(shù)據(jù)如何聚合及如何在doris中合并.
07.訪問時(shí)長分析-按時(shí)間窗口聚合計(jì)算后寫入doris.
08.訪問時(shí)長分析-狀態(tài)清理問題.
09.視頻播放分析主題-需求分析及模型設(shè)計(jì)及計(jì)算方案設(shè)計(jì).
10.視頻播放行為分析主題-主題維表同步任務(wù)開發(fā).
11.視頻播放行為分析主題-聚合統(tǒng)計(jì)邏輯開發(fā).
《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》-day04:
01.視頻播放olap分析-實(shí)時(shí)報(bào)表查詢演示.
02.視頻播放olap聚合任務(wù)的技術(shù)要點(diǎn)-可以講2個(gè)故事.
03.搜索行為olap主題-需求分析和概要設(shè)計(jì).
04.搜索行為olap主題-近義詞和分詞維度信息的獲取方案.
05.搜索行為olap主題-搜索數(shù)據(jù)聚合開發(fā).
06.搜索行為olap主題-維度拓展代碼開發(fā)1.
07.搜索行為olap主題-維度拓展代碼開發(fā)2.
08.搜索行為olap主題-維度拓展-異步IO改造.
09.搜索行為olap主題-olap報(bào)表查詢演示.
10.推薦欄位行為olap主題-需求背景及模型設(shè)計(jì).
11.推薦欄位行為olap主題-聚合代碼開發(fā).
《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》-day05:
01.廣告事件olap分析主題-業(yè)務(wù)背景及開發(fā)方案及報(bào)表查詢示例.
02.廣告點(diǎn)擊率預(yù)估-特征數(shù)據(jù)工程-需求-業(yè)務(wù)-數(shù)據(jù)-方案.
03.廣告點(diǎn)擊率預(yù)估-請(qǐng)求特征日志數(shù)據(jù)同步到hbase開發(fā).
04.CEP快速上手.
05.廣告點(diǎn)擊率預(yù)估-曝光點(diǎn)擊事件CEP匹配開發(fā).
06.廣告點(diǎn)擊率預(yù)估-特征lookup及測(cè)試.
07.廣告點(diǎn)擊率預(yù)估-負(fù)例特征的計(jì)算方案分析.
《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》-day06:
?01.業(yè)務(wù)域分析需求概述.
02.訂單表同步doris任務(wù)開發(fā)(1)-連接器表創(chuàng)建.'
'03.訂單表同步doris任務(wù)開發(fā)(2)-join及插入doris.'
?04.訂單日清日結(jié)看板開發(fā)1-第1個(gè)坑.
?05.訂單日清日結(jié)看板開發(fā)2-第2個(gè)坑及最終解決.
?06.訂單日清日結(jié)看板開發(fā)3-結(jié)果寫入mysql.
?07.訂單日清日結(jié)api版-流式cdc-connector使用.
?08.訂單日清日結(jié)api版-計(jì)算邏輯方案設(shè)計(jì).
?09.訂單日清日結(jié)api版-差值調(diào)整邏輯實(shí)現(xiàn).
?10.訂單日清日結(jié)api版-匯總計(jì)算邏輯實(shí)現(xiàn).
?11.訂單日清日結(jié)api版-結(jié)果輸出到mysql.
《實(shí)戰(zhàn)Flink+Doris實(shí)時(shí)數(shù)倉》-day07:
01.品牌topn支付額商品-sql開發(fā)-隱蔽的陷阱.
02.品牌topn支付額商品-changelog流的精細(xì)化控制操作.
03.品牌topn支付額商品-取分組topn的邏輯實(shí)現(xiàn).
04.背壓機(jī)制理解.
05.背壓的查找和定位.
06.項(xiàng)目中的一些背壓產(chǎn)生場(chǎng)景及解決手段.
07.checkpoint問題及項(xiàng)目中的調(diào)優(yōu)場(chǎng)景經(jīng)驗(yàn).
實(shí)時(shí)數(shù)據(jù)倉庫(Real-time Data Warehouse)是指能夠?qū)崟r(shí)地處理和分析數(shù)據(jù),使得數(shù)據(jù)倉庫中的數(shù)據(jù)是最新的、最準(zhǔn)確的,并且可以實(shí)時(shí)響應(yīng)用戶的查詢和分析需求的一種數(shù)據(jù)倉庫系統(tǒng)。
與傳統(tǒng)的數(shù)據(jù)倉庫相比,實(shí)時(shí)數(shù)據(jù)倉庫更加注重?cái)?shù)據(jù)的實(shí)時(shí)性和對(duì)業(yè)務(wù)的實(shí)時(shí)響應(yīng)能力。傳統(tǒng)數(shù)據(jù)倉庫通常是每日、每周或每月定期進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換和加載(ETL),更新的速度較慢,一般不支持實(shí)時(shí)查詢和分析。而實(shí)時(shí)數(shù)據(jù)倉庫則更加注重?cái)?shù)據(jù)的實(shí)時(shí)性和對(duì)業(yè)務(wù)的實(shí)時(shí)響應(yīng)能力,能夠在數(shù)據(jù)發(fā)生變化時(shí)及時(shí)響應(yīng)用戶的查詢和分析需求。
實(shí)時(shí)數(shù)倉建設(shè)目的
1. 解決傳統(tǒng)數(shù)倉的問題
從目前數(shù)倉建設(shè)的現(xiàn)狀來看,實(shí)時(shí)數(shù)倉是一個(gè)容易讓人產(chǎn)生混淆的概念,根據(jù)傳統(tǒng)經(jīng)驗(yàn)分析,數(shù)倉有一個(gè)重要的功能,即能夠記錄歷史。通常,數(shù)倉都是希望從業(yè)務(wù)上線的第一天開始有數(shù)據(jù),然后一直記錄到現(xiàn)在。但實(shí)時(shí)流處理技術(shù),又是強(qiáng)調(diào)當(dāng)前處理狀態(tài)的一個(gè)技術(shù),結(jié)合當(dāng)前一線大廠的建設(shè)經(jīng)驗(yàn)和滴滴在該領(lǐng)域的建設(shè)現(xiàn)狀,我們嘗試把公司內(nèi)實(shí)時(shí)數(shù)倉建設(shè)的目的定位為,以數(shù)倉建設(shè)理論和實(shí)時(shí)技術(shù),解決由于當(dāng)前離線數(shù)倉數(shù)據(jù)時(shí)效性低解決不了的問題。
現(xiàn)階段我們要建設(shè)實(shí)時(shí)數(shù)倉的主要原因是:
公司業(yè)務(wù)對(duì)于數(shù)據(jù)的實(shí)時(shí)性越來越迫切,需要有實(shí)時(shí)數(shù)據(jù)來輔助完成決策;
實(shí)時(shí)數(shù)據(jù)建設(shè)沒有規(guī)范,數(shù)據(jù)可用性較差,無法形成數(shù)倉體系,資源大量浪費(fèi);
數(shù)據(jù)平臺(tái)工具對(duì)整體實(shí)時(shí)開發(fā)的支持也日漸趨于成熟,開發(fā)成本降低。
2. 實(shí)時(shí)數(shù)倉的應(yīng)用場(chǎng)景
實(shí)時(shí) OLAP 分析;
實(shí)時(shí)數(shù)據(jù)看板;
實(shí)時(shí)業(yè)務(wù)監(jiān)控;
實(shí)時(shí)數(shù)據(jù)接口服務(wù)。
Doris 采用了 Adaptive Query Execution 技術(shù), 可以根據(jù) Runtime Statistics 來動(dòng)態(tài)調(diào)整執(zhí)行計(jì)劃,比如通過 Runtime Filter 技術(shù)能夠在運(yùn)行時(shí)生成生成 Filter 推到 Probe 側(cè),并且能夠?qū)?Filter 自動(dòng)穿透到 Probe 側(cè)最底層的 Scan 節(jié)點(diǎn),從而大幅減少 Probe 的數(shù)據(jù)量,加速 Join 性能。Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。
在優(yōu)化器方面 Doris 使用 CBO 和 RBO 結(jié)合的優(yōu)化策略,RBO 支持常量折疊、子查詢改寫、謂詞下推等,CBO 支持 Join Reorder。目前 CBO 還在持續(xù)優(yōu)化中,主要集中在更加精準(zhǔn)的統(tǒng)計(jì)信息收集和推導(dǎo),更加精準(zhǔn)的代價(jià)模型預(yù)估等方面。