最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

企業(yè)數(shù)據(jù)治理實戰(zhàn)總結(jié)--數(shù)倉面試必備

2023-03-15 15:12 作者:滌生大數(shù)據(jù)  | 我要投稿

文章整理自滌生大數(shù)據(jù)老師宇哥,宇哥是歷任中國電信,平安銀行,微眾銀行,眾安保險等多家公司擅長大數(shù)據(jù)求職面試,數(shù)倉開發(fā)管理,數(shù)據(jù)治理,數(shù)據(jù)質(zhì)量等工作,主導(dǎo)過相關(guān)平臺的建設(shè)

1?數(shù)據(jù)治理的背景

在數(shù)據(jù)建設(shè)過程中,業(yè)務(wù)人員和數(shù)據(jù)開發(fā)人員在日常使用數(shù)據(jù)的過程中還是能感受到一些痛點(diǎn)的,主要的表現(xiàn):

第一,數(shù)據(jù)資產(chǎn)缺乏盤點(diǎn)。當(dāng)前核心系統(tǒng)的主要數(shù)據(jù)已經(jīng)采集到數(shù)據(jù)倉庫,但是在日常的業(yè)務(wù)分析中經(jīng)常需要向業(yè)務(wù)系統(tǒng)了解需要用到的數(shù)據(jù)在哪里??偟脕砜磳?shù)據(jù)資產(chǎn)還是缺乏整體盤點(diǎn),公司主要有哪些數(shù)據(jù),都分布在哪些系統(tǒng)中,哪些數(shù)據(jù)已經(jīng)采集到數(shù)倉,哪些還沒有入庫,還有待進(jìn)一步梳理。

第二,數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)不足。數(shù)據(jù)標(biāo)準(zhǔn)會貫穿數(shù)據(jù)管理的全流程,雖然我們制定了一系列規(guī)范文檔、制度文檔、流程文檔等,但有了標(biāo)準(zhǔn)并不代表數(shù)據(jù)標(biāo)準(zhǔn)化已經(jīng)落實了,像指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化、主數(shù)據(jù)的標(biāo)準(zhǔn)化等方面還需要進(jìn)一步的提升。

第三,數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量是數(shù)據(jù)的生命線,差的數(shù)據(jù)質(zhì)量嚴(yán)重影響數(shù)據(jù)分析的結(jié)論,有的可能對決策產(chǎn)生誤導(dǎo),如臟數(shù)據(jù)、維度數(shù)據(jù)缺失或變更等一系列問題,都需要進(jìn)行治理,比如掃描信息缺失,導(dǎo)致運(yùn)單路由軌跡不準(zhǔn)確;數(shù)據(jù)維度值變化,統(tǒng)計某個渠道業(yè)務(wù)量陡增或驟降。

第四,數(shù)據(jù)模型待完善。目前已經(jīng)建設(shè)了一批公共寬表,但是隨著業(yè)務(wù)發(fā)展,有些時候業(yè)務(wù)方需求比較急,開發(fā)直接從基礎(chǔ)明細(xì)表取數(shù),導(dǎo)致寬表復(fù)用度降低;為了追求開發(fā)效率,團(tuán)隊內(nèi)部也存在煙囪式開發(fā)現(xiàn)象,導(dǎo)致一些?ST?層共有邏輯沒有下沉。

第五,數(shù)據(jù)安全問題。公司還會積累大量客戶的地址、姓名、電話等信息,這些信息都需要進(jìn)行有效的安全管理。此外,國家也出臺了《數(shù)據(jù)安全法》、《個人信息保護(hù)法》等法律法規(guī),需要我們做好數(shù)據(jù)分級分類和對數(shù)據(jù)合規(guī)安全的訪問,同時保障數(shù)據(jù)保密性、完整性和可用性。

而數(shù)據(jù)開發(fā)人員如何解決以上問題成為關(guān)鍵,也是數(shù)據(jù)治理工作的核心。

2?數(shù)據(jù)治理期望實現(xiàn)的目標(biāo)

數(shù)據(jù)治理的范圍非常廣,貫穿數(shù)倉的整個生命周期,從數(shù)據(jù)產(chǎn)生->數(shù)據(jù)接入->數(shù)據(jù)存儲->數(shù)據(jù)處理->數(shù)據(jù)輸出->數(shù)據(jù)展示,每個階段都需要質(zhì)量治理,評價維度包括完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性等。

最終,數(shù)據(jù)治理工作最主要期望能夠?qū)崿F(xiàn)的目標(biāo)是:

1.?提升數(shù)據(jù)質(zhì)量

2.?解決數(shù)據(jù)孤島問題,實現(xiàn)數(shù)據(jù)匯聚聯(lián)接

3.?掌握數(shù)據(jù)資產(chǎn)現(xiàn)狀

4.?保障數(shù)據(jù)安全合規(guī)

5.?逐漸釋放業(yè)務(wù)價值,如在降本增效、提升客戶滿意度等方面發(fā)揮作用

3?數(shù)據(jù)治理體系

數(shù)據(jù)治理體系包括數(shù)據(jù)模型治理(規(guī)范治理、復(fù)用度治理)、架構(gòu)治理(數(shù)據(jù)分層治理、數(shù)據(jù)流向治理)、元數(shù)據(jù)治理、數(shù)據(jù)安全治理、數(shù)據(jù)生命周期治理、數(shù)據(jù)質(zhì)量管理以及數(shù)據(jù)體系治理等內(nèi)容。

3.1?數(shù)據(jù)模型治理

大部分行業(yè)的數(shù)據(jù)都具備如下特征:

l?數(shù)據(jù)生命周期比較長

核心業(yè)務(wù)過程生命周期短則?1?天,長則?3-5?天,異常過程可能會更長。財務(wù)類周期結(jié)算長,涉及政策財經(jīng)類數(shù)據(jù)計算回刷時間?1~3?個月;

l?業(yè)務(wù)流程復(fù)雜

核心業(yè)務(wù)過程從業(yè)務(wù)流程起始點(diǎn)到業(yè)務(wù)流程終點(diǎn),流程較為復(fù)雜;

l?對象多數(shù)據(jù)大

數(shù)據(jù)由不同業(yè)務(wù)對象等多角色產(chǎn)生,且非常依賴他們操作的規(guī)范性;

l?數(shù)據(jù)精細(xì)化運(yùn)營

當(dāng)前各大行業(yè)競爭都非常激烈,在此背景下更需要精細(xì)化運(yùn)營,因此對數(shù)據(jù)依賴非常強(qiáng)。公司通過數(shù)據(jù)化運(yùn)營進(jìn)行成本管控,運(yùn)單時效管控,服務(wù)質(zhì)量管控,已成為公司日常運(yùn)營常態(tài),因此對數(shù)據(jù)準(zhǔn)確性,時效性要求很高。

同時,隨著業(yè)務(wù)持續(xù)發(fā)展,項目也在快速迭代。數(shù)據(jù)建設(shè)不規(guī)范等方面的原因?qū)е铝藦?fù)用性不高、時效不穩(wěn)定等,自然而然也會引起資源危機(jī)等問題。

為此可以制定了一整套的方案,主要包括三方面

第一,制定規(guī)范。制定諸如開發(fā)規(guī)范、分層使用規(guī)范,并嚴(yán)格要求各類數(shù)據(jù)開發(fā)和使用團(tuán)隊遵守;

第二,過程管控。以需求為驅(qū)動,將設(shè)計、開發(fā)、上線等數(shù)據(jù)建設(shè)各個階段進(jìn)行過程管控;

第三,模型分級。根據(jù)應(yīng)用的重要程度來反推、梳理哪些是重要的模型和應(yīng)用,將重要性高的模型和應(yīng)用納入重點(diǎn)治理范圍,重點(diǎn)關(guān)注他們的復(fù)用性、實效性。

3.1.1?規(guī)范治理

規(guī)范是數(shù)倉建設(shè)的保障。為了避免出現(xiàn)指標(biāo)重復(fù)建設(shè)和數(shù)據(jù)質(zhì)量差的情況,統(tǒng)一按照最詳細(xì)、可落地的方法進(jìn)行規(guī)范建設(shè)。

3.1.1.1詞根規(guī)范

詞根是維度和指標(biāo)管理的基礎(chǔ),劃分為普通詞根與專有詞根,提高詞根的易用性和關(guān)聯(lián)性。

普通詞根:描述事物的最小單元體,如:交易-trade。

專有詞根:具備約定成俗或行業(yè)專屬的描述體,如:美元-USD。

3.1.1.2表命名規(guī)范

通用規(guī)范

l?表名、字段名采用一個下劃線分隔詞根(示例:clienttype->client_type)。

l?每部分使用小寫英文單詞,屬于通用字段的必須滿足通用字段信息的定義。

l?表名、字段名需以字母為開頭。

l?表名、字段名最長不超過64個英文字符。

l?優(yōu)先使用詞根中已有關(guān)鍵字(數(shù)倉標(biāo)準(zhǔn)配置中的詞根管理),定期Review新增命名的不合理性。

l?在表名自定義部分禁止采用非標(biāo)準(zhǔn)的縮寫。

l?表命名規(guī)則:表名稱?=?類型?+?業(yè)務(wù)主題?+?子主題?+?表含義?+?存儲格式?+?更新頻率?+結(jié)尾,如下圖所示:

統(tǒng)一的表命名規(guī)范

3.1.1.3指標(biāo)命名規(guī)范

結(jié)合指標(biāo)的特性以及詞根管理規(guī)范,將指標(biāo)進(jìn)行結(jié)構(gòu)化處理。

l?基礎(chǔ)指標(biāo)詞根,即所有指標(biāo)必須包含以下基礎(chǔ)詞根:

l?業(yè)務(wù)修飾詞,用于描述業(yè)務(wù)場景的詞匯,例如trade-交易。

l?日期修飾詞,用于修飾業(yè)務(wù)發(fā)生的時間區(qū)間。

l?聚合修飾詞,對結(jié)果進(jìn)行聚集操作。

l?基礎(chǔ)指標(biāo),單一的業(yè)務(wù)修飾詞+基礎(chǔ)指標(biāo)詞根構(gòu)建基礎(chǔ)指標(biāo)?,例如:交易金額-trade_amt。

l?派生指標(biāo),多修飾詞+基礎(chǔ)指標(biāo)詞根構(gòu)建派生指標(biāo)。派生指標(biāo)繼承基礎(chǔ)指標(biāo)的特性,例如:安裝門店數(shù)量-install_poi_cnt。

l?普通指標(biāo)命名規(guī)范,與字段命名規(guī)范一致,由詞匯轉(zhuǎn)換即可以。

3.1.2?復(fù)用度治理

復(fù)用度治理方面,主要包括三塊:

第一,流程規(guī)范的制定。我們會制定相關(guān)規(guī)范來要求數(shù)據(jù)參與者都遵守。通過制定規(guī)范,應(yīng)用開發(fā)團(tuán)隊和數(shù)倉團(tuán)隊進(jìn)行分工,且在業(yè)務(wù)需求評審環(huán)節(jié)要求數(shù)倉團(tuán)隊介入,可以更早地評估是否需要設(shè)計相關(guān)模型來支持應(yīng)用團(tuán)隊的數(shù)據(jù)開發(fā);

第二,過程線上管控。在數(shù)據(jù)使用、模型設(shè)計、任務(wù)上線等環(huán)節(jié)都進(jìn)行線上管控,由leader審批把關(guān);

第三,核心數(shù)據(jù)識別。最主要是識別出四類核心數(shù)據(jù),最主要關(guān)注核心模型和核心應(yīng)用,并對這類數(shù)據(jù)我們重點(diǎn)關(guān)注、重點(diǎn)保障,優(yōu)先保障其核心鏈路上數(shù)據(jù)的準(zhǔn)確性和及時性。

在數(shù)據(jù)復(fù)用度治理方面還需要關(guān)注時效、引用度、需求響應(yīng)及時性之間的平衡問題。我們不能為了提高模型的復(fù)用度就任意的增加維度、指標(biāo),否則可能會導(dǎo)致下游應(yīng)用產(chǎn)出障礙的問題。也不能說某個指標(biāo)下游引用不多就增加到寬表中來,一定要考慮平衡性的問題。

除此之外,我們還需要考慮響應(yīng)的及時性。在流程上我們希望盡量做到規(guī)范,希望應(yīng)用層都引用模型、寬表的數(shù)據(jù)。在實際工作中,有時為了保證“業(yè)務(wù)需求第一”的原則,有可能允許應(yīng)用層先從明細(xì)層取數(shù)進(jìn)行開發(fā),模型同步進(jìn)行迭代優(yōu)化,后續(xù)再讓應(yīng)用層把需求切換回來。

3.2?架構(gòu)治理

3.2.1?數(shù)據(jù)分層

優(yōu)秀可靠的數(shù)倉體系,往往需要清晰的數(shù)據(jù)分層結(jié)構(gòu),即要保證數(shù)據(jù)層的穩(wěn)定又要屏蔽對下游的影響,并且要避免鏈路過長,一般的分層架構(gòu)如下:

但是在對數(shù)倉分層架構(gòu)做治理的過程中,同時也要結(jié)合公司業(yè)務(wù)場景和組織架構(gòu)合理涉及數(shù)倉分層架構(gòu),才能保證數(shù)倉分層架構(gòu)能夠匹配公司業(yè)務(wù)發(fā)展,更好地賦能業(yè)務(wù)。

3.2.2?數(shù)據(jù)流向

穩(wěn)定業(yè)務(wù)按照標(biāo)準(zhǔn)的數(shù)據(jù)流向進(jìn)行開發(fā),即ODS-->DWD-->DWA-->APP。非穩(wěn)定業(yè)務(wù)或探索性需求,可以遵循ODS->DWD->APP或者ODS->DWD->DWT->APP兩個模型數(shù)據(jù)流。在保障了數(shù)據(jù)鏈路的合理性之后,又在此基礎(chǔ)上確認(rèn)了模型分層引用原則:

正常流向:ODS>DWD->DWT->DWA->APP,當(dāng)出現(xiàn)ODS?>DWD->DWA->APP這種關(guān)系時,說明主題域未覆蓋全。應(yīng)將DWD數(shù)據(jù)落到DWT中,對于使用頻度非常低的表允許DWD->DWA。盡量避免出現(xiàn)DWA寬表中使用DWD又使用(該DWD所歸屬主題域)DWT的表。同一主題域內(nèi)對于DWT生成DWT的表,原則上要盡量避免,否則會影響ETL的效率。DWT、DWA和APP中禁止直接使用ODS的表,?ODS的表只能被DWD引用。禁止出現(xiàn)反向依賴,例如DWT的表依賴DWA的表。

3.3?元數(shù)據(jù)治理

我們的數(shù)倉中有上萬張表,無論是對數(shù)據(jù)開發(fā)者還是業(yè)務(wù)使用方,都會面臨無從下手的情況。他們在日常使用過程中的痛點(diǎn)最主要可以歸納為有什么、在哪里、怎么用三類。

比如一個運(yùn)單,有收件人、發(fā)件人、運(yùn)載軌跡、費(fèi)用等各種信息,但具體有哪些表就不是很清楚了。在實際的工作中,分析師也經(jīng)常會問有沒有哪塊的數(shù)據(jù),在哪里之類等等。哪怕是找到表之后,也會疑惑數(shù)據(jù)是如何加工的,如果要用的話有哪些限制條件等等問題。

基于對現(xiàn)狀的梳理及現(xiàn)階段要對元數(shù)據(jù)信息管理的目標(biāo)。

元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù):

技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT?人員使用,它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。

常見的技術(shù)元數(shù)據(jù)有

存儲元數(shù)據(jù):如表、字段、分區(qū)等信息。

運(yùn)行元數(shù)據(jù):如大數(shù)據(jù)平臺上所有作業(yè)運(yùn)行等信息:類似于?Hive?Job?日志,包括作業(yè)類型、實例名稱、輸入輸出、?SQL?、運(yùn)行參數(shù)、執(zhí)行時間,執(zhí)行引擎等。

數(shù)據(jù)開發(fā)平臺中數(shù)據(jù)同步、計算任務(wù)、任務(wù)調(diào)度等信息:包括數(shù)據(jù)同步的輸入輸出表和字段,以及同步任務(wù)本身的節(jié)點(diǎn)信息:計算任務(wù)主要有輸入輸出、任務(wù)本身的節(jié)點(diǎn)信息?任務(wù)調(diào)度主要有任務(wù)的依賴類型、依賴關(guān)系等,以及不同類型調(diào)度任務(wù)的運(yùn)行日志等。

數(shù)據(jù)質(zhì)量和運(yùn)維相關(guān)元數(shù)據(jù):如任務(wù)監(jiān)控、運(yùn)維報警、數(shù)據(jù)質(zhì)量、故障等信息,包括任務(wù)監(jiān)控運(yùn)行日志、告警配置及運(yùn)行日志、故障信息等。

業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。

常見的業(yè)務(wù)元數(shù)據(jù)有維度及屬性(包括維度編碼,字段類型,創(chuàng)建人,創(chuàng)建時間,狀態(tài)等)、業(yè)務(wù)過程、指標(biāo)(包含指標(biāo)名稱,指標(biāo)編碼,業(yè)務(wù)口徑,指標(biāo)類型,責(zé)任人,創(chuàng)建時間,狀態(tài),sql等),安全等級,計算邏輯等的規(guī)范化定義,用于更好地管理和使用數(shù)據(jù)。數(shù)據(jù)應(yīng)用元數(shù)據(jù),如數(shù)據(jù)報表、數(shù)據(jù)產(chǎn)品等的配置和運(yùn)行元數(shù)據(jù)。

元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源、抽取和轉(zhuǎn)換規(guī)則等,而且是整個數(shù)據(jù)倉庫系統(tǒng)運(yùn)行的基礎(chǔ),元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中各個松散的組件聯(lián)系起來,組成了一個有機(jī)的整體。

元數(shù)據(jù)治理主要解決三個問題

通過建立相應(yīng)的組織、流程和工具,推動業(yè)務(wù)標(biāo)準(zhǔn)的落地實施,實現(xiàn)指標(biāo)的規(guī)范定義,消除指標(biāo)認(rèn)知的歧義;

基于業(yè)務(wù)現(xiàn)狀和未來的演進(jìn)方式,對業(yè)務(wù)模型進(jìn)行抽象,制定清晰的主題、業(yè)務(wù)過程和分析方向,構(gòu)建完備的技術(shù)元數(shù)據(jù),對物理模型進(jìn)行準(zhǔn)確完善的描述,并打通技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)的關(guān)系,對物理模型進(jìn)行完備的刻畫;

通過元數(shù)據(jù)建設(shè),為使用數(shù)據(jù)提效,解決“找數(shù)、理解數(shù)、評估”難題以及“取數(shù)、數(shù)據(jù)可視化”等難題。

3.4?數(shù)據(jù)安全治理

數(shù)據(jù)安全是企業(yè)數(shù)據(jù)建設(shè)必不可少的一環(huán),我們的數(shù)據(jù)都存儲在大大小小的磁盤中,對外提供不同程度的查詢和計算服務(wù)。

需要定時對數(shù)據(jù)進(jìn)行核查、敏感字段加密、訪問權(quán)限控制,確保數(shù)據(jù)能夠被安全地使用。

圍繞數(shù)據(jù)安全標(biāo)準(zhǔn),首先要有數(shù)據(jù)的分級、分類標(biāo)準(zhǔn),確保數(shù)據(jù)在上線前有著準(zhǔn)確的密級。第二,針對數(shù)據(jù)使用方,要有明確的角色授權(quán)標(biāo)準(zhǔn),通過分級分類和角色授權(quán),來保障重要數(shù)據(jù)拿不走。第三,針對敏感數(shù)據(jù),要有隱私管理標(biāo)準(zhǔn),保障敏感數(shù)據(jù)的安全存儲,即使未授權(quán)用戶繞過權(quán)限管理拿到敏感數(shù)據(jù),也要確保其看不懂。第四,通過制定審計標(biāo)準(zhǔn),為后續(xù)的審計提供審計依據(jù),確保數(shù)據(jù)走不脫。

3.5?數(shù)據(jù)生命周期治理

任何事物都具有一定的生命周期,數(shù)據(jù)也不例外。從數(shù)據(jù)的產(chǎn)生、加工、使用乃至消亡都應(yīng)該有一個科學(xué)的管理辦法,將極少或者不再使用的數(shù)據(jù)從系統(tǒng)中剝離出來,并通過核實的存儲設(shè)備進(jìn)行保留,不僅能夠提高系統(tǒng)的運(yùn)行效率,更好的服務(wù)客戶,還能大幅度減少因為數(shù)據(jù)長期保存帶來的儲存成本。數(shù)據(jù)生命周期一般包含在線階段、歸檔階段(有時還會進(jìn)一步劃分為在線歸檔階段和離線歸檔階段)、銷毀階段三大階段,管理內(nèi)容包括建立合理的數(shù)據(jù)類別,針對不同類別的數(shù)據(jù)制定各個階段的保留時間、存儲介質(zhì)、清理規(guī)則和方式、注意事項等。

從上圖數(shù)據(jù)生命周期中各參數(shù)間的關(guān)系中我們可以了解到,數(shù)據(jù)生命周期管理可以使得高價值數(shù)據(jù)的查詢效率大幅提升,而且高價格的存儲介質(zhì)的采購量也可以減少很多;但是隨著數(shù)據(jù)的使用程度的下降,數(shù)據(jù)被逐漸歸檔,查詢時間也慢慢的變長;最后隨著數(shù)據(jù)的使用頻率和價值基本沒有了之后,就可以逐漸銷毀了。

3.6?數(shù)據(jù)質(zhì)量治理

對于數(shù)據(jù)質(zhì)量的監(jiān)控,主要包括三個環(huán)節(jié):

第一,結(jié)合數(shù)據(jù)質(zhì)量衡量的六個維度及日常工作中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,配置相關(guān)規(guī)則。

第二,在數(shù)據(jù)加工的各個環(huán)節(jié)設(shè)置檢查點(diǎn),比如從?ODS?到?DW,從?DW?到?DM?等環(huán)節(jié)。如在?ODS?的檢查點(diǎn)設(shè)置中,可能會包括數(shù)據(jù)源抽取記錄的檢查;在基礎(chǔ)層會有空值、編碼值、一致性、重復(fù)性等問題的檢查?。

第三,輸出異常結(jié)果,進(jìn)行告警處理。

看一個具體的監(jiān)控案例。當(dāng)用數(shù)據(jù)質(zhì)量監(jiān)控平臺對一張表進(jìn)行監(jiān)控時,我們可以選擇配置相關(guān)規(guī)則,可以直接采用預(yù)置的規(guī)則模版,也可以自定義規(guī)則。也可以設(shè)置檢查規(guī)則的屬性,比如是強(qiáng)規(guī)則還是弱規(guī)則,此外對告警的屬性也可以進(jìn)行設(shè)置。規(guī)則配置完成以后在實際檢測過程中,如果某個檢測規(guī)則違反了強(qiáng)規(guī)則,則其會阻斷下游任務(wù)的執(zhí)行。

告警升級機(jī)制方面,強(qiáng)規(guī)則一般會提供電話告警。如果說由于疏忽或其他情況導(dǎo)致任務(wù)負(fù)責(zé)人未及時處理,那么會升級到leader來推進(jìn)問題的解決。

告警信息是點(diǎn)對點(diǎn),我們對告警信息會進(jìn)行聚合,形成質(zhì)量全貌信息。比如每天早上來上班,我就可以打開質(zhì)量全貌信息,看一下當(dāng)天執(zhí)行了多少檢查規(guī)則,有多少是有問題的。如果有問題可以繼續(xù)分辨哪些是真有問題,哪些是沒問題,有問題的是否已經(jīng)解決。如果檢查規(guī)則設(shè)置不合理,我們會進(jìn)行優(yōu)化,逐漸使得告警規(guī)則更準(zhǔn)確,形成質(zhì)量監(jiān)控全面、準(zhǔn)確的閉環(huán)。

第一,結(jié)合數(shù)據(jù)質(zhì)量衡量的六個維度及日常工作中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,配置相關(guān)規(guī)則。

第二,在數(shù)據(jù)加工的各個環(huán)節(jié)設(shè)置檢查點(diǎn),比如從?ODS?到?DW,從?DW?到?DM?等環(huán)節(jié)。如在?ODS?的檢查點(diǎn)設(shè)置中,可能會包括數(shù)據(jù)源抽取記錄的檢查;在基礎(chǔ)層會有空值、編碼值、一致性、重復(fù)性等問題的檢查?。

第三,輸出異常結(jié)果,進(jìn)行告警處理。

看一個具體的監(jiān)控案例。當(dāng)用數(shù)據(jù)質(zhì)量監(jiān)控平臺對一張表進(jìn)行監(jiān)控時,我們可以選擇配置相關(guān)規(guī)則,可以直接采用預(yù)置的規(guī)則模版,也可以自定義規(guī)則。也可以設(shè)置檢查規(guī)則的屬性,比如是強(qiáng)規(guī)則還是弱規(guī)則,此外對告警的屬性也可以進(jìn)行設(shè)置。規(guī)則配置完成以后在實際檢測過程中,如果某個檢測規(guī)則違反了強(qiáng)規(guī)則,則其會阻斷下游任務(wù)的執(zhí)行。

告警升級機(jī)制方面,強(qiáng)規(guī)則一般會提供電話告警。如果說由于疏忽或其他情況導(dǎo)致任務(wù)負(fù)責(zé)人未及時處理,那么會升級到leader來推進(jìn)問題的解決。

告警信息是點(diǎn)對點(diǎn),我們對告警信息會進(jìn)行聚合,形成質(zhì)量全貌信息。比如每天早上來上班,我就可以打開質(zhì)量全貌信息,看一下當(dāng)天執(zhí)行了多少檢查規(guī)則,有多少是有問題的。如果有問題可以繼續(xù)分辨哪些是真有問題,哪些是沒問題,有問題的是否已經(jīng)解決。如果檢查規(guī)則設(shè)置不合理,我們會進(jìn)行優(yōu)化,逐漸使得告警規(guī)則更準(zhǔn)確,形成質(zhì)量監(jiān)控全面、準(zhǔn)確的閉環(huán)。

還有一些深層次的數(shù)據(jù)質(zhì)量問題可能通過我們常規(guī)的檢查手段并不一定能發(fā)現(xiàn),這時就需要借助下游數(shù)據(jù)使用來解決,一般我們會結(jié)合業(yè)務(wù)專題分析推動數(shù)據(jù)治理。在專題分析過程中,可能會發(fā)現(xiàn)種種數(shù)據(jù)質(zhì)量問題,比如數(shù)據(jù)未線上化、數(shù)據(jù)采集不完整等。


企業(yè)數(shù)據(jù)治理實戰(zhàn)總結(jié)--數(shù)倉面試必備的評論 (共 條)

分享到微博請遵守國家法律
宁阳县| 富阳市| 青川县| 福鼎市| 浑源县| 邯郸市| 修文县| 理塘县| 山阳县| 六枝特区| 白水县| 商河县| 布拖县| 大石桥市| 颍上县| 贵溪市| 镇江市| 大渡口区| 天峻县| 分宜县| 玛纳斯县| 黄冈市| 罗城| 铁岭市| 安达市| 登封市| 邓州市| 湄潭县| 治县。| 确山县| 兰溪市| 错那县| 秀山| 赤峰市| 罗源县| 攀枝花市| 固原市| 漳州市| 合江县| 普定县| 天津市|