阿B的數(shù)據(jù)治理運(yùn)營關(guān)鍵指標(biāo)體系實(shí)踐

那首先講一下我們的數(shù)據(jù)治理
項(xiàng)目的一個(gè)整體的一個(gè)背景
治理的背景我想大家就是應(yīng)該都大同小異嘛
就隨著業(yè)務(wù)的一個(gè)擴(kuò)張
然后數(shù)據(jù)量數(shù)據(jù)有爆發(fā)式的增長
那帶來的就是嗯資源的使用啊
數(shù)據(jù)質(zhì)量的控制
安全等等的各式各樣的一個(gè)問題
而且就是這些問題
他們通常類目比較繁雜
就可能一瞬間各種各樣的問題都會(huì)爆發(fā)出來
五花八門
千頭萬緒的
然后而且一般來說呢
他們會(huì)有比較巨大的一個(gè)歷史存量
就感覺會(huì)讓人有一種一眼望不到頭的那種感覺
就這個(gè)時(shí)候作為數(shù)據(jù)工作者
那我們理所當(dāng)然就要用我們最擅長的數(shù)據(jù)化運(yùn)
營來解決這些成年頑疾
這邊其實(shí)我想先介紹一下
數(shù)據(jù)治理到底是一個(gè)什么事兒
因?yàn)檫@四個(gè)字其實(shí)很多人都在講嘛
那數(shù)據(jù)治理呢
其實(shí)它是數(shù)據(jù)管理框架中
非常重要的一個(gè)組成部分
那就將它稱之為是骨干部分
其實(shí)也不為過
數(shù)據(jù)治理是數(shù)據(jù)管理的計(jì)劃者
監(jiān)督者
推進(jìn)者
他是促使我們按標(biāo)準(zhǔn)和最佳實(shí)踐來管理數(shù)據(jù)
那我們引入數(shù)據(jù)這數(shù)據(jù)化的方法來做數(shù)據(jù)治理
需要解決數(shù)據(jù)治理中的由誰做什么
為什么做
怎么做
做到什么程度
這樣的這些問題
既然要做數(shù)據(jù)化運(yùn)營
首先得要先搭好我們的治理主題的整體的一個(gè)
數(shù)據(jù)框架嘛
那么這里呢是我們的整體的一個(gè)
比較簡單的一個(gè)框架圖
然后我們將治理所用到的數(shù)據(jù)
會(huì)劃分為用戶模型
開發(fā)運(yùn)維
血緣安全
資產(chǎn)操作等這些的一些數(shù)據(jù)域
那他他們相關(guān)的數(shù)據(jù)源
其實(shí)都是從這些地方來的
并且就經(jīng)由這些數(shù)據(jù)來支撐起我們上上層的嗯
質(zhì)量主題
成本主題
用數(shù)主題等等的這些各大主題的一個(gè)指標(biāo)體系
那在網(wǎng)上會(huì)有一些
就是我們用于數(shù)據(jù)治理的一些簡單的啊
公司內(nèi)部的一些工具
在進(jìn)入指標(biāo)體系的介紹之前
想先給大家看一下
數(shù)據(jù)治理的指標(biāo)建設(shè)有哪些視角
那作為管理框架中的骨干
數(shù)據(jù)治理要必須是要定義好數(shù)據(jù)管理中的標(biāo)準(zhǔn)
責(zé)任方法
工具以及價(jià)值
這里面其實(shí)這五大塊定義
每一塊都有屬于自己的一套指標(biāo)構(gòu)建的模式
不過我們今天肯定講不了這么多
所以我們今天的重點(diǎn)是在于實(shí)施的方法
這個(gè)視角好啦
我們快速進(jìn)入主題
這里先拋出一個(gè)概念圖
治理治標(biāo)體
治理指標(biāo)體系呢自上而下分為治理目標(biāo)
治理策略以及治理那個(gè)策略評估這三個(gè)部分
其中在評估這里有兩類指標(biāo)
一類叫做實(shí)施命中指標(biāo)
一類叫做效果評估指標(biāo)
這兩類指標(biāo)具體是什么意思
后面會(huì)具體的講到
然后這個(gè)模型就是我們的實(shí)施的方法
這個(gè)模型這個(gè)模型的一個(gè)重點(diǎn)是在于
要將治理策略與策略評估
這兩點(diǎn)融合成一個(gè)可持續(xù)運(yùn)營的大循環(huán)
那我們來看一看
這個(gè)模型是如何應(yīng)用到我們的治理主題中來的
首先我們要確定一個(gè)治理的目標(biāo)
注意啊這個(gè)目標(biāo)得是一個(gè)有限周期內(nèi)的目標(biāo)
比如說啊
我們這我們本季度存儲(chǔ)要下降500個(gè)pb
那如果你只說我要下降500個(gè)pb
但是我沒有說啊
我們什么時(shí)候我要完成
那這樣其實(shí)你就做個(gè)幾年也算做嘛
慢慢做就是了
也用不著搞那么復(fù)雜的指標(biāo)體系
去搞什么運(yùn)營了
所以它應(yīng)該是一個(gè)有限有限周期內(nèi)的一個(gè)目標(biāo)
那同時(shí)呢
這個(gè)治理目標(biāo)是要以你是要是一個(gè)明確的度量
而不是一個(gè)抽象的概念
就是不要說我們本季度的目標(biāo)是
不發(fā)生重大事故
而是定義好我們本季度目標(biāo)是p0 級的
事故是零
因?yàn)槿绻麊渭冎皇前”炯径炔话l(fā)生重大事故
那到底怎么算是重大事故呢
如果我們的老板早上起床的時(shí)候
沒有看到今天的周報(bào)
沒有看到一些他想看的看板
那這算不算一個(gè)重大事故呢
好那么我們先把一個(gè)周期內(nèi)的目標(biāo)去定好
接著再來想策策略
治理的策略應(yīng)該怎么定
治理那個(gè)策略制定的方向呢
主要有兩個(gè)步驟
先是要確定策略的方向
再去探索每一個(gè)策略方向
下面的具體的實(shí)施項(xiàng)策略的方向其實(shí)很好理解
我們有了目標(biāo)之后
就拆解一下這個(gè)目標(biāo)的因果關(guān)系
或者說包含關(guān)系
自然就能快速得到我們的策略方向了
而具體的策略的實(shí)施項(xiàng)
就是要基于整體的一個(gè)策略方向
進(jìn)行一些數(shù)據(jù)的探索
具體要怎么去探索
其實(shí)也并不難
就咱們找找出與我們的策略方向最大相徑庭的
那部分?jǐn)?shù)據(jù)資產(chǎn)
找出來做什么呢
找出來看看
他們?yōu)槭裁春臀覀兊牟呗苑较蛳嗖钅敲创?/p>
比如說
假設(shè)我們想要提前我們的核心任務(wù)的完成線
那么就找出平時(shí)運(yùn)行的時(shí)候
完成時(shí)間最晚的那一條任務(wù)鏈路
看一看這條鏈路里有些什么毛病
是怎么把它拖延到這么晚的
又比如呢如果我們想要做計(jì)算資源的一個(gè)優(yōu)化
那么就找出一批計(jì)算資源消耗最大的任務(wù)
看看它里面有什么毛病
為什么它的消耗會(huì)這么大
當(dāng)我們找出這批清單之后
從中看一看他們有沒有一些共性的問題
指標(biāo)總結(jié)一下這些指標(biāo)反映了什么問題
嗯然后呢就可以簡單的去得到幾個(gè)結(jié)論
比如說啊從從某某指標(biāo)來看
這個(gè)數(shù)據(jù)存在這樣的問題
那么這個(gè)某某指標(biāo)其實(shí)就成為我們前面提到的
一個(gè)實(shí)施命中指標(biāo)
就是說從這個(gè)指標(biāo)說明它是有問題的
是需要拎出來治理的
完成了這些探索之后
我們就有了一批問題
然后以這批問題為起點(diǎn)
進(jìn)入到我們的整個(gè)運(yùn)營的大循環(huán)里面
就這個(gè)大循環(huán)具體是怎么去循環(huán)的
大家直接看ppt就行
我就不具體展開講了
因?yàn)檫€是比較簡單的
那接下來我們用三個(gè)不同的場景來舉例一下
就解釋一下我們的這個(gè)模型是如何去作用的
因?yàn)猷盼覀兊哪P途褪窍M潜M可能一個(gè)體系
在整個(gè)治理的工作中全盤適用嘛
那第一個(gè)場景是存儲(chǔ)成本的一個(gè)治理
先假設(shè)我們的目標(biāo)是在一個(gè)周期內(nèi)
完成多少量的存儲(chǔ)成本下降
那這邊就是ppt上面
其實(shí)我是把這個(gè)目標(biāo)簡化了
因?yàn)榇蠹矣浀梦仪懊嬷v的目標(biāo)
一定要是一個(gè)明確的度量
它不能是一個(gè)抽象的概念
所以這里只是一種簡化
ok存儲(chǔ)成本下降
它有一個(gè)很簡單的因果拆解關(guān)系
成本等于什么呢
成本就等于用量乘以單價(jià)
那么用量的降低
或者說單價(jià)的降低
它和成本降低之間有直接的因果關(guān)系
那我們就跟著這個(gè)因果關(guān)系
就拆解出兩個(gè)策略方向
一個(gè)是降低用量
一個(gè)是降低單價(jià)
那么這兩個(gè)方向?qū)?biāo)的效果評估指標(biāo)
其實(shí)就是總用量和單價(jià)的均值
接下來我們繼續(xù)做策略的拆解
拆解總用量的下降
那我們又可以通過包含的關(guān)系去拆解成
歷史存量的下降和新增量的下降
那對應(yīng)的那個(gè)效果評估指標(biāo)
其實(shí)就是每日新增量以及歷史存量
再往下每日新增量的下降
因?yàn)檫@個(gè)已經(jīng)是一個(gè)比較明確的一個(gè)
策略方向了
所以其實(shí)我們沒有必要再往下去拆方向
而是開始去尋找去探索它的一個(gè)實(shí)施項(xiàng)
那我們先找出每日新增量最大的那一批模型
找一找他們有什么共性的問題
那根據(jù)我們實(shí)踐中的經(jīng)驗(yàn)?zāi)?/p>
就通常這類模型會(huì)有兩類的一個(gè)特點(diǎn)
一個(gè)特點(diǎn)是它們的每日的行數(shù)很大
就是數(shù)據(jù)量比較大嘛
第二個(gè)呢是他們的一些模型
設(shè)計(jì)的結(jié)構(gòu)不是特別的好
里面會(huì)有一些比較大的json字符串
或者像u r l其他的一個(gè)那種大的這字符串
導(dǎo)致它一行數(shù)據(jù)的存儲(chǔ)量會(huì)很大
這里其實(shí)就是要找出的
是我們的實(shí)時(shí)命中指標(biāo)了
那比如說他每天的就每天的數(shù)據(jù)量大
它的一個(gè)命運(yùn)指標(biāo)就是表的行數(shù)
然后如果它內(nèi)部有一些不太好的那個(gè)字段
有一些大的字符串
那么這個(gè)實(shí)時(shí)命中指標(biāo)
其實(shí)就是它一行數(shù)據(jù)的一個(gè)行密度
那經(jīng)過這樣的拆解
那接下來我們可以采取的具體的一個(gè)實(shí)施
就是要么去減少它的函數(shù)
去進(jìn)行一些數(shù)據(jù)采樣
要么就是那個(gè)去采取結(jié)構(gòu)的優(yōu)化
把那些大的字符串給它去掉
這樣的話那新增量就降下來了嘛
第二個(gè)場景是在數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量管理中的監(jiān)控告警的一個(gè)治理
那假設(shè)我們的這在這個(gè)方向上的一個(gè)那個(gè)治理
目標(biāo)是要提升異常發(fā)現(xiàn)率到99%
那我們先通過因果拆解去拆解出兩個(gè)策略方向
一個(gè)是提升監(jiān)控覆蓋
還有一個(gè)是提升個(gè)案例告警的提效
那接下來再探索一下啊
我們其實(shí)可以用一個(gè)非標(biāo)監(jiān)控任務(wù)數(shù)
來找到我們的日常任務(wù)中
不合理的監(jiān)控配置問題
這樣就能提升我們的一個(gè)監(jiān)控覆蓋率了
那另外一個(gè)方向就是告警提效
這個(gè)方向呢又可以在通過包含的關(guān)系
拆解為告警響應(yīng)的提速以及告警的反饋
那么這兩塊它的一個(gè)效果評估指標(biāo)
那對應(yīng)的就是響應(yīng)耗時(shí)以及告警的反饋率
然后再各自探索出這兩個(gè)方向的具體的實(shí)施項(xiàng)
和它的實(shí)時(shí)命中指標(biāo)
第三個(gè)場景是在數(shù)據(jù)模型管理中的一個(gè)用戶
找用戶找數(shù)體驗(yàn)的一個(gè)治理
那假設(shè)我們要降低用戶少數(shù)的一個(gè)耗時(shí)
比如說降低到均值多少分鐘
那么同樣的是進(jìn)行那個(gè)整體的一個(gè)目標(biāo)
到策略的一個(gè)拆解
先整體的拆解為提升推薦表
特殊和加快可用判斷這兩個(gè)策略方向
那他們的效果評估指標(biāo)可以是
比如推薦表點(diǎn)擊深度以及用戶的一個(gè)碳表用時(shí)
然后再各自拆解出這兩個(gè)方向的一個(gè)
具體的實(shí)施項(xiàng)
其中推薦表透出呢
又可以拆解為我們的數(shù)據(jù)主題入口正確分流
然后是我們的推薦表排序要靠前
這兩個(gè)具體的一個(gè)實(shí)施項(xiàng)
那他們的各自的一個(gè)命中指標(biāo)可以是
比如說啊模型主題標(biāo)簽的未覆蓋率
或者是模型推薦標(biāo)簽的未覆蓋率
介紹了指標(biāo)體系模型之后
接著就是我們的整個(gè)建設(shè)過程了
就這個(gè)建設(shè)過程
那大家其實(shí)也是比較熟悉的
就是通過場景的分析
分析完了之后
預(yù)定義出指標(biāo)體系
接著去做數(shù)據(jù)源的調(diào)研
有了充足的數(shù)據(jù)源之后
去定義一些數(shù)據(jù)標(biāo)準(zhǔn)
去明確業(yè)務(wù)過程是實(shí)度量以及維度
維度屬性相關(guān)的
然后再去定義指標(biāo)口徑
那這里在正在定義指標(biāo)口徑的過程中
可能我們需要對指標(biāo)體系去做一些重復(fù)
接著就是維度建模
然后是指標(biāo)匯總
然后投入應(yīng)用
那這邊其實(shí)整個(gè)過程是比較按部就班的
幾個(gè)步驟嘛
但是里面有兩個(gè)重點(diǎn)
就是我標(biāo)黃這里標(biāo)出來的
一個(gè)是指標(biāo)體系的預(yù)定義
還有一個(gè)是指標(biāo)體系的一個(gè)重塑
就是在這個(gè)過程中
其實(shí)可能會(huì)對
因?yàn)榭赡軙?huì)由于數(shù)據(jù)源的問題
對我們的指標(biāo)定義去做一些妥協(xié)和改善
接下來我們用成本治理的案例來看一看
前面所講到的這些理論
落到實(shí)踐中是具體是一個(gè)什么模樣的
先給大家看一下
我們的非常簡單粗暴的成本管理大綱
這個(gè)大綱包含了六個(gè)問題
用了多少量
花了多少錢
哪里能審怎么審
誰來執(zhí)行
不執(zhí)行又要怎么辦
那其中用了多少量
花了多少錢
這個(gè)是成本管理的一個(gè)核心度
量
也沒什么貨
也什么都沒有什么多說的
那誰來執(zhí)行
不執(zhí)行怎么辦
這個(gè)其實(shí)是屬于標(biāo)準(zhǔn)和責(zé)任制度要解決的問題
而哪里能審怎么審
這中間的兩個(gè)問題
就是運(yùn)營策略要考量的環(huán)節(jié)了
我們的整個(gè)成本治理的指標(biāo)體系
所服務(wù)的對象其實(shí)也就是中間的這兩個(gè)問題
首先呢先在做整個(gè)成本治理之前
要先確定我們的目標(biāo)是什么
上半年的時(shí)候
就是我們的資管小姐姐跟我們說說
22年
大數(shù)據(jù)的預(yù)算
要控制在21年的50%以內(nèi)好
就比著這樣的一個(gè)大背景
我們找一下大數(shù)據(jù)預(yù)算的瓶頸到底是在哪里
就是我通過成本的分布和資源利用率
兩份數(shù)據(jù)來進(jìn)行了這樣的一個(gè)簡單的分析
那先看一下我們的成本的分布
在成本分布中能夠發(fā)現(xiàn)
就是離線存儲(chǔ)的占比占到了50%
一
離線計(jì)算的占比占到了30%
那他們整體離線這邊的合計(jì)
百分之81%
剩下的那些我也就暫時(shí)先不去看他了
而在利用率這一塊呢
摘出剛才講到的離線存儲(chǔ)和離間計(jì)算
會(huì)發(fā)現(xiàn)離線存儲(chǔ)的利用率
在我當(dāng)時(shí)觀察的那個(gè)時(shí)間點(diǎn)
差不多是90%
就是差不多90%多吧
然后離線計(jì)算的利用率
差不多是70%左右
那么其實(shí)這兩份數(shù)據(jù)一出來
我們的結(jié)論就很清晰了
就是整體的一個(gè)就是今年成本治理的一個(gè)關(guān)鍵
是在于離線存儲(chǔ)治理
因此我們定下了一個(gè)半年周期內(nèi)的
存儲(chǔ)治理的一個(gè)目標(biāo)
當(dāng)然我們定了一個(gè)
我就定了一個(gè)假設(shè)
定了一個(gè)500pb的一個(gè)目標(biāo)
那么這500pb嗯
把它因?yàn)檎w的一個(gè)執(zhí)行收周期是25周
那周均下來就是我們的目標(biāo)
其實(shí)是周均優(yōu)化量要達(dá)到20個(gè)pb
在確定了周均優(yōu)化量20pb的
這樣的一個(gè)目標(biāo)之后
接下來
我們開始按照前面的理論方法來做我們的拆解
首先用包含拆解法拆解出就很簡單的
就是看歷史或者控新增這兩個(gè)大的策略方向
接著做實(shí)時(shí)項(xiàng)的探索
這個(gè)探索從數(shù)據(jù)去探索嘛
那么就在坎歷史這個(gè)方向上
撈出我們的歷史量top list
在控新增的這個(gè)方向上呢
撈出我們的新增量的top list
然后具體就撈出了這些top list之后
要找出這些list中的一些共性問題指標(biāo)
那么具體要怎么找
具體要怎么找呢
其實(shí)是通過假設(shè)和假設(shè)判斷
然后建立標(biāo)準(zhǔn)來這樣一個(gè)一個(gè)找出來的
這里其實(shí)我們可以在top list中去
提出幾個(gè)優(yōu)化的假設(shè)
這些假設(shè)的提出最好是按照實(shí)施成本低
實(shí)施效果高這樣的一個(gè)順序來一個(gè)一個(gè)的盤點(diǎn)
那首先我們提出第一個(gè)假設(shè)
就假設(shè)數(shù)據(jù)能不能下線
假設(shè)數(shù)據(jù)是可下線的
那么開始思考說什么樣的數(shù)據(jù)它是可以下線的
我們要給一個(gè)邏輯的判斷
那如果說下游已經(jīng)沒有使用了
那理論上來說它是能下線的
又或者說那他已經(jīng)有
就是這份模型已經(jīng)有另外一個(gè)替代模型了
那么他多半也是能下降的
也是能下線的
這里就是一個(gè)假設(shè)的一個(gè)判斷好了
有了我們的判斷邏輯之后
再來看一下這個(gè)判斷邏輯自身
它的實(shí)現(xiàn)成本是什么樣的
就是簡單點(diǎn)說我有了無下游使用
有替代邏輯這兩個(gè)判假設(shè)判斷
那么無下游使用的我要去判斷一個(gè)模型
它下游是否有人在使用
這個(gè)判斷成本是相對比較低的
那它的判斷成本低
那我們就立刻勾出來
把它選用起來了
而有模型
有模型替代這個(gè)判斷的
這個(gè)假設(shè)的判斷其實(shí)是需要相關(guān)業(yè)務(wù)的owner
同學(xué)來做一個(gè)人肉的判斷
那么它的判斷成本是相對比較高的
所以我們就暫緩一下
就暫時(shí)先不選用
然后再假設(shè)
比如說數(shù)據(jù)的保存時(shí)間是不是可以縮短
那這種同樣是我們建立幾個(gè)假設(shè)的一個(gè)邏輯
判斷的邏輯
比如說這個(gè)數(shù)據(jù)本身的時(shí)效就很短
比如說它是一些a b test實(shí)驗(yàn)的數(shù)據(jù)
就某一次產(chǎn)品迭代的一個(gè)實(shí)驗(yàn)的數(shù)據(jù)
那么這個(gè)實(shí)驗(yàn)其實(shí)如果達(dá)成了
就達(dá)到了實(shí)驗(yàn)的效果
有了結(jié)論之后
其實(shí)他的那個(gè)就是啊這個(gè)數(shù)據(jù)也就沒啥用了嘛
所以他的那個(gè)就是保存時(shí)間是可以縮短的
這個(gè)這一類的判斷成本其實(shí)也不大
因?yàn)槲覀兛梢酝ㄟ^下游用戶
在用戶的時(shí)候的一個(gè)時(shí)間的區(qū)間
或者說我們做一些元數(shù)據(jù)的標(biāo)簽的識(shí)別
所以這個(gè)策略其實(shí)就可以
這個(gè)這個(gè)實(shí)事項(xiàng)其實(shí)就可以立刻用起來
那還有一個(gè)
比如說是它是一份可快速恢復(fù)的中間數(shù)據(jù)
那理論上來說似乎它也是能夠縮短的
但是怎么去定義中間數(shù)據(jù)
其實(shí)這又需要一些人為的主觀意識(shí)的介入
那我們覺得啊
這個(gè)判斷成本可能也稍微高了一些
就暫時(shí)先不用作為一個(gè)備選
其他的假設(shè)其實(shí)也是一個(gè)一樣的
一個(gè)一個(gè)就是提出假設(shè)
然后做一些判斷的邏輯
再來看判斷的成本高不高或不高
然后探索出我們的首批的一個(gè)實(shí)事項(xiàng)
實(shí)施項(xiàng)的探索做完之后呢
我們就有了一個(gè)就是指標(biāo)體系的一個(gè)預(yù)定義
為什么他說他是一個(gè)預(yù)定義
那就是看一看我們接下來要做什么事情
帶著我們預(yù)定義好的指標(biāo)體系呢
我們需要調(diào)研一下數(shù)據(jù)源
那數(shù)據(jù)源這些數(shù)據(jù)源它是不是都存在的
即使存在
它是不是都可用的
那比如說像優(yōu)化量這個(gè)效果指標(biāo)
效果評估指標(biāo)
它的它的數(shù)據(jù)源是來自hdf文件的大小
又或者是無下游存儲(chǔ)量這個(gè)命中指標(biāo)
它的數(shù)據(jù)源的一部分來自平平臺(tái)的數(shù)據(jù)是源
還有像超周期存儲(chǔ)這個(gè)命中指標(biāo)
它的數(shù)據(jù)源的一部分來自任務(wù)的腳本信息
因?yàn)槲覀円獜哪_本信息
看它的sql的一個(gè)日期范圍
當(dāng)然其實(shí)我們不能期望說
所有的數(shù)據(jù)源都是可用的
如果說數(shù)據(jù)源數(shù)據(jù)源本身有缺陷
或者說里面的一些口徑定義有缺陷
那么我們可能就需要去更改數(shù)據(jù)源
更改指標(biāo)定義
這里是在我們實(shí)踐過程中的一個(gè)實(shí)際的
就是改善口徑定義的一個(gè)例子
就是我們的模型下限的實(shí)施項(xiàng)
它的命中指標(biāo)是無下游存儲(chǔ)量嘛
無下游的模型的存儲(chǔ)量
那么它的作用是
我們想要找出沒有下游使用的模型
因?yàn)槲覀冋J(rèn)為這些模型是命中了下線的
這個(gè)策略方向的
它的判斷邏輯是通過數(shù)據(jù)平臺(tái)的血緣信息
看哪些模型沒有被調(diào)度任務(wù)
或者日常的一些查詢使用到那
看起來這個(gè)邏輯似乎是挺合理的
但是實(shí)際的過實(shí)際實(shí)施的過程中
我們發(fā)現(xiàn)
由于公司內(nèi)個(gè)別團(tuán)隊(duì)
有一些還沒有來得及治理的非標(biāo)的訪問
就是說這些訪問
它其實(shí)并沒有記錄在平臺(tái)的血緣數(shù)據(jù)中
這導(dǎo)致了我們經(jīng)歷了一些可下限的誤判
所以后來我們調(diào)整了一個(gè)數(shù)據(jù)源
修改了指標(biāo)口徑
將原來的數(shù)據(jù)源由數(shù)據(jù)血緣調(diào)整為ht fs
審計(jì)日志
同時(shí)也將無下游無效
有使用這個(gè)判斷邏輯
從下游的任務(wù)數(shù)調(diào)整為審計(jì)日志中
沒有讀訪問記錄這樣的一個(gè)邏輯
那指標(biāo)確定之后呢
再來確定一下我們的整個(gè)實(shí)施過程中
需要關(guān)注哪些維度
成本治理中最重要的維度
無外乎就是資產(chǎn)的一個(gè)歸屬了
就是這份資產(chǎn)他歸屬哪個(gè)部門
哪個(gè)工作空間
具體歸屬到哪個(gè)個(gè)人
此外還有比如說數(shù)倉的層級
或者說數(shù)據(jù)等級
以及它的一些就是數(shù)據(jù)的形式
它是表還是非表
因?yàn)樵诓煌木S度屬性下
它的一些實(shí)施細(xì)則可能會(huì)發(fā)生微調(diào)
比如說對于我們的s級a級數(shù)據(jù)
就是從數(shù)據(jù)的重要程度來說嘛
對于s級a級數(shù)據(jù)來說
在數(shù)據(jù)t t r的一個(gè)配置要求上
它就會(huì)顯得比b級c級的數(shù)據(jù)更加的寬松一些
定義好的指標(biāo)以及我們所需要關(guān)注的維度
那接下來就是指標(biāo)的開發(fā)
開發(fā)完成之后
我們把一批指標(biāo)投入到我們的運(yùn)營小循環(huán)中
就是啊這個(gè)小循環(huán)
其實(shí)每每一個(gè)每一個(gè)業(yè)務(wù)部門
他們循環(huán)的方式不太一樣
那我們隨便舉一個(gè)例子
比如說在每周一的時(shí)候
小循環(huán)會(huì)做問題的審計(jì)
然后拋出這個(gè)問題清單
通拋出這個(gè)問題清單
拋出問題清單之后呢
督促相應(yīng)的責(zé)任人去做一些問題的處理
然后在每周五的時(shí)候
小循環(huán)去做當(dāng)周的一個(gè)效果匯總
因?yàn)槲覀冇幸粋€(gè)我們我們的目標(biāo)
治理目標(biāo)其實(shí)是周君20pb的治理目標(biāo)嘛
所以每周的一個(gè)效果匯總確認(rèn)
確認(rèn)當(dāng)周的進(jìn)度是否符合我們的目標(biāo)
那持續(xù)化的運(yùn)營工作
是同時(shí)需要依賴大循環(huán)和小循環(huán)這兩個(gè)循環(huán)的
在策略制定最初
大循環(huán)確定了我們優(yōu)先選擇哪些實(shí)事項(xiàng)
比如說像無下游的模型
像未壓縮的數(shù)據(jù)這一類都是我們首批選擇的
那么首批選擇之后
我們將這些給到小循環(huán)
經(jīng)由小循環(huán)去進(jìn)行一波集中的處理
當(dāng)小循環(huán)將我們的首批實(shí)施項(xiàng)處理完畢之后
接著是需要大循環(huán)
根據(jù)我們的整體策略方向再去探索新的實(shí)施上
探索新的實(shí)施命中指標(biāo)
然后再給到第二批
比如說給到我們的第二批
給到了游離目錄
然后大字段等等的這些問題
那如此
這般呢就是在大小兩個(gè)循環(huán)之間來回的往復(fù)
我們的周軍目標(biāo)就不會(huì)有一個(gè)
在執(zhí)行過程中就不會(huì)有特別明顯的斷檔
然后看一看
就是這25周內(nèi)我們的一個(gè)治理成效
這25周內(nèi)呢
其實(shí)我們的優(yōu)化實(shí)施量是遠(yuǎn)超計(jì)劃量的
遠(yuǎn)超計(jì)劃量的一個(gè)周均20pb的一個(gè)目標(biāo)
然后達(dá)達(dá)成的目標(biāo)時(shí)間就
達(dá)成目標(biāo)的時(shí)間也比預(yù)計(jì)提早了近一個(gè)月
也就是說25周的目標(biāo)
我們基本在21周左右就已經(jīng)達(dá)成了
然后整體下半年的存儲(chǔ)控制是控制在1%
近乎零增長
而且現(xiàn)在其實(shí)我們還并沒有做完
那到年底的時(shí)候
其實(shí)我們基本是能夠做到零增長的
然后全年的存儲(chǔ)增長呢
較21年下降了66%
基本上是完美達(dá)到了我們的資管小姐姐的要求
然后前面這一段是講的就是在數(shù)據(jù)治理中嗯
實(shí)施的方法
這一個(gè)這實(shí)施的方法
這個(gè)視角下的一個(gè)指標(biāo)體系的一個(gè)構(gòu)建
那前面其實(shí)我們有講過
就是數(shù)據(jù)治理下達(dá)的這五大定義
五大塊定義
每一個(gè)定義下
其實(shí)都有去建立指標(biāo)體系的不同視角
那趁著還有時(shí)間
我們看一看其他的一些視角
因?yàn)橐苍S治理運(yùn)營
運(yùn)營這兩個(gè)字聽起來會(huì)較為溫和
不過數(shù)據(jù)治理大家要知道
它必然它一定是不只有溫和的一面的
所以我們來看一下在標(biāo)準(zhǔn)和責(zé)任這兩個(gè)視角下
治理的指標(biāo)體系
是如何透露出他不溫和的一面的
標(biāo)準(zhǔn)和責(zé)任的指標(biāo)體系
一般來說在定義指標(biāo)時(shí)
是連帶上具體的指標(biāo)基準(zhǔn)值一起去定義的
怎么理解這句話呢
就是說在這套指標(biāo)體系中
如果所啊在這套指標(biāo)體系中
所有的指標(biāo)值有一個(gè)明確的數(shù)值
與指標(biāo)口徑的定義是同時(shí)確定的
那么這一套指標(biāo)是用什么途徑呢
這這套指標(biāo)它的用途是什么
其實(shí)也也很好理解
就是當(dāng)我們真實(shí)的統(tǒng)計(jì)與定義好的指標(biāo)
基準(zhǔn)值不相等的時(shí)候
就需要通過一定的機(jī)制去發(fā)出警示信息
促使相關(guān)人員介入
我們來看一下標(biāo)準(zhǔn)
責(zé)任視角的指標(biāo)體系模型是如何構(gòu)成的
他自上而下
首先先是這個(gè)事項(xiàng)
他的標(biāo)準(zhǔn)和責(zé)任的要求就是這件事必須要如何
接著是未達(dá)標(biāo)
未負(fù)責(zé)的話
它會(huì)造成一個(gè)什么樣的影響
這個(gè)影響有時(shí)候我們可以通過實(shí)驗(yàn)去獲得
但是更多的時(shí)候
其實(shí)我們是通過經(jīng)驗(yàn)教訓(xùn)獲得的
最后就是測量是否達(dá)標(biāo)
是否負(fù)責(zé)
所用到的這樣的一個(gè)測量指標(biāo)
這個(gè)模型它的關(guān)鍵和前面的整個(gè)實(shí)施的方法是
去我們的實(shí)施的方法是要建立一個(gè)循環(huán)
而這個(gè)這個(gè)模型的關(guān)鍵是在于
找出測量指標(biāo)的基準(zhǔn)值與影響
之間的一個(gè)平衡點(diǎn)
那我舉兩個(gè)例子
比如說我們的數(shù)據(jù)傳輸電路
數(shù)據(jù)傳輸鏈路我們會(huì)發(fā)生丟失嗎
那數(shù)據(jù)傳輸鏈路的一個(gè)丟失率和數(shù)據(jù)丟失后
對業(yè)務(wù)的影響之間是需要去找到一個(gè)平衡點(diǎn)的
如果丟失率的要求太低了
那我們丟太多數(shù)據(jù)
對業(yè)務(wù)的影響是不可接受
但如果說丟失率的要求太高了
對于傳輸鏈路的成本也是不可接受的
所以那我們找出最終的一個(gè)平衡點(diǎn)
是到底是百分之多少
這樣的一個(gè)丟失率是我們的一個(gè)平衡點(diǎn)
那么這個(gè)百分之?dāng)?shù)據(jù)傳輸丟失率的這個(gè)定義
就成為了我們質(zhì)量保障標(biāo)準(zhǔn)體系中的一個(gè)指標(biāo)
又比如說根據(jù)我們現(xiàn)在個(gè)人信息保護(hù)法的規(guī)定
14歲以下青少年的個(gè)人數(shù)據(jù)屬于敏感信息
那么青少年個(gè)人數(shù)據(jù)的使用次數(shù)就必須等于零
只有使用次數(shù)等于零
這個(gè)值才是在這個(gè)要求下的唯一的一個(gè)平衡點(diǎn)
于是呢青少年個(gè)人數(shù)據(jù)使用次數(shù)等于零
就成為了數(shù)據(jù)安全標(biāo)準(zhǔn)體系中的一個(gè)指標(biāo)
以上舉了兩個(gè)例子來簡單了解一下