數(shù)據(jù)治理案例 | 某大型集成電路企業(yè)數(shù)據(jù)質(zhì)量管理實(shí)踐
項目背景
某大型集成電路企業(yè)是一家集芯片設(shè)計、工藝研發(fā)、晶圓生產(chǎn)與測試、銷售服務(wù)于一體的半導(dǎo)體存儲器企業(yè),為全球提供先進(jìn)的存儲產(chǎn)品和解決方案,廣泛應(yīng)用于移動通信、計算機(jī)、數(shù)據(jù)中心和消費(fèi)電子領(lǐng)域。該企業(yè)在數(shù)據(jù)管理系統(tǒng)和研制管理體系的控制下,設(shè)計、工藝、制造、試驗(yàn)、售后服務(wù)等環(huán)節(jié)都產(chǎn)生了大量的數(shù)據(jù)。在管理信息化、工程信息化的建設(shè)過程中,為減少信息孤島,數(shù)據(jù)集成與共享不可逾越,不同系統(tǒng)間的數(shù)據(jù)正確性、一致性變得尤為重要。
當(dāng)前該企業(yè)數(shù)據(jù)資源涉及7000-8000張數(shù)據(jù)庫表,存儲于不同的關(guān)系型數(shù)據(jù)庫以及分布式數(shù)據(jù)庫中,每天的增量數(shù)據(jù)在1-2T左右,在ETL過程中需要對數(shù)據(jù)的及時性、完整性和一致性進(jìn)行校驗(yàn)。同時需要對互相有關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)進(jìn)行業(yè)務(wù)規(guī)則校驗(yàn),各式各樣復(fù)雜的業(yè)務(wù)規(guī)則邏輯需要依靠業(yè)務(wù)骨干的工作積累和經(jīng)驗(yàn)反復(fù)推敲才能落地,單靠技術(shù)部門的投入難以達(dá)到最好的效果。綜上,該企業(yè)需要一款獨(dú)立于業(yè)務(wù)系統(tǒng)之外的數(shù)據(jù)質(zhì)量管理平臺,一方面滿足技術(shù)部門長效的數(shù)據(jù)質(zhì)量管控,另一方面能夠形成業(yè)務(wù)精英為主、技術(shù)精英為輔的業(yè)務(wù)數(shù)據(jù)梳理體系。
痛點(diǎn)難點(diǎn)
該集成電路企業(yè)在發(fā)展過程中積累了大量的項目、客戶、設(shè)備、產(chǎn)品等數(shù)據(jù),隨著數(shù)據(jù)共享以及決策的需求,以及數(shù)據(jù)使用范圍的擴(kuò)大,在使用過程中發(fā)現(xiàn)了大量數(shù)據(jù)問題,歸納如下:
1、需支持多樣化的數(shù)據(jù)來源
當(dāng)前業(yè)務(wù)數(shù)據(jù)存儲在不同類型的數(shù)據(jù)庫中,包含Oracle/Mysql/SQLServer/Postgresql/Hive/HDFS/Hbase/Kudu/Vertica等,所選平臺需要具備多種數(shù)據(jù)源的接入機(jī)制,并能夠基于后續(xù)的業(yè)務(wù)發(fā)展,適用更多的數(shù)據(jù)來源。
2、需支持繁簡不一的規(guī)則配置
在數(shù)據(jù)質(zhì)量管控過程中,需要進(jìn)行各種各樣的質(zhì)檢規(guī)則配置,簡單的如空值校驗(yàn)、字段類型校驗(yàn)、值域校驗(yàn)、及時性校驗(yàn)等,復(fù)雜涉及多表關(guān)聯(lián)的邏輯公式校驗(yàn)、完整性校驗(yàn)、一致性校驗(yàn)等,所選平臺需要支持多種規(guī)則的校驗(yàn)設(shè)置,同時還要便于技術(shù)能力較弱的業(yè)務(wù)精英進(jìn)行操作。
3、需支持海量數(shù)據(jù)的處理應(yīng)對
面對海量數(shù)據(jù)的質(zhì)檢,不僅是數(shù)據(jù)量大,同時還面臨多個質(zhì)檢工作的并發(fā)。一方面需要在規(guī)定時間內(nèi)完成所有檢驗(yàn),另一方面給還需要及時將結(jié)果反饋給數(shù)據(jù)管理者。所選平臺需要具備大數(shù)據(jù)量的處理能力、支持多個質(zhì)檢進(jìn)程并發(fā),同時還要考慮后續(xù)數(shù)據(jù)量越來越大,接入的數(shù)據(jù)源越來越多的發(fā)展趨勢,能夠支持集群中節(jié)點(diǎn)的靈活擴(kuò)展,滿足長期的數(shù)據(jù)質(zhì)檢需要。
看似表面的數(shù)據(jù)問題其實(shí)會對業(yè)務(wù)帶來嚴(yán)重的影響,數(shù)據(jù)不真實(shí)、不準(zhǔn)確、不共享,增加企業(yè)經(jīng)營風(fēng)險、管理難度和復(fù)雜度,跨組織信息共享程度低、資源難于整合。如何更好地管理和控制數(shù)據(jù),做好數(shù)據(jù)質(zhì)量平臺建設(shè),成為企業(yè)迫在眉睫的任務(wù)。
建設(shè)內(nèi)容
本項目的建設(shè)內(nèi)容就是從數(shù)據(jù)接入、轉(zhuǎn)換、應(yīng)用各個階段加強(qiáng)數(shù)據(jù)質(zhì)量的管控,為集團(tuán)數(shù)倉、數(shù)據(jù)分析、數(shù)據(jù)挖掘應(yīng)用提供標(biāo)準(zhǔn)、可靠的基礎(chǔ)數(shù)據(jù)支撐。
該企業(yè)利用億信華辰睿治數(shù)據(jù)治理軟件搭建數(shù)據(jù)質(zhì)量管理平臺,主要用于解決業(yè)務(wù)系統(tǒng)運(yùn)行、數(shù)據(jù)倉庫建設(shè)及數(shù)據(jù)治理過程中的數(shù)據(jù)質(zhì)量問題。它以標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量規(guī)范為基礎(chǔ),運(yùn)用數(shù)據(jù)挖掘、數(shù)據(jù)分析、工作流、評分卡、可視化等技術(shù)幫助組織建立數(shù)據(jù)質(zhì)量管理體系,提升數(shù)據(jù)的完整性、規(guī)范性、及時性、一致性、邏輯性,降低數(shù)據(jù)管理成本,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。系統(tǒng)主要功能包括質(zhì)量檢查規(guī)則管理、績效管理、工作流管理、質(zhì)量分析報表查詢、質(zhì)量報告等。

1、單點(diǎn)登錄
為滿足公司內(nèi)部的通過統(tǒng)一身份認(rèn)證平臺進(jìn)行數(shù)據(jù)質(zhì)量平臺的登錄,實(shí)現(xiàn)了與認(rèn)證平臺的單點(diǎn)登錄集成。
2、質(zhì)量問題實(shí)現(xiàn)短信預(yù)警
數(shù)據(jù)質(zhì)量平臺支持按照配置的質(zhì)檢方案自動的執(zhí)行質(zhì)檢,質(zhì)檢結(jié)果會自動的通過郵件或者短信發(fā)送到相關(guān)責(zé)任人,提醒技術(shù)人員及時的處理質(zhì)量問題。
3、支持多種大數(shù)據(jù)平臺
數(shù)據(jù)源的質(zhì)檢平臺除了支持常見的關(guān)系型數(shù)據(jù)庫數(shù)據(jù)進(jìn)行質(zhì)檢外,還支持Hive/HDFS/Hbase/Kudu/Vertica等多種大數(shù)據(jù)庫的數(shù)據(jù)源接入,能夠滿足公司后續(xù)的業(yè)務(wù)發(fā)展,適用豐富的數(shù)據(jù)類型。
項目價值
該企業(yè)數(shù)據(jù)質(zhì)量管理平臺的建設(shè),滿足了公司數(shù)據(jù)質(zhì)量管控的需求,實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量檢查的自動執(zhí)行和問題數(shù)據(jù)短信預(yù)警,大大地提升了業(yè)務(wù)數(shù)據(jù)的質(zhì)量,為公司數(shù)倉、數(shù)據(jù)分析、數(shù)據(jù)挖掘應(yīng)用提供標(biāo)準(zhǔn)、可靠的基礎(chǔ)數(shù)據(jù)支撐。客戶對于項目整體建設(shè)成果非常滿意,通過產(chǎn)品的應(yīng)用,使各業(yè)務(wù)條線的數(shù)據(jù)質(zhì)量問題得到有效管控,簡化技術(shù)人員的數(shù)據(jù)質(zhì)量問題核查的工作難度,同時極大地提升了客戶的工作效率。
1)數(shù)據(jù)質(zhì)量管理平臺提供了可視化的頁面就能完成數(shù)據(jù)質(zhì)量檢查工作,大大降低了數(shù)據(jù)質(zhì)檢的技術(shù)門檻,不僅僅只靠公司數(shù)據(jù)部門的技術(shù)人員來提升數(shù)據(jù)質(zhì)量,現(xiàn)在也將業(yè)務(wù)部門的人員也參與到數(shù)據(jù)質(zhì)量提升工作中,形成業(yè)務(wù)精英為主、技術(shù)精英為輔的業(yè)務(wù)數(shù)據(jù)梳理體系。
2)數(shù)據(jù)質(zhì)量的質(zhì)檢結(jié)果實(shí)現(xiàn)了短信自動預(yù)警,提醒技術(shù)人員及時處理質(zhì)量問題,提升了技術(shù)部門的數(shù)據(jù)質(zhì)量問題管理效率。
3)隨著公司業(yè)務(wù)數(shù)據(jù)不斷增大,大數(shù)據(jù)平臺的應(yīng)用不斷深入,數(shù)據(jù)質(zhì)量平臺支持多種基于Hadoop的數(shù)據(jù)源的接入進(jìn)行質(zhì)檢,為公司業(yè)務(wù)的發(fā)展和質(zhì)量管理奠定了基礎(chǔ)。