蘇光牛:堅持產(chǎn)品能力的升級,做金融數(shù)字化的堅實數(shù)據(jù)底座
6月7日,華為全球智慧金融峰會2023在上海順利舉行,華為云數(shù)據(jù)庫服務(wù)產(chǎn)品部總經(jīng)理蘇光牛帶來了《華為云分布式數(shù)據(jù)庫GaussDB,做金融數(shù)字化的堅實數(shù)據(jù)底座》的主題分享,為大家介紹了華為云GaussDB的商業(yè)進(jìn)展和技術(shù)創(chuàng)新能力。
以下是演講實錄:
尊敬的各位領(lǐng)導(dǎo)、各位來賓,大家下午好!非常感謝大家蒞臨本次峰會,今天,我主要給大家分享下GaussDB的商業(yè)進(jìn)展以及產(chǎn)品能力升級方面的最新情況。
1.華為云GaussDB正在從金融覆蓋到更多行業(yè)
從2019年開始,我們在華為內(nèi)部通過持續(xù)的錘煉,推出了融合多項技術(shù)的自主創(chuàng)新的GaussDB的數(shù)據(jù)庫,而且陸續(xù)完成了華為公司內(nèi)部核心系統(tǒng)的替代,這里面包括三個方面。
第一個是我們在終端云上實現(xiàn)了6個PB數(shù)據(jù)的全面替代和上線,分布式節(jié)點有6千個節(jié)點的規(guī)模,資源利用率提升了30%。
第二個是在ERP的替換中,我們替換了600多套的業(yè)務(wù)庫,經(jīng)歷了十倍流量的突發(fā)流量考驗,業(yè)務(wù)效率得到了10倍的提升,實現(xiàn)了零故障、零時延和零調(diào)賬挑戰(zhàn)。這里簡單給大家普及一下,華為公司的訂單系統(tǒng)的特點,每到一個月的月末,每到一個季度的結(jié)束以及每年結(jié)束的時候,它的流量是平時流量5-10倍。所以華為公司在ERP上線的時候,我們是經(jīng)歷了20倍流量的測試和壓測才能上線。
第三個就是我們的運營商設(shè)備,累計發(fā)貨也有30多萬套。
從我們的收入結(jié)構(gòu)也可以發(fā)現(xiàn),GaussDB從最初的金融行業(yè)已經(jīng)覆蓋到更多的關(guān)基行業(yè),非金融的占比提升了一倍,越來越多的客戶選擇GaussDB作為其數(shù)字化轉(zhuǎn)型的伙伴。
2.在豐富的實踐場景中打磨成熟
我們知道,數(shù)據(jù)庫是一個全場景的軟件,所以場景實際上是數(shù)據(jù)庫的磨刀石。下面,我將進(jìn)一步解讀剛才講的這幾個業(yè)務(wù)和后面要講的金融業(yè)務(wù)對數(shù)據(jù)庫的磨煉是極其重要的。
華為的MetaERP系統(tǒng),是一個典型的重度的使用Oracle傳統(tǒng)商業(yè)數(shù)據(jù)庫的場景,也是制造業(yè)里面非常典型的一個應(yīng)用的代表是傳統(tǒng)制造類企業(yè)數(shù)字化轉(zhuǎn)型的一個典型代表,在華為公司,ERP是我們的生產(chǎn)系統(tǒng),它支撐了華為每年數(shù)千億訂單,170多個國家的訂單發(fā)貨。大家都知道,ERP是企業(yè)經(jīng)營最核心的系統(tǒng),從華為自身業(yè)務(wù)連續(xù)性的視角看,華為的ERP替換,相當(dāng)于長征途中的強(qiáng)渡大渡河。作為全球數(shù)據(jù)庫應(yīng)用場景最復(fù)雜的ERP系統(tǒng)之一,華為的MetaERP面臨幾個挑戰(zhàn):的第一個挑戰(zhàn)就是有近7億行的SQL腳本需要改造,;第二個挑戰(zhàn)我剛也提到了,是業(yè)務(wù)高峰期業(yè)務(wù)流量可能達(dá)到5-10倍面臨5到10倍的流量洪峰,在實際上線前,我們做了20倍流量的壓測,;第三個就是大表的改造,有最大160億行大表的遷移,這對任何一個數(shù)據(jù)庫來說都不是一個簡單的任務(wù)超過100億行的表就有十幾個,這些大表的遷移都非常具有挑戰(zhàn)性。那如何解決呢?
第一個,對于OracleSQL腳本的替換,我們的UGO工具實現(xiàn)了近100%的自動化結(jié)構(gòu)遷移。今天,我們?nèi)ヌ鎿Q數(shù)據(jù)庫,如果還投入幾十個人去改造一個應(yīng)用實現(xiàn)替換的話,是不可以維系的。第二個,就是數(shù)據(jù)遷移,我們是在35個小時內(nèi),實現(xiàn)了3200億行數(shù)據(jù)的遷移。也就是說,今天大家已經(jīng)不用擔(dān)心數(shù)據(jù)遷移的一致性和完備性問題了。
另外,我們通過智能代價估計、高效索引并發(fā)控制等算法順利的地通過了業(yè)務(wù)歷史最大峰值20倍流量的壓測。
這里也給大家講一個小故事,在ERP切換成功后,華為成都的一個操作人員,第一次運行資產(chǎn)核算任務(wù),只用了3分鐘。但是之前這個操作人員的歷史經(jīng)驗都需要2個多小時。所以他認(rèn)為這次可能是運行失敗了,按照操作的規(guī)范立即預(yù)警。經(jīng)過實際確認(rèn),結(jié)果是準(zhǔn)確的,是一個“美麗的誤會”。
GaussDB通過UGO完成了100%的結(jié)構(gòu)遷移,用35小時就完成了高度關(guān)聯(lián)的3200億行數(shù)據(jù)的搬遷驗證,利用周末時間搬遷,完全沒有影響企業(yè)的正常運轉(zhuǎn);同時通過并行驗證將生產(chǎn)環(huán)境業(yè)務(wù)流量實時導(dǎo)入新系統(tǒng),用真實場景驗證,做到了上線后“零缺陷”;又通過智能代價估計等技術(shù)順利通過了業(yè)務(wù)歷史最大峰值20倍流量壓測。在MetaERP系統(tǒng)切換后,華為成都操作人員第一次運行資產(chǎn)核算任務(wù),只用了3分鐘就完成華為37W資產(chǎn)核算,這在之前要2.5小時,大大超出了預(yù)期,操作人員以為任務(wù)運行失敗便立刻預(yù)警,實際結(jié)果運算準(zhǔn)確,最終證實是一場“美麗的誤會”。
而華為終端云服務(wù),這個代表著新興的一類生于云、長于云的云原生企業(yè)的典型應(yīng)用,它的主要挑戰(zhàn)是什么呢?首先是成本問題,如何提升資源利用率,特別是在海量的數(shù)據(jù)和分布式的情況下,大量的部署節(jié)點帶來的成本問題以及傳統(tǒng)的機(jī)房轉(zhuǎn)換到云上的成本挑戰(zhàn);其次是海量業(yè)務(wù)帶來的大量的分布式的訴求,需要有非常強(qiáng)的擴(kuò)展性,和彈性伸縮能力;其次是海量互聯(lián)網(wǎng)業(yè)務(wù)帶來的大規(guī)模集群訴求,最后是數(shù)據(jù)模型的多樣化,因為其中既有關(guān)系型數(shù)據(jù),也有非關(guān)系型數(shù)據(jù)。
GaussDB原生的分布式架構(gòu),使負(fù)載更加均衡,已經(jīng)上線的最大單集群節(jié)點數(shù)超過了200個,并且支持多種生態(tài),實現(xiàn)了資源利用率和運營效率的大幅度提升。
還有就是對數(shù)據(jù)庫要求最高的金融核心系統(tǒng),幾乎所有的金融CIO或CTO都知道去O遷移并不好去做,都希望在自主創(chuàng)新的同時完成應(yīng)用和架構(gòu)的創(chuàng)新。但金融行業(yè)大量的應(yīng)用都重度依賴原來傳統(tǒng)數(shù)據(jù)庫的接口,存在大量的不確定性,客戶都希望有一套可量化的、逐步推進(jìn)執(zhí)行的方案。同時,傳統(tǒng)的主備架構(gòu)也已無法滿足當(dāng)前的可用性要求。
從芯片、服務(wù)器、存儲、網(wǎng)絡(luò)到數(shù)據(jù)庫、操作系統(tǒng),GaussDB是當(dāng)前國內(nèi)唯一能夠做到全棧軟硬協(xié)同、全棧自主創(chuàng)新的國產(chǎn)品牌,還有高度兼容傳統(tǒng)數(shù)據(jù)庫的的語法兼容性,聽過有和一站式的數(shù)據(jù)加應(yīng)用的平滑遷移方案,使得去O遷移變得更簡單。同時而且基于多數(shù)派協(xié)議的原生分布式架構(gòu),更大幅提升了系統(tǒng)的可用性。
3.面向更深入、更廣泛的場景,我們思考如何更好地滿足客戶訴求
隨著GaussDB的成熟,未來GaussDB將向兩個方向發(fā)展。第一是做深做透金融行業(yè),一次性解決金融客戶數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展的雙重訴求,;第二是從金融走向政務(wù)、能源、交通等更多關(guān)鍵信息基礎(chǔ)設(shè)施行業(yè),這也是我們一個新的使命。
在做深做透金融上,我們發(fā)現(xiàn)客戶以前只關(guān)注接口的適配性,現(xiàn)在開始逐步重視替換后應(yīng)用的可用性、穩(wěn)定性。大家都知道,主機(jī)的可靠性大部分來自硬件,而沒有了這種專用硬件的加持,如何通過軟硬件協(xié)同保障大機(jī)整體可用性指標(biāo)就非常重要了。金融核心業(yè)務(wù)不同于互聯(lián)網(wǎng)追求性能峰值的極限,更需要的是一個確定的不抖動的性能,讓每一筆交易的時延都可控。最后,在客戶從幾個應(yīng)用替換到幾百個應(yīng)用替換的落地過程中,如何把遷移做成可量化的實施過程,是擺在每個金融CIO眼前最大的挑戰(zhàn)。
近些年,關(guān)基行業(yè)的數(shù)據(jù)規(guī)模也越來越大,由于科技力量薄弱,技術(shù)人員投入相對較少,就需要數(shù)據(jù)庫簡單易用,最好能直接復(fù)用在金融行業(yè)已經(jīng)實踐成熟的技術(shù)來降低總體擁有成本,實現(xiàn)快速推進(jìn)。
4.GaussDB始終以安全可信、高質(zhì)量為首要目標(biāo)
為了滿足更多場景的客戶訴求,今天我們發(fā)布了新一代的分布式數(shù)據(jù)庫GaussDB,具備五高兩易的全面能力。下來我就其中的一些關(guān)鍵的新能力跟大家做一下解讀和分享。
在講具體的產(chǎn)品能力升級變化之前,我想先給大家分享下GaussDB沒變的東西,那就是我們對安全可信、高質(zhì)量的追求。
從產(chǎn)品定義、代碼實現(xiàn)、開源治理到運營運維等各個環(huán)節(jié),GaussDB基于華為軟件工程全棧可信框架,實現(xiàn)了從結(jié)果可信到過程可信,做到了包括開發(fā)GaussDB軟件的整個工具鏈在內(nèi)的真正的自主創(chuàng)新。
同時,我們構(gòu)建起了一個9層的測試防護(hù)網(wǎng),通過全鏈路的深度交互測試平臺減少低概率、復(fù)雜交互類的問題,當(dāng)前已有20萬測試用例消減了大部分基本問題,今年我們還會繼續(xù)增加到80萬,還構(gòu)建了10多個金融客戶場景化的防護(hù)網(wǎng),消減了金融場景化的問題,實現(xiàn)真正的高質(zhì)量。
5.聚焦客戶業(yè)務(wù)痛點,GaussDB產(chǎn)品關(guān)鍵能力全新升級
在產(chǎn)品能力升級上,我想大家最關(guān)心的還是可用性。我們的GaussDB新版本支持了Paxos一致性協(xié)議,更好地提升了RTO,高負(fù)載業(yè)務(wù)下DN故障倒換可以穩(wěn)定在10秒以內(nèi);去年我們跟工商銀行聯(lián)創(chuàng)推出了國內(nèi)首個雙集群強(qiáng)一致的方案,實現(xiàn)了集群級故障完全隔離RPO=0,雙AZ雙活;今年我們又進(jìn)一步支持了雙集群的邏輯復(fù)制,以及全新的應(yīng)用無損透明切換方案,做到應(yīng)用大版本升級完全不停機(jī),主備倒換應(yīng)用微感知,真正實現(xiàn)大機(jī)業(yè)務(wù)7*24小時不間斷。
在性能上,GaussDB存儲引擎可以實現(xiàn)業(yè)務(wù)長時間頻繁更新下依然保持系統(tǒng)高性能,同時不抖動。這得益于GaussDB和招行的聯(lián)創(chuàng),我們重構(gòu)了底層的整個存儲引擎,采用的是原地更新的模式,它和常見的基于不斷追加的這種引擎最大的區(qū)別是,傳統(tǒng)的模式在底層垃圾的回收和內(nèi)存做數(shù)據(jù)化的時候會有非常大的抖動。經(jīng)過實測,我們在大壓力的情況下,性能的抖動依然可以控制在3%,同時存儲空間的利用率提升了17%。
在智能化上,對DBA來說,最頭疼的就是在系統(tǒng)出現(xiàn)亞健康狀態(tài)的時候,如何能夠快速感知到問題,及時地進(jìn)行識別和分析,方便進(jìn)一步操作。作為國內(nèi)首個AI-Native數(shù)據(jù)庫,GauuassDB提供從應(yīng)用開發(fā)到運維階段全流程的數(shù)據(jù)庫智能化體驗,有全新的SQL Audit工具,在開發(fā)驗證階段就完成SQL自動審核,減少亞健康出現(xiàn)的情況,一旦出現(xiàn)亞健康狀態(tài),GaussDB可以快速感知到問題,識別出實時慢SQL,并進(jìn)一步通過慢SQL的耗時點分析,自動診斷出是否處于被阻塞狀態(tài),以便運維人員進(jìn)行判斷查殺。在一些嚴(yán)重過載的情況下,我們還有過載熔斷能力可以自動kill過載會話,避免因個別慢SQL拖住整個系統(tǒng)。還有DBMind的慢SQL根因分析、索引推薦、異常檢測等多種運維功能也讓DBA更加得心應(yīng)手。
除了上面講的這些硬核技術(shù)外,對于客戶關(guān)注的性價比、平滑遷移,GauuassDB的新版本也做了大量的工作。首先是海量數(shù)據(jù)量帶來的存儲資源的壓力。壓縮是一個辦法,但簡單的高壓縮比并不是我們追求的目標(biāo),我們更關(guān)注的是如何讓業(yè)務(wù)盡量無感地使用壓縮,并且性能不會有大幅降低,最好控制在5%,甚至更低的性能影響,這才是真正有用的壓縮。我們既能夠降低資源的使用,對應(yīng)用的浸侵入性更小。也可以使應(yīng)用的遷入更小。
其次,新版本還將支持內(nèi)核多租戶的能力,幫助用戶可以快速在不同的租戶資源上進(jìn)行遷移,讓應(yīng)用使用更加靈活,資源利用率更高。
最后,GaussDB有一站式的遷移解決方案,讓原本不確定的遷移工作變成一個確定性的事情。第一個就是我們的UGO,可以對現(xiàn)有系統(tǒng)的所有應(yīng)用進(jìn)行掃描和評估,告訴我們哪些能夠兼容,哪些不能兼容,以及如何進(jìn)行改造,現(xiàn)在我們已經(jīng)做到95%的自動化。第二個就是DRS,可以實現(xiàn)在線零中斷遷移,并且通過數(shù)據(jù)比對保證數(shù)據(jù)零丟失。第三個是流量回放,和UGO配合,可以真實地抓取源原數(shù)據(jù)庫上的流量,在新數(shù)據(jù)庫上進(jìn)行回放,避免大家現(xiàn)在普遍遇到的覆蓋不全的問題。我認(rèn)為,只有通過上述工程化可落地的方案,才能真正地實現(xiàn)國產(chǎn)數(shù)據(jù)庫的規(guī)模替換。
數(shù)據(jù)庫的發(fā)展,除了產(chǎn)品的創(chuàng)新,更離不開產(chǎn)學(xué)研用的通力合作。金融客戶是數(shù)據(jù)庫的重要出發(fā)點和落腳點,為GaussDB的發(fā)展起到了關(guān)鍵的作用。我們希望更多的金融客戶能夠開放自己更多的典型業(yè)務(wù)場景,基于分布式架構(gòu),來設(shè)計自己的多地多中心方案,形成最佳實踐,加速推進(jìn)行業(yè)數(shù)字化轉(zhuǎn)型。我的分享就到這里,再次感謝在座的各位,謝謝大家!