同創(chuàng)永益鄭陽|與數(shù)智化共舞·業(yè)務(wù)穩(wěn)定性保障新動力
2023年8月2日,由北大創(chuàng)新評論主辦的2023 Inno China中國產(chǎn)業(yè)創(chuàng)新大會-保險產(chǎn)業(yè)創(chuàng)新論壇在京舉辦。本次論壇由同創(chuàng)永益、青牛軟件、DaoCloud道客聯(lián)合主辦,INNO創(chuàng)新家、產(chǎn)業(yè)集群發(fā)展提供戰(zhàn)略支持,未名數(shù)創(chuàng)承辦,邀請到了學(xué)術(shù)專家、行業(yè)專家同臺對話,探討保險行業(yè)前沿技術(shù)發(fā)展,研判數(shù)字韌性助推保險業(yè)高質(zhì)量發(fā)展,為保險業(yè)專業(yè)人士、學(xué)者及科技專家搭建一個開放交流的平臺。
會上,中國信通院云大所系統(tǒng)穩(wěn)定性專家、同創(chuàng)永益CTO鄭陽發(fā)表《與數(shù)智化共舞:業(yè)務(wù)穩(wěn)定性保障新動力》主題演講。分析了數(shù)智化時代,行業(yè)的發(fā)展趨勢,以及企業(yè)數(shù)字化轉(zhuǎn)型面臨的痛點與挑戰(zhàn),并分享了同創(chuàng)永益在業(yè)務(wù)穩(wěn)定性方向的探索與實踐。

以下為演講摘錄:
因為疫情的關(guān)系,帶來了保險行業(yè)的業(yè)務(wù)全面線上化,加速了保險行業(yè)的數(shù)字化轉(zhuǎn)型,在數(shù)字化轉(zhuǎn)型過程中,新架構(gòu)的革新、新技術(shù)的應(yīng)用、新理念的升級,解決了很多問題。但硬幣的背面是,新技術(shù)架構(gòu)帶來了很多不可避免的風(fēng)險。另一方面,信息技術(shù)國產(chǎn)化在保障國家安全層面是一個重要的趨勢,但同時我們也應(yīng)該認(rèn)識到,用相對比較新的產(chǎn)品替代成熟的產(chǎn)品,使信息系統(tǒng)在穩(wěn)定性方面,尤其是在后續(xù)服務(wù)保障方面存在一定的風(fēng)險隱患。最重要的是,在金融行業(yè),每年監(jiān)管機構(gòu)都在不斷出臺新的政策,為系統(tǒng)穩(wěn)定性提出更高的要求。數(shù)字化轉(zhuǎn)型、架構(gòu)升級、國產(chǎn)化替代,以及監(jiān)管對于穩(wěn)定性的紅線要求,給金融企業(yè)IT人員帶來了不小的壓力與危機。

同創(chuàng)永益的技術(shù)世界觀基于兩個基本原理:一是小概率事件必然發(fā)生;二是海因法則,一個嚴(yán)重的生產(chǎn)事故的背后必然是有29個輕型事故、300個先兆以及它背后的1000個隱患。已經(jīng)發(fā)生的生產(chǎn)事件只是冰山一角,回顧一下近兩年發(fā)生的重大生產(chǎn)事故可以發(fā)現(xiàn),海面之上暴露出來的風(fēng)險事件不斷增多,這個冰山不斷往上浮,浮得越來越快,在日益復(fù)雜的業(yè)務(wù)環(huán)境下,穩(wěn)定性持續(xù)劣化,就是因為前面幾個驅(qū)動因素疊加的結(jié)果造成的。

保險行業(yè)在系統(tǒng)穩(wěn)定性方面有哪些挑戰(zhàn)?我們認(rèn)為現(xiàn)階段有三個矛盾點。第一是監(jiān)管持續(xù)提高的業(yè)務(wù)穩(wěn)定性要求,跟我們在經(jīng)濟下行周期內(nèi)的IT投入不足之間的矛盾。第二是線上化業(yè)務(wù)快速增長,穩(wěn)敏雙態(tài)共存和敏態(tài)業(yè)務(wù)的數(shù)字韌性覆蓋力度不足的矛盾。第三是數(shù)字化轉(zhuǎn)型深入與新技術(shù)人才需較長學(xué)習(xí)周期的矛盾。

如何解決這些問題呢?同創(chuàng)永益給出三個對應(yīng)的解決方案。新技術(shù):引入新的系統(tǒng)穩(wěn)定性保障技術(shù),彌補現(xiàn)有敏態(tài)業(yè)務(wù)上技術(shù)手段的不足;新體系:建立新的體系,單一的工具建設(shè)會引起新的混亂,需要完整的體系;新模式:通過更好的模式去解決企業(yè)一次性投入比較大的問題。
一、新技術(shù)
先講一下整個業(yè)務(wù)穩(wěn)定性技術(shù)的一個沿革。2010年之前是大集中時代,那個時候主要是以IOE為代表,集中的數(shù)據(jù)存儲、集中的算力、集中的應(yīng)用架構(gòu),都是集中化的。在這個集中化的架構(gòu)之下,穩(wěn)態(tài)業(yè)務(wù)變更非常少。有統(tǒng)計數(shù)據(jù)顯示,生產(chǎn)事故80%都是源于生產(chǎn)變更造成的,變更少、架構(gòu)相對簡單,自然它的穩(wěn)定性就高。那個時代主要是關(guān)注數(shù)據(jù)的備份,先把數(shù)據(jù)存下來,只要數(shù)據(jù)是安全的,這個業(yè)務(wù)就是安全的。

后來備份手段就從單純的數(shù)據(jù)級災(zāi)備發(fā)展到了應(yīng)用級災(zāi)備,但不管是應(yīng)用級災(zāi)備還是數(shù)據(jù)級災(zāi)備,都旨在事件發(fā)生后降低影響。
隨著互聯(lián)網(wǎng)興起,進入到線上化時代。線上化時代有什么特點?那就是敏態(tài)。由穩(wěn)態(tài)轉(zhuǎn)到敏態(tài),發(fā)布周期比較短,業(yè)務(wù)不斷在上線。計算機里面有幾個矛盾,比如說時間和空間的矛盾,拿空間去換時間叫緩存,拿時間去換空間叫壓縮;還有數(shù)據(jù)庫里面CAP的矛盾,CAP這三者不能同時滿足,最多只能滿足兩個,這些都是矛盾。效率和穩(wěn)定性其實也是一個矛盾體。敏態(tài)就是通過快速發(fā)布去提高效率,但是犧牲了一部分穩(wěn)定性。它其實是把穩(wěn)定性放在上線之后的運維階段,這就叫風(fēng)險后置?;ヂ?lián)網(wǎng)時代就是把風(fēng)險后置之后,需要有應(yīng)對的措施。
2013年,谷歌提出了SRE概念,2016年正式發(fā)布,它解決的是風(fēng)險后置之后怎么讓風(fēng)險左移。左移是指提前預(yù)知風(fēng)險或者是讓風(fēng)險不發(fā)生,它的重點是降發(fā)生,原來的業(yè)務(wù)連續(xù)性和業(yè)務(wù)穩(wěn)定性只關(guān)注降影響,互聯(lián)網(wǎng)時代不只是降影響,同時要考慮如何避免風(fēng)險發(fā)生。
在降發(fā)生的手段中,SRE里面明確提出的第一個技術(shù)就是混沌工程?;煦绻こ淌峭ㄟ^風(fēng)險發(fā)生之前提前注入故障去探索系統(tǒng)的薄弱性,從而讓系統(tǒng)具有對風(fēng)險事件免疫的能力。第二是觀測性,就是監(jiān)控白盒化,原來監(jiān)控是黑盒,所有指標(biāo)都在黑盒子里面,現(xiàn)在這些指標(biāo)公開化、白盒化,分布式系統(tǒng)全鏈路的拓撲情況一目了然,這個是可觀測性。第三是容量管理,進入互聯(lián)網(wǎng)管理后,大家開始做分布式化,包括微服務(wù)、SOA等都屬于分布式化的一種。在分布式化里,最常見的問題是性能瓶頸,當(dāng)服務(wù)鏈條拉長以后任何節(jié)點出現(xiàn)問題都導(dǎo)致整個服務(wù)鏈條雪崩,很容易形成性能瓶頸,這就要求對容量進行管理。
在降影響的手段中新增了應(yīng)急管理,災(zāi)備主備切換應(yīng)用于低頻事件,它是在數(shù)據(jù)中心故障不能自愈或者是沒有辦法修復(fù)的時候才會進行切換。因為災(zāi)備切換的成本相對比較高,所以就應(yīng)該更關(guān)注怎么在本地自愈和本地修復(fù)。而應(yīng)急管理,對本地數(shù)據(jù)中心修復(fù)的全過程進行了管理,包括事件的響應(yīng)、應(yīng)急會商、應(yīng)急決策、應(yīng)急自動處置以及復(fù)盤等,這些在應(yīng)急管理中都做出了詳細的設(shè)計。
2022年,中國信通院發(fā)布了《分布式系統(tǒng)穩(wěn)定性建設(shè)指南》。中國的情況與國外不同:在國外,敏態(tài)比較徹底;在國內(nèi),穩(wěn)敏雙態(tài)還要長期并存一段時間。因為國內(nèi)存量的穩(wěn)定系統(tǒng)實在太多了,而且金融行業(yè)不可能快速轉(zhuǎn)到敏態(tài)業(yè)務(wù)。所以中國信通院在SRE基礎(chǔ)上又進行擴展:在降發(fā)生手段里面加了全鏈路壓測,對全鏈路的性能進行一個壓測和管理;在降影響這一部分加了云原生災(zāi)備,因為云原生的技術(shù)跟傳統(tǒng)的虛擬化技術(shù)還是有很大的不同的。
今年,Gartner發(fā)布了全球十大科技趨勢,這里面新提出了一個概念——數(shù)字免疫系統(tǒng),在之前的穩(wěn)定性保障手段基礎(chǔ)上又增加了人工智能方案。例如在降發(fā)生的手段中新增了人工智能增強測試,在降影響手段里面增加了自動修復(fù),利用人工智能技術(shù)進行自動化修復(fù),也可以結(jié)合我們現(xiàn)在比較火熱的GPT的技術(shù)?,F(xiàn)在已經(jīng)有這種專注于解決某一個細分場景的自動修復(fù)的小模型。
有了這些技術(shù),我們需要把它們串起來形成一個體系,才能幫助我們在敏態(tài)業(yè)務(wù)的環(huán)境中做系統(tǒng)穩(wěn)定性的布點。
二、新體系
同創(chuàng)永益將系統(tǒng)穩(wěn)定性體系分為“事前”、“事中”、“事后”三部分,“事前”、“事后”是平時,“事中”是戰(zhàn)時。

事前,第一要做故障預(yù)防和故障發(fā)現(xiàn),把企業(yè)的科技戰(zhàn)略落實到風(fēng)險預(yù)案,風(fēng)險預(yù)案最后會衍生成應(yīng)急預(yù)案和災(zāi)備預(yù)案,有了預(yù)案照著預(yù)案做就可以了。這個預(yù)案是正確還是不正確,需要做演練去驗證,演練就是通過故障來進行演練,真要模擬出這個故障之后才能知道運維人員多久能把這個風(fēng)險和事件識別出來了,多久能把這個事件修復(fù),業(yè)務(wù)需要多久才能恢復(fù)等等,這些數(shù)據(jù)是需要的,然后在平時進行演練和掌握。第二是建立災(zāi)備的手段,例如數(shù)據(jù)級的備份,業(yè)務(wù)級、應(yīng)用級的備份以及基于應(yīng)用為單位的云原生化的備份手段,另外是傳統(tǒng)的監(jiān)控告警,以及可觀測性等能力也是需要建設(shè)的。
事中,以應(yīng)急管理為軸,從事件的定級開始,到事件的會商、決策,怎么給決策者提供必要的支撐,讓決策者能夠快速準(zhǔn)確決策。最后到事件的自動化處置,配合自動化運維的手段進行本地處置,如果本地不能處置的用容災(zāi)切換的方式把主中心的業(yè)務(wù)自動化切換到災(zāi)備中心進行業(yè)務(wù)恢復(fù)。
事后,主要是做的是根因分析。根因分析有一個誤區(qū),大家都希望在事中進行根因定位,但這是不可能的,事中一般做的是確定范圍之后及時止損。真正的根因分析是在事后進行根因分析,找到真正的補救措施進行架構(gòu)的改進和流程的改進,這是同創(chuàng)永益的業(yè)務(wù)穩(wěn)定性的體系化方案。

這些體系、這些能力需要購買什么樣的產(chǎn)品?怎么去建設(shè)?這是同創(chuàng)永益產(chǎn)品體系的功能邏輯圖。首先,要建設(shè)一個應(yīng)急管理平臺,這個應(yīng)急管理平臺從風(fēng)險預(yù)防開始做應(yīng)急預(yù)案的制定和結(jié)構(gòu)化的管理,之后就在事件發(fā)生時做應(yīng)急響應(yīng)的線上化和輔助決策的智能化。一個事件發(fā)生之后留給你的時間可能只有10分鐘,甚至更苛刻,比如3分鐘我們要求業(yè)務(wù)恢復(fù)。怎么用GPT的方式,用知識圖譜的方式去構(gòu)建出一個決策樹,讓領(lǐng)導(dǎo)能夠合規(guī)合理高效進行決策,這是我們要做的事情。
災(zāi)備管理主要是針對災(zāi)備的全過程,包括災(zāi)備環(huán)境的一致性比對、災(zāi)備環(huán)境的監(jiān)控,這些工作在災(zāi)備切換之前完成,確保切換成功。災(zāi)備能力建設(shè)包含數(shù)據(jù)級的容災(zāi)備份復(fù)制,以及基于云原生的以應(yīng)用為單位的備份復(fù)制,包括應(yīng)用自身、應(yīng)用的配置,以及應(yīng)用所依賴的鏡像打包進行備份復(fù)制。從監(jiān)控的角度來看,包括通用監(jiān)控,以及對于一些設(shè)備,例如存儲設(shè)備或網(wǎng)絡(luò)設(shè)備的監(jiān)控產(chǎn)品。
這些工具平臺如果單獨去建設(shè),周期都是比較長的,而且容易形成一種單點的煙囪式的建設(shè)格局,最后發(fā)現(xiàn)實際的效果不好,用不起來。同創(chuàng)永益的優(yōu)勢是,所有與業(yè)務(wù)穩(wěn)定性相關(guān)的分析平臺都是自研的,而且邏輯自洽、功能打通、數(shù)據(jù)共享。我們給客戶呈現(xiàn)的是一個完整的體系化的解決方案。
三、新模式
在新模式這部分,我們把整套的體系化的產(chǎn)品工具平臺進行了SaaS化,提供一站式標(biāo)準(zhǔn)化云容災(zāi)訂閱服務(wù),以上這些能力和產(chǎn)品,都已經(jīng)上云。通過標(biāo)準(zhǔn)化的服務(wù)、標(biāo)準(zhǔn)化的產(chǎn)品可以降低同創(chuàng)永益的自身的邊際成本,我們愿意把降低的這一部分邊際成本變成客戶的收益,讓客戶總投資金額減少。同時在商務(wù)模式上,SaaS化產(chǎn)品都是訂閱模式,也不需要客戶一次性進行投入,可以做按年、按需訂閱,這是我們同創(chuàng)永益在模式上的一個創(chuàng)新。

除了經(jīng)濟效益以外,這種創(chuàng)新給客戶帶來哪些好處?第一是時效性,我們的產(chǎn)品已經(jīng)做得足夠標(biāo)準(zhǔn)化了,而且這些產(chǎn)品已經(jīng)服務(wù)很多超大型客戶,可以做到開箱即用,免去客戶自建數(shù)據(jù)中心采購硬件部署等的周期和時間。第二是服務(wù)性,自建數(shù)據(jù)中心需要投入大量人員去做硬件和軟件的維護,這一部分服務(wù)也省了。第三是擴展性,同創(chuàng)永益的產(chǎn)品是不斷迭代升級的,我們不斷在云上擴展我們的功能,也會同步給客戶使用。最后是合規(guī)性,我們的合作伙伴都是金融行業(yè)內(nèi)的行業(yè)云,幫助客戶建立災(zāi)備系統(tǒng),滿足監(jiān)管合規(guī)要求。
同創(chuàng)永益簡介
北京同創(chuàng)永益科技發(fā)展有限公司成立于2009年,是國家級高新技術(shù)企業(yè)、國家級專精特新“小巨人”企業(yè)、信創(chuàng)工委會技術(shù)活動單位、中國信通院混沌工程實驗室副理事長單位。公司深耕企業(yè)級數(shù)字韌性服務(wù),業(yè)務(wù)覆蓋災(zāi)難恢復(fù)、業(yè)務(wù)連續(xù)性、IT應(yīng)急管理、容量管理、混沌工程等產(chǎn)品和解決方案,擁有自主知識產(chǎn)權(quán)和全棧服務(wù)能力,致力于幫助客戶建設(shè)數(shù)字化系統(tǒng)的全領(lǐng)域韌性體系。