實(shí)時(shí)性升至秒級(jí)!飛槳PaddleSpeech賦能金融雙錄業(yè)務(wù)走向智能化
? ? ? ??聽說IT圈十個(gè)人里有九個(gè)是男性開發(fā)者,女生并不多,陳雪兒可以算是這個(gè)群體中獨(dú)特的存在。
? ? ? ?作為杭州諧云科技有限公司(簡(jiǎn)稱諧云)智能邊緣團(tuán)隊(duì)的AI技術(shù)專家,陳雪兒帶領(lǐng)團(tuán)隊(duì)歷經(jīng)一年半研發(fā)的“金融雙錄智能質(zhì)檢系統(tǒng)”,能為銀行降低90%的人力成本,引入邊緣計(jì)算后,將雙錄質(zhì)檢實(shí)時(shí)性從原來的傳統(tǒng)事后質(zhì)檢小時(shí)級(jí)別提高到了秒級(jí),雙錄成功率整體提高了30%。
? ? ? ??剛開始聊到與AI相關(guān)的話題時(shí),陳雪兒顯得有點(diǎn)兒靦腆。她坦言,自己是比較典型的理科生性格,本科學(xué)的是計(jì)算機(jī)相關(guān)專業(yè),研究生考到浙江大學(xué),主攻方向是人工智能。讀研期間,陳雪兒接觸到了浙江大學(xué)SEL實(shí)驗(yàn)室(Soft Engineering Lab,SEL),由此與諧云結(jié)下了不解之緣。
? ? ? ??2011年,浙江大學(xué)SEL實(shí)驗(yàn)室在浙大計(jì)算機(jī)學(xué)院和超大規(guī)模信息實(shí)驗(yàn)室支持下成立,后來實(shí)驗(yàn)室不斷擴(kuò)大,到2016年孵化創(chuàng)立了諧云,目前已經(jīng)發(fā)展到500多人。陳雪兒畢業(yè)后跟隨團(tuán)隊(duì)老師來到了諧云工作,2020年,陳雪兒加入諧云邊緣計(jì)算團(tuán)隊(duì),并成為團(tuán)隊(duì)技術(shù)骨干,她的團(tuán)隊(duì)當(dāng)時(shí)就意識(shí)到邊緣計(jì)算與AI的結(jié)合是未來的趨勢(shì),于是諧云加速布局 “AI+邊緣計(jì)算”領(lǐng)域。

? ? ? ??此時(shí),正值銀行雙錄“強(qiáng)監(jiān)管”需求增加,陳雪兒的團(tuán)隊(duì)開始醞釀開發(fā)金融雙錄質(zhì)檢系統(tǒng)。
傳統(tǒng)金融雙錄質(zhì)檢滯后?
? ? ? ? ?AI破解實(shí)時(shí)性難題研發(fā)的靈感始于對(duì)銀行雙錄場(chǎng)景的理解。很多人去銀行購(gòu)買理財(cái)產(chǎn)品可能經(jīng)歷過這樣的場(chǎng)景:「理財(cái)經(jīng)理告訴你需要進(jìn)行錄音錄像采集,經(jīng)過你的同意后,理財(cái)經(jīng)理會(huì)打開放置在柜臺(tái)上的攝像頭,然后向你確認(rèn)身份信息,提示產(chǎn)品風(fēng)險(xiǎn),還會(huì)給你一些材料閱讀簽字。」
? ? ? ??這一過程涉及到了標(biāo)準(zhǔn)的金融雙錄。所謂“雙錄”是銀行在銷售每筆理財(cái)產(chǎn)品時(shí)使用雙錄電子設(shè)備對(duì)過程進(jìn)行錄音和錄像。采用雙錄初衷是為了規(guī)范銷售話術(shù),確保消費(fèi)者的知情權(quán),避免工作人員違規(guī)操作等潛在風(fēng)險(xiǎn)。自2017年起,銀監(jiān)會(huì)陸續(xù)出臺(tái)了一系列監(jiān)管政策規(guī)范金融產(chǎn)品銷售行為,明確規(guī)定銀行業(yè)金融機(jī)構(gòu)銷售專區(qū)必須實(shí)行雙錄。由此,雙錄成為各大銀行銷售理財(cái)產(chǎn)品的“規(guī)定動(dòng)作”。
? ? ? ??雙錄完成后,通常銀行的做法是派工作人員對(duì)雙錄內(nèi)容進(jìn)行質(zhì)檢,檢查雙錄過程中是否存在違規(guī)操作、是否符合銀監(jiān)會(huì)的要求以及銀行內(nèi)部的操作流程等。
? ? ? ??但這種方式是通過人工抽查做事后質(zhì)檢,存在時(shí)效性滯后、風(fēng)險(xiǎn)覆蓋率低、人力成本高等問題。首先,如果質(zhì)檢發(fā)現(xiàn)雙錄過程存在問題,實(shí)際上很多業(yè)務(wù)已經(jīng)完成了,無法做到實(shí)時(shí)監(jiān)管和介入,往往會(huì)給銀行造成重大損失;其次,龐大的人工質(zhì)檢團(tuán)隊(duì)依然難以對(duì)雙錄過程展開全面質(zhì)檢,包括客戶不在場(chǎng)、人員更換、代客操作和收受回扣等非正常行為。
? ? ? ??據(jù)統(tǒng)計(jì),在傳統(tǒng)雙錄場(chǎng)景中,一筆雙錄業(yè)務(wù)平均大約花費(fèi)1小時(shí)左右,一次性通過率小于50%,這種低通過率大部分源于操作不規(guī)范、話語遺漏等,影響了客戶購(gòu)買理財(cái)產(chǎn)品的業(yè)務(wù)體驗(yàn),從而降低其購(gòu)買意愿。
? ? ? ?近幾年來,銀行因雙錄工作不規(guī)范被罰款的事件屢有發(fā)生,在一定程度上也暴露了傳統(tǒng)雙錄質(zhì)檢系統(tǒng)的弊端。

? ? ? ??不但如此,從銀行自身而言,建設(shè)一套人工雙錄質(zhì)檢系統(tǒng)也是一件耗時(shí)耗力的工程。一方面,人工質(zhì)檢需要銀行持續(xù)投入預(yù)算,每位客戶的錄音錄像都要保存下來,銀行要配備上百人的團(tuán)隊(duì)做質(zhì)檢,而質(zhì)檢不合格的視頻又需要客戶到現(xiàn)場(chǎng)進(jìn)行重錄,鑒于重錄操作難度大,造成客戶購(gòu)買理財(cái)產(chǎn)品的體驗(yàn)感差;另一方面,為了完成雙錄質(zhì)檢,銀行將不同網(wǎng)點(diǎn)對(duì)應(yīng)的不同銷售區(qū)域的數(shù)據(jù)收集上來,匯聚到銀行的數(shù)據(jù)中心,這中間處理非常大的數(shù)據(jù)量,花費(fèi)時(shí)間周期較長(zhǎng)。
? ? ? ??基于對(duì)上述金融雙錄業(yè)務(wù)場(chǎng)景和行業(yè)痛點(diǎn)的深刻洞察,諧云邊緣智能團(tuán)隊(duì)發(fā)現(xiàn),人工質(zhì)檢的滯后性給金融雙錄業(yè)務(wù)造成了巨大的麻煩和漏洞,如果能引入音視頻分析、 AI語音識(shí)別、邊緣計(jì)算等技術(shù),實(shí)現(xiàn)雙錄過程的智能化質(zhì)檢,將對(duì)提升金融雙錄質(zhì)檢的效率,改善客戶購(gòu)買理財(cái)產(chǎn)品的體驗(yàn),降低銀行運(yùn)營(yíng)成本等具有重要意義。
飛槳PaddleSpeech??讓雙錄質(zhì)檢實(shí)時(shí)性升至秒級(jí)?
? ? ? ?諧云邊緣智能團(tuán)隊(duì)自2021年開始從事算法研究,終于歷經(jīng)一年半的時(shí)間,推出完整的雙錄智能質(zhì)檢解決方案。該方案深度融合了百度飛槳的語音模型庫(kù)PaddleSpeech與自研的視頻AI分析算法模型,設(shè)計(jì)出雙錄語音視頻質(zhì)檢方案,可為銀行降低90%的人力成本,使銀行從過去上百人的質(zhì)檢團(tuán)隊(duì)縮減到幾人;同時(shí)引入邊緣計(jì)算,實(shí)現(xiàn)雙錄實(shí)時(shí)質(zhì)檢,相比于傳統(tǒng)的事后質(zhì)檢,實(shí)時(shí)性從原來的小時(shí)級(jí)別提高到了秒級(jí)。
? ? ? ??這樣一來,方案既通過監(jiān)測(cè)音視頻質(zhì)量,對(duì)于錄制過程中出現(xiàn)的如無聲、花屏、黑屏等情況做出及時(shí)提醒,減少了人工雙錄過程中的錄制失敗、操作不規(guī)范等情況,使雙錄成功率整體提高30%,大幅改善了客戶購(gòu)買理財(cái)產(chǎn)品的體驗(yàn);也能將部分稽查質(zhì)檢工作提前到事中,盡早識(shí)別出危險(xiǎn)情況,通過告警提前介入,最大程度減少風(fēng)險(xiǎn)產(chǎn)生的經(jīng)濟(jì)損失,有助于銀行理財(cái)產(chǎn)品及代銷的銷售環(huán)節(jié)監(jiān)管無真空,有效保護(hù)消費(fèi)者的知情權(quán),最終實(shí)現(xiàn)“買者自負(fù),賣者盡責(zé)”。

? ? ? ??據(jù)陳雪兒介紹,該方案在語音識(shí)別研發(fā)部分用到飛槳語音模型庫(kù)PaddleSpeech。她提到,語音識(shí)別最終目的是還原雙錄中雙方的對(duì)話,呈現(xiàn)出像微信對(duì)話框一樣有身份、有順序、有內(nèi)容、有標(biāo)點(diǎn)的對(duì)話效果。分解到具體步驟,開始要對(duì)原始的音頻文件進(jìn)行語音分割,若非雙聲道音頻,則要對(duì)說話人進(jìn)行分類(指用聲音特征區(qū)分說話人身份,即聲紋識(shí)別),分類之后再做語音識(shí)別,形成文本,做標(biāo)點(diǎn)恢復(fù),得到最終的完整的對(duì)話結(jié)果。
? ? ? ??其中,最后一個(gè)步驟語音識(shí)別部分,諧云研發(fā)團(tuán)隊(duì)運(yùn)用了飛槳語音模型庫(kù)PaddleSpeech里的模型U2Model執(zhí)行語音識(shí)別任務(wù)。
? ? ? ??之所以選擇飛槳PaddleSpeech模型庫(kù),是因?yàn)殛愌﹥簣F(tuán)隊(duì)在研發(fā)雙錄質(zhì)檢項(xiàng)目過程中,察覺到金融行業(yè)對(duì)于語音質(zhì)檢有著強(qiáng)烈的需求,在對(duì)比市面上其他語音識(shí)別的開源產(chǎn)品框架后,他們認(rèn)為飛槳框架具有明顯優(yōu)勢(shì),主要體現(xiàn)在資料全,為開發(fā)者提供了較多的預(yù)訓(xùn)練模型和對(duì)應(yīng)的語音數(shù)據(jù)集,同時(shí)模型精度較高。
? ? ? ??2022年7月,諧云科技的技術(shù)專家在網(wǎng)絡(luò)平臺(tái)上發(fā)布了一篇題為《諧云課堂 | 淺談智能語音技術(shù)在雙錄質(zhì)檢中的應(yīng)用》的文章,百度飛槳的產(chǎn)品經(jīng)理看到這篇文章找到了諧云,雙方建立聯(lián)系并迅速開啟了深度合作。9月,諧云科技和百度飛槳聯(lián)合組織金融直播課介紹雙錄質(zhì)檢解決方案。11月,諧云與百度飛槳達(dá)成合作,正式加入飛槳技術(shù)伙伴計(jì)劃,雙方繼續(xù)在智慧雙錄、音頻質(zhì)檢等領(lǐng)域積極探索。

借助飛槳將語音識(shí)別準(zhǔn)確率提高到95%?
? ? ? ??雙錄質(zhì)檢系統(tǒng)的研發(fā)過程充滿了挑戰(zhàn)。陳雪兒回憶到,他們最開始以為這只是一個(gè)普通的語音識(shí)別的任務(wù),后面才發(fā)現(xiàn)雙錄過程對(duì)說話人的身份和順序有嚴(yán)格的要求,因此說話人分類以及語音分割十分重要。此外,雙錄過程中會(huì)出現(xiàn)許多比較難以識(shí)別的短句,一些方言口音識(shí)別不好也可能造成質(zhì)檢誤報(bào)等情況,他們針對(duì)這些問題都專門做了模型調(diào)整和優(yōu)化。在模型調(diào)整方面,諧云的團(tuán)隊(duì)通過“算法和數(shù)據(jù)擴(kuò)充”的方式,使用飛槳框架,基于飛槳語音模型庫(kù)PaddleSpeech對(duì)算法模型進(jìn)行了重新訓(xùn)練,由于PaddleSpeech中U2Model模型采用端到端的語音識(shí)別模式,在執(zhí)行語音識(shí)別任務(wù)方面相對(duì)于傳統(tǒng)方法識(shí)別效果更佳、精度較高,經(jīng)過訓(xùn)練后的模型語音識(shí)別準(zhǔn)確率提高到了95% 。

? ? ? ?引入自研的邊緣計(jì)算是雙錄質(zhì)檢系統(tǒng)的一大亮點(diǎn)。陳雪兒進(jìn)一步解釋到,目前市場(chǎng)上大多數(shù)的IoT解決方案是把算法或應(yīng)用以SDK等方式固化到設(shè)備中, 如果需要更新算法、應(yīng)用,就要替換整個(gè)設(shè)備,在邊緣設(shè)備部署智能應(yīng)用的情況下,當(dāng)面臨應(yīng)用更新迭代以及場(chǎng)景擴(kuò)充時(shí),這種傳統(tǒng)的方式明顯不夠靈活。
? ? ? ??諧云采用云邊協(xié)同的方式,在銀行的數(shù)據(jù)中心部署云端智能管理平臺(tái),能實(shí)現(xiàn)快捷方便地在云端直接一鍵部署應(yīng)用,并進(jìn)行更新迭代。同時(shí),這種邊緣計(jì)算模式由于將算力下沉到了邊緣側(cè),使得雙錄過程中的音頻視頻數(shù)據(jù)能就近獲得處理,大大提升了處理的時(shí)效性,為雙錄場(chǎng)景下實(shí)時(shí)處理音頻視頻數(shù)據(jù)處理提供了重要的框架支撐。
? ? ? ??據(jù)了解,諧云科技的雙錄智能質(zhì)檢系統(tǒng)已在某城商行、某商業(yè)銀行等落地。未來,諧云將繼續(xù)推進(jìn)更多銀行試點(diǎn),優(yōu)化雙錄質(zhì)檢解決方案及應(yīng)用場(chǎng)景。陳雪兒談到,她希望雙錄的能力將來可以加入到無人銀行的自助設(shè)備機(jī)以及遠(yuǎn)程銀行的流程中,為金融行業(yè)數(shù)字化升級(jí)和智慧銀行添智賦能。
? ? ? ??除了金融雙錄業(yè)務(wù)外,雙錄質(zhì)檢系統(tǒng)還能應(yīng)用到諸多音頻視頻需求的場(chǎng)景中,例如,視頻客服過程中實(shí)時(shí)監(jiān)測(cè)內(nèi)容和質(zhì)量,金融貸款業(yè)務(wù)中監(jiān)控違規(guī)行為等。
? ? ? ??隨著金融數(shù)字化轉(zhuǎn)型步伐加快,以人工智能為代表的新技術(shù)正成為助力金融科技變革的一股新力量,除了上述提到的語音模型庫(kù)之外,飛槳深度學(xué)習(xí)開源開放平臺(tái)還包含PaddleNLP、PaddleVideo、PaddleDetection等眾多覆蓋不同場(chǎng)景和任務(wù)的模型庫(kù)和套件,正落地應(yīng)用到金融業(yè)務(wù)各場(chǎng)景中幫助金融機(jī)構(gòu)降險(xiǎn)增效和智能化升級(jí)。

p.s.?更多飛槳行業(yè)案例,可關(guān)注飛槳公眾號(hào):飛槳paddlepaddle