預訓練模型在金融 NLP場景下的應用

本文根據瀾舟科技創(chuàng)始人兼CEO周明在「瀾舟NLP分享會」上的演講整理,介紹了大模型技術在金融NLP場景的應用,以及瀾舟的實踐。
全文約?5200?字,預計閱讀時長?10?分鐘。

近三年來,大規(guī)模預訓練模型深入應用于金融場景中,大幅度地提升了業(yè)務系統(tǒng)的開發(fā)效率。本次報告將分享目前大模型技術在金融場景下的應用現(xiàn)狀及未來發(fā)展趨勢,并介紹瀾舟團隊基于孟子輕量化模型支持金融場景并通過SaaS輸出各項標準 NLP 能力的技術進展。
大模型技術背景
我先談談大模型的一些背景。此前十余年人工智能在感知智能方面進展迅速。而在2017年谷歌提出了Transformer,隨后預訓練模型BERT提出,隨后以2019年閱讀理解超過人類水準為代表,NLP能力在各項任務上大幅度提升。
1. 認知智能崛起
我們今天看到的一個明顯趨勢是AI正由感知智能快速向認知智能邁進。AI正在從能聽能說會看,這些都是感知智能的能力,走到能思考、能回答問題,做總結,能翻譯,能創(chuàng)作(音樂、對聯(lián)、詩歌、散文,寫報告),走到決策和推理。這些都是認知智能的能力。認知智能的應用例子比比皆是。

在圖 1 右側可以看到其廣泛的應用。例如,達到了接近人類水準的機器翻譯已經在手機和桌面普遍使用,聊天機器人幾乎可以通過圖靈測試,搜索引擎得益于閱讀理解以及預訓練模型,搜索相關度大幅度提升,自動客服系統(tǒng)已經普及,知識圖譜在金融等領域得到快速應用,都在推動產業(yè)發(fā)展。
從大數據,到建立信息檢索,到建立知識圖譜實現(xiàn)知識推理,到發(fā)現(xiàn)趨勢形成觀點和洞見。認知智能在大數據支持下,推動企業(yè)的業(yè)務數智化,正在深刻影響產業(yè)的發(fā)展。可以說NLP和認知智能代表了人工智能的未來發(fā)展。
2. 大規(guī)模預訓練模型的新范式
在認知智能崛起過程中,預訓練成為了認知智能的核心技術。2017年推出的Transformer,催生了BERT、GPT、T5等預訓練模型。這些模型基于自監(jiān)督學習(也就是不需要人工標注),利用大規(guī)模文本,比如互聯(lián)網的浩瀚的數據,學習一個語言模型。利用語言模型對輸入句子的每一個詞在當前上下文的句法、語義和搭配有一定程度的理解。在此基礎上,針對每一個NLP任務,用有限的標注數據進行微調。
這種遷移學習技術推動了NLP發(fā)展,各項任務都上了一個大臺階。更為重要的是,產生的預訓練+微調技術,可以一套技術解決不同語言NLP、不同的NLP任務,有效地提升開發(fā)效率。原先NLP不同任務要用不同的模型,需要不同的技能人員,而且語言之間也不能互通?,F(xiàn)在用預訓練加微調,可以一套機制應對多有語言的所有任務,這標志著NLP進入到工業(yè)化實施階段。

當前在預訓練模型領域較為關注的研究重點包括:
如何訓練超大規(guī)模參數的模型。各大公司推出越來越大的模型,千億甚至萬億參數。對已有模型架構的創(chuàng)新性研究、更加有效的訓練方法和訓練加速的方法。
簡化微調的步驟,比如像GPT-3那樣用一套提示機制來簡化下游任務的微調,推動零樣本學習和小樣本學習。
多模態(tài)預訓練模型也引起關注。圖文、文圖、視頻、code生成。最后就是推理的加速方法也是目前的研究焦點, 用硬件來實現(xiàn)加速訓練也是重要方向。
金融 NLP 場景
1. 場景與應用舉例
NLP在金融有很多應用,概括來講有智能風控、智能投顧、智能投研、智能營銷等等。無論哪一個場景,目前的技術水平,雖然可以用了,但是都還是面臨很多挑戰(zhàn)。

金融行業(yè)主要包含銀行、保險、券商、資管等三大類機構。每一類機構都有很多NLP的應用場景。這里我歸納如下(圖 4)。
銀行的NLP應用場景主要有,信貸輔助決策,公司債業(yè)務審核、智能客服、企業(yè)知識庫建設等。每一個場景涉及到一系列的任務,比如信貸輔助決策,涉及到財務報告解析、公司輿情智能挖掘、信貸流水材料智能處理、公關行業(yè)景氣度分析、風險事件傳導分析。這些任務的背后涉及到一系列NLP技術,諸如信息抽取、OCR、表格解析、分類、情感、事件抽取和打標簽、領域和專家知識等等。
保險的NLP應用場景主要有,包括智能合同審核、智能付款材料審核、智能工單處理等等。同樣也涉及到一系列任務和NLP技術。
券商和資管的NLP應用場景也是一樣(如圖 4 所示),此處不再贅述。

2. 傳統(tǒng)NLP開發(fā)存在的問題和解決方案

過去這些場景下NLP任務的開發(fā)碎片化嚴重,泛化能力不足,基本上是一個任務一個模型。由于每一個任務都需要訓練,需要的標注代價大。還有就是開發(fā)周期長:從談判,到了解客戶需求,到開發(fā),然后迭代。期間用戶需求經常變化。而且交付成本比較高,一般要求到用戶現(xiàn)場交付,要教會用戶,要設置相應的硬件環(huán)境和軟件環(huán)境。還有維護困難,用戶遇見各類事情,產生新的需求,都可能找你。
為了加速NLP在金融場景的開發(fā)效率,瀾舟科技基于孟子輕量化模型技術,訓練了一個金融大模型。用大模型+微調的新的開發(fā)范式,開發(fā)了信息抽取、信息檢索、機器翻譯、文本生成等多類技術,并通過SaaS提供標準化的全棧式金融場景NLP的能力。
同時,利用瀾舟的預訓練模型的零樣本能力和模型定制平臺,可以幫助客戶自行快速建模以便快速驗證業(yè)務流程,有助于快速獲客和建立服務。
瀾舟的技術通過同花順、華夏、云從等合作,在金融真實場景下得到了廣泛驗證。
瀾舟在金融NLP場景下的實踐
1. NLP 技術全景
下圖瀾舟的金融NLP技術全景。分三大部分,第一部分是瀾舟的孟子預訓練模型技術,第二部分是瀾舟基礎NLP能力,第三部分是瀾舟在金融NLP的應用場景。

第一部分孟子預訓練模型技術具備多種架構,比如BERT、GPT、T5等架構的預訓練模型的能力。包括只是增強、零樣本技術、模型壓縮和蒸餾。然后針對金融需要,用金融預料繼續(xù)訓練得到金融領域的預訓練模型。
在此基礎上,第二部分NLP基礎能力,包括文本分類、生成、實體識別、信息抽取、智能文檔處理(從PDF、掃描等文件中抽取重要信息)、OCR、PDF解析、翻譯、搜索、事件推理、問答、知識圖譜、語音識別等等。
第三部分就是應用場景,覆蓋輿情分析、公告信息抽取、研報觀點匯總、企業(yè)信用評估、ESG分析、IPO招股書審核、量化因子、智能文檔審計之類的場景。
我們希望用一個孟子預訓練模型,加上微調,解決所有NLP基礎能力和應用場景的開發(fā)。這樣大幅度克服碎片化,提高開發(fā)效率。
2. 產品全景
在NLP技術矩陣的基礎上,我們開發(fā)了一系列的金融NLP產品。

API(SaaS)服務,提供基礎NLP能力和可標準化的金融的NLP能力。目前已經公開測試了,大家可以在瀾舟官網上試試(langboat.com ->產品服務)。
另外,我們也在開發(fā)金融零樣本NLP平臺,開放模型定制能力,應用零樣本、少樣本學習技術,降低NLP定制門檻,滿足碎片化應用場景。未來幾個月內將會發(fā)布出來。?我們跟金融企業(yè)密切合作,深入企業(yè)原有生態(tài),方便接入RPA和無代碼編程體系,實現(xiàn)低門檻、易上手、更快觸達金融業(yè)務場景。
我們也提供私有化定制部署,深入企業(yè)業(yè)務場景,最大化利用企業(yè)私域數據,從預訓練到微調任務全面優(yōu)化性能,用孟子輕量化技術為企業(yè)實現(xiàn)高性價比的訓練和部署。
瀾舟市場搜索和研判平臺為市場研究和投資決策提供信息搜索和分析研判提供幫助。在新聞、公告、研報、政策等頻道,針對公司的基本信息、事件、行業(yè)、概念進行搜索,并在搜索結果上顯示話題、情緒分析等研判信息。目前已經開始邀測,即將開啟公測。
下面我們分模塊,詳細介紹瀾舟的NLP技術與產品矩陣。
3. 孟子輕量化預訓練模型

瀾舟的孟子輕量化預訓練模型在 2021 年 7 月以十億級的規(guī)模,榮獲了中文NLP權威CLUE榜單的第一名,超過了許多大公司的大模型。我們在此基礎上開發(fā)了機器翻譯、本文生成、搜索等各項技術。目前,我們也通過開源釋放了四個模型,包括金融模型。我們這些技術跟同花順、華夏基金等展開了合作。

我們也開發(fā)了孟子輕量化多模態(tài)模型。其中包含了圖片生成描述任務:輸入為圖片,輸出為對該圖片的文字描述;文到圖的生成任務:輸入為自然語言,輸出改文字描述對應的圖像;文字到人臉的描述任務:輸入為人臉相關的文本描述,輸出為對應描述的圖片??梢钥吹轿覀兊亩嗄B(tài)模型的效果還是很不錯的。

孟子多任務模型(Mengzi-T5-base-mt),是在 Mengzi-T5-base 模型的基礎上集成了多任務訓練技術,涵蓋了27個數據集,對應編寫了301個 prompt。該模型已在 2022 年 8 月 22 日提交零樣本學習權威榜單 ZeroCLUE 和小樣本學習榜單FewCLUE,均排名第一。
孟子多任務模型在模型規(guī)模上優(yōu)勢明顯,參數量僅 0.22B。目前該模型已開源,大家可以在 huggingface model hub 網頁 api 直接試用模型及下載,或者在 Github 上查看我們?yōu)懼鄣拈_源的 SDK project。其中,Zero-Shot SDK 目前已支持八項任務(涵蓋了情感分類、新聞分類、文本相似度、實體抽取、金融實體關系抽取、評論對象抽取、廣告文案生成、醫(yī)療領域意圖識別等),具體信息詳見這篇文章。

用戶無需標注,直接采用prompt技術即可獲取孟子多任務模型的Zero-Shot能力。研發(fā)周期短,相較于finetune方式數以天計的開發(fā)周期,零樣本學習技術僅需三分鐘,即可快速完成任務。
同時,效果相比于RoBERTa模型,我們現(xiàn)在零樣本學習技術的準確率更好一些。并且我們基于用戶私有數據及各領域任務(涉及金融、醫(yī)療等領域任務)訓練,現(xiàn)已在大量的實際使用場景上驗證孟子零樣本學習技術的有效性。
舉例,如下圖所示,
輸入:
input_string:為打消市場顧慮,工行兩位洋股東——美國運通和安聯(lián)集團昨晚做出承諾,近期不會減持工行H股。實體1是工行,實體2是美國運通。
Prompt:“{input_string}”中的“{entity1}”和“{entity2}”是什么關系?
孟子的輸出:被持股。

再舉一個例子,如下圖所示:
輸入:導致泗水的砭石受到追捧,價格突然上漲。而泗水縣文化市場綜合執(zhí)法局顏鯤表示,根據監(jiān)控,...
Prompt:找出上述句子中的實體和他們對應的類別。
孟子的輸出:泗水:地址;泗水縣文化市場綜合執(zhí)法局:政府;顏鯤:姓名。

4. 金融翻譯引擎(中、英、日)
下圖是金融機器翻譯實例。金融領域的翻譯首先是術語比較多,需要單獨處理,其次是句型非常嚴謹。我們通過努力,在中英金融機器翻譯取得了目前最好的翻譯水準。目前通過了中金公司招標,中金將使用我們的引擎翻譯金融文獻。

5. 營銷文案生成引擎
瀾舟的孟子預訓練模型,在創(chuàng)作方面體現(xiàn)巨大潛力。這里展示了營銷文案產品。根據用戶關鍵詞,生成一篇文章。

6. 企業(yè)社會責任(ESG)報告生成
企業(yè)社會責任報告(即 ESG 報告),ESG報告格式固定,一般會有一個大綱,涉及到對多項內容的整理分析,人工編制較為繁瑣,而我們開發(fā)的ESG報告生成算法可以根據公司的資料,經過抽取整合,自動生成ESG報告,再交由人工 review 確認,大大加快撰寫速度。

7. 智能文檔處理
基于孟子多模態(tài)預訓練模型,我們開發(fā)了智能文檔處理。可以從OCR中抽取重要的字段,比如金額、單位、公司名稱等。

8. 瀾舟市場搜索研判平臺

這里重點介紹一下瀾舟市場搜索研判平臺,投資或者市場研究人員可以通過該產品,在新聞、公告、研報、政策等內容中進行針對公司的基本信息、事件、行業(yè)、概念等進行智能搜索,并且在搜索結果之上獲得進一步的熱門話題提取、情緒分析等分析研判增值服務。

上圖是瀾舟搜索研判平臺背后的能力。底層是大模型,核心功能包括信息檢索、分析研判、決策支持。目前搜集了新聞、公告、研報和政策四大類數據源,具備以下特點:

在搜索結構中點擊文章打開文章內容,對情緒和話題進行了分析和標注。
可以快速理解文章重點和背后蘊含的情緒。
可以發(fā)現(xiàn)情緒變化趨勢,感知風向變化。
通過關鍵詞提取、聚類、同義詞識別,為每一篇文章提取重要話題關鍵詞,幫助用戶快速了解文章重點。對每一個話題提供了情緒的統(tǒng)計分析。

目前瀾舟市場搜索研判平臺支持將企業(yè)自有的多種格式(PPT、PDF、Word文檔、郵件等)數據集成到瀾舟市場搜索研判平臺的數據池。與平臺數據一起進行搜索和研判,也支持對接第三方數據供應商數據庫和接口,最大化實現(xiàn)數據價值利用。

通過NLP技術可以構建知識圖譜和產業(yè)鏈圖譜。首先,通過結構化數據(數據庫)、半結構化數據(網頁)、非結構化數據(自然語言文本),經過信息抽取獲得實體、實體之間關系和實體的屬性。然后經過知識融合,把不同的知識圖譜合并,再經過知識加工,最后人工校驗等手段建立起行業(yè)或者企業(yè)的知識圖譜。類似地,利用自然語言技術,可以獲得一個企業(yè),所在行業(yè),上下游的企業(yè),形成了一個產業(yè)鏈的知識圖譜。

我們也可以建立事理的圖譜。所謂事理圖譜體現(xiàn)事件的關系,包括因果、時序、共現(xiàn)、共指關系。就是事件之間的關聯(lián)關系,用于發(fā)現(xiàn)事件A出現(xiàn)之后,事件B出現(xiàn)的可能性有多大,從而提出決策建議。圖23有一個例子,從這個新聞發(fā)現(xiàn)事件“過度營銷”事件的主題,以及它跟另外一個事件“政策發(fā)布”,事件主體“教育行業(yè)”,有什么關聯(lián)。

有了產業(yè)鏈和事件鏈,就可以進行一定程度的推理。我們正在建立一個新型的搜索引擎(見圖24右側),為用戶提供更好的搜索體驗。根據用戶搜索關鍵詞,找到新聞,研報,公告等,發(fā)現(xiàn)其中的事件——找到事件主體的產業(yè)鏈——找到相關事件——再形成產業(yè)鏈和事件鏈,最后用戶上下滑動頁面就能看到上下游的影響,了解事件之間的關聯(lián)。
總結
預訓練模型+微調機制帶來了新的突破,NLP各項能力大幅度提升,同時有效地解決了開發(fā)碎片化問題。
瀾舟通過API(SaaS)服務,提供基礎NLP能力和可標準化的金融的NLP能力,覆蓋文檔智能理解、翻譯、生成、搜索功能。
正在開發(fā)金融零樣本NLP平臺,我們還開放模型定制能力。用戶應用零樣本、少像本學習技術,降低NLP定制門檻,滿足碎片化應用場景。
瀾舟跟金融企業(yè)密切合作,深入企業(yè)原有生態(tài),方便接入RPA和無代碼編程體系,實現(xiàn)低門檻、易上手、更快觸達金融業(yè)務場景。
提供私有化定制部署,深入企業(yè)業(yè)務場景,最大化利用企業(yè)私域數據,從預訓練到微調任務全面優(yōu)化性能,采用孟子輕量化技術為企業(yè)實現(xiàn)高性價比的訓練和部署。
瀾舟市場搜索和研判平臺為市場研究和投資決策提供搜索和研判能力。
目前,瀾舟公司跟同花順公司建立了深度合作。聚焦認知智能領域,共同突破和創(chuàng)新NLP技術,升級金融科技領域產品和服務,提升業(yè)務價值,為客戶帶來更好的用戶體驗。目前利用孟子輕量化模型及其上的技術,服務于同花順的多項業(yè)務,合作取得了順利進展。
2022 年 6 月,瀾舟也和華夏基金共同成立了金融NLP的聯(lián)合實驗室。面對金融領域文本專業(yè)性強、應用場景多變的情況下,如何構建落地快、易迭代、可適配金融垂直領域的中文NLP模型著這一系列問題,我們和華夏基金密切合作。以聯(lián)合實驗室的形式,針對金融業(yè)務痛點和需求逐一突破,促進人工智能創(chuàng)新,創(chuàng)造新的價值。
大家若對瀾舟金融 NLP 領域技術和產品感興趣,可以訪問官網 langboat.com 體驗部分產品功能,或發(fā)送郵件至 bd@langboat.com 咨詢。