BloombergGPT在金融領(lǐng)域有多厲害?
隨著人工智能技術(shù)的快速發(fā)展,大型語言模型(Large Language Model,下文簡稱LLM)已經(jīng)在自然語言處理、文本生成、機(jī)器翻譯等多個(gè)領(lǐng)域中展現(xiàn)出了巨大的潛力,但市場上暫未有專攻金融領(lǐng)域的LLM。
在此背景下,彭博社(Bloomberg)和約翰霍普金斯大學(xué)的Shijie Wu等在BloombergGPT: A Large Language Model for Finance一文中重磅發(fā)布了為金融界打造的LLM——BloombergGPT。
報(bào)告說明,對BloombergGPT的評估顯示,其在金融任務(wù)上的表現(xiàn)顯著優(yōu)于現(xiàn)有模型,同時(shí)不會犧牲通用LLM的基準(zhǔn)性能,因此BloombergGPT在金融領(lǐng)域具有不可替代性。
因評估方式以及模型本身的局限,BloombergGPT是否會對金融業(yè)帶來顛覆性的變革還有待商榷,但不可否認(rèn)的是,隨著技術(shù)的進(jìn)步,BloombergGPT在不同金融業(yè)務(wù)場景下都將具有廣泛的應(yīng)用和可觀的潛力。
*本文作者:
毛詩倩?上海交通大學(xué)中國金融研究院研究助理
潘?? 薇?上海交通大學(xué)中國金融研究院CAFR-信也科技聯(lián)合研究實(shí)驗(yàn)室研究助理

01?什么是BloombergGPT?
自然語言處理(Nature Language Processing,下文簡稱NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的重要方向,研究如何讓計(jì)算機(jī)讀懂人類語言,目前NLP在金融領(lǐng)域應(yīng)用越來越廣泛而復(fù)雜。隨著人工智能技術(shù)的快速發(fā)展,LLM已經(jīng)成為NLP的佼佼者,是當(dāng)下AI和NLP研究與產(chǎn)業(yè)中最重要的方向之一。
LLM是指包含數(shù)千億(或更多)參數(shù)的可以通過處理大量自然語言數(shù)據(jù)的深度學(xué)習(xí)模型。目前火爆的ChatGPT模型就是一種LLM,證明了訓(xùn)練非常大的LLM的強(qiáng)大優(yōu)勢。但目前的LLM大多是通用性的,而因金融行業(yè)的復(fù)雜性以及大量的金融術(shù)語,市場上需要一個(gè)專攻金融專業(yè)的模型。
彭博社是全球商業(yè)、金融信息和新聞資訊提供商,通過其強(qiáng)大的集信息、人物及觀點(diǎn)為一體的動態(tài)網(wǎng)絡(luò)為全球決策者帶來關(guān)鍵優(yōu)勢。彭博社精于以創(chuàng)新的技術(shù)來快速、精準(zhǔn)地傳遞數(shù)據(jù)、新聞和分析,這也是彭博終端的核心優(yōu)勢所在。
今年3月30日,彭博社最新發(fā)布的報(bào)告顯示,其構(gòu)建了迄今為止最大的特定領(lǐng)域數(shù)據(jù)集,并訓(xùn)練了專門用于金融領(lǐng)域的LLM——BloombergGPT,以支持金融行業(yè)內(nèi)的各類任務(wù)。
彭博社依托其四十多年來積累的大量金融數(shù)據(jù)源,創(chuàng)建了一個(gè)包含3,630億詞例(token)的金融數(shù)據(jù)集FinPile,又與公共數(shù)據(jù)集疊加成為了包含超7,000億詞例的大型訓(xùn)練語料庫。利用龐大的數(shù)據(jù)集,并基于通用和金融業(yè)務(wù)的場景進(jìn)行混合模型訓(xùn)練,訓(xùn)練了包含500億個(gè)參數(shù)的大規(guī)模生成式人工智能模型BloombergGPT,以全方位支持并改善金融領(lǐng)域的NLP任務(wù)。
BloombergGPT的推出意味著這項(xiàng)新技術(shù)在金融領(lǐng)域的發(fā)展和應(yīng)用已經(jīng)邁出了第一步。

02?對BloombergGPT的模型評估
報(bào)告中將BloombergGPT與其他兩個(gè)參數(shù)量級等相匹配的模型GPT-NeoX,OPT66B和一個(gè)參數(shù)更大的模型BLOOM176B在金融領(lǐng)域和通用領(lǐng)域分別進(jìn)行了比較評估:金融領(lǐng)域評估以驗(yàn)證對高質(zhì)量的金融特定數(shù)據(jù)進(jìn)行訓(xùn)練將在金融任務(wù)中產(chǎn)生更好的結(jié)果;通用領(lǐng)域評估以與市場上其他模型在通用任務(wù)上做對比。
結(jié)果表明,BloombergGPT模型在金融任務(wù)上的表現(xiàn)遠(yuǎn)超類似規(guī)模的開放模型,在通用任務(wù)上優(yōu)于其他相同參數(shù)量級的模型,并在某些任務(wù)上甚至超過了參數(shù)量更大的模型,證明了其專注于金融領(lǐng)域的不可替代性。
(一) 金融領(lǐng)域評估
金融領(lǐng)域評估中分成了兩組:一組是外部金融任務(wù)(Public Financial Tasks),收集了包括一系列NLP任務(wù)的公開金融數(shù)據(jù)集;另一組是Bloomberg金融任務(wù)(Bloomberg Financial Tasks),收集了Bloomberg內(nèi)部高質(zhì)量評估集中提取的任務(wù),以測試情緒三分類和命名實(shí)體識別(Named Entity Recognition,簡稱NER)。
1、 外部金融任務(wù)(Public Financial Tasks)
外部金融任務(wù)以衡量BloombergGPT在金融領(lǐng)域的有效性,主要測試為以下五項(xiàng):
1) ConvFinQA:輸入標(biāo)普500收益報(bào)告,任務(wù)是回答需要對輸入進(jìn)行數(shù)字推理的對話問題,以測試模型對金融領(lǐng)域相關(guān)問題的理解和推理能力。
2) FiQA SA:測試其對英文金融新聞和社交媒體標(biāo)題中的特定情緒理解,將消息按照任何可能有利于或傷害投資者的分成積極、中性、消極三類。
3) FPB:測試對金融新聞中的句子情緒分成積極、中性、消極三類。
4) Headline:輸入黃金商品領(lǐng)域的英文新聞標(biāo)題,測試其對新聞標(biāo)題是否包含特定信息的判斷,例如價(jià)格上漲或價(jià)格下跌等。
5)NER:命名實(shí)體識別任務(wù),測試從向SEC提交的金融協(xié)議中收集金融數(shù)據(jù),進(jìn)行信用風(fēng)險(xiǎn)評估。
測試結(jié)果顯示,BloombergGPT在以上五項(xiàng)測試中的四項(xiàng)在測試的所有模型中表現(xiàn)得最優(yōu),在NER表現(xiàn)為第二。在所有模型中的勝率(Win Rate)也是最高的,其中ConvFinQA與同等大小模型的差距尤其明顯。由此證明BloombergGPT對金融業(yè)復(fù)雜性的深刻理解。

圖1:金融領(lǐng)域測試結(jié)果
(圖表來源:BloombergGPT: A Large Language Model for Finance)
2. Bloomberg金融任務(wù)(Bloomberg Financial Tasks)——內(nèi)部任務(wù):情緒三分類
Bloomberg金融任務(wù)中的情緒三分類的數(shù)據(jù)集包含來自彭博社的英文新聞報(bào)道、付費(fèi)內(nèi)容和網(wǎng)絡(luò)內(nèi)容,以檢驗(yàn)BloombergGPT對金融語言的深刻理解是否能夠準(zhǔn)確衡量其中的情緒,幫助投資者根據(jù)市場情緒做出明智的決定。主要測試為以下五項(xiàng):
1) Equity News Sentiment:測試其對新聞報(bào)道中表達(dá)的對公司的情緒按可能會增加、減少或保持不變長期投資者對公司的信心進(jìn)行分類。
2) Equity Social Media Sentiment:與Equity News Sentiment類似,將新聞改為金融相關(guān)的英文社交媒體內(nèi)容。
3) Equity Transcript Sentiment:與Equity News Sentiment類似,將新聞改為公司新聞發(fā)布會的通稿。
4) ES News Sentiment:測試其對新聞報(bào)道中表達(dá)的反映公司環(huán)境和社會政策的好消息、壞消息或中性消息進(jìn)行分類。
5) Country News Sentiment:測試其對新聞報(bào)道中暗示某國經(jīng)濟(jì)的增長、萎縮或中性進(jìn)行分類。
測試結(jié)果顯示,BloombergGPT在以上五項(xiàng)測試中在測試的所有模型中均表現(xiàn)得最優(yōu),且遠(yuǎn)超于其他模型。

圖2:情緒三分類測試結(jié)果
(圖表來源:BloombergGPT: A Large Language Model for Finance)

3. ?Bloomberg金融任務(wù)(Bloomberg Financial Tasks)——探索性任務(wù):NER
盡管NER在NLP中的應(yīng)用已經(jīng)十分成熟,但在LLM中十分艱巨,是尚未開發(fā)的任務(wù)。NER任務(wù)以檢驗(yàn)BloombergGPT是否能夠識別和分類實(shí)體,例如公司名稱、股票行情和金融工具,以簡化數(shù)據(jù)提取和分析過程,為分析師和研究人員提供更高效的工作流程。同時(shí)探索性任務(wù)NER+NED以檢驗(yàn)BloombergGPT是否能夠識別出實(shí)體后再將實(shí)體與其股票代碼聯(lián)系起來。
這兩類任務(wù)主要測試為以下七項(xiàng)彭博社內(nèi)部NER數(shù)據(jù)集:分別為BN(英文長篇彭博新聞內(nèi)容)、BFW(Bloomberg First Word上的短篇內(nèi)容)、Filings(公司強(qiáng)制性財(cái)務(wù)披露)、Headlines(英文彭博新聞標(biāo)題)、Premium(彭博收錄的第三方英文新聞內(nèi)容)、Transcripts(公司新聞發(fā)布會的通稿)、Social Media(英文金融相關(guān)的社交媒體)。
測試結(jié)果顯示,雖然BloombergGPT在NER任務(wù)下,BloombergGPT僅在Headlines這一個(gè)數(shù)據(jù)集上得分最高,但所有模型的結(jié)果都相對接近。而且在NER+NED任務(wù)下,BloombergGPT在除了Social Media測試的其他測試上均得分第一。這些結(jié)果進(jìn)一步強(qiáng)調(diào)了BloombergGPT在金融任務(wù)方面的優(yōu)勢。

圖3:NER和NER+NED測試結(jié)果
(圖表來源:BloombergGPT: A Large Language Model for Finance)
(二) 通用領(lǐng)域評估
雖然BloombergGPT的重點(diǎn)是金融任務(wù),但納入通用訓(xùn)練數(shù)據(jù)不僅有助于改進(jìn)金融任務(wù),還可以使其在更標(biāo)準(zhǔn)的NLP數(shù)據(jù)集上表現(xiàn)良好。通用領(lǐng)域評估中分成了四組:BIG-bench Hard,知識評估(Knowledge Assessments),閱讀理解(Reading Comprehension),和語言任務(wù)(Linguistic Tasks)。
四組的測試結(jié)果均表明,BloombergGPT在開發(fā)金融專用的大語言模型并沒有明顯犧牲其通用能力,在許多通用領(lǐng)域,除略微落后于GPT-3外,BloombergGPT的表現(xiàn)優(yōu)于其他參數(shù)量相同的模型,甚至在個(gè)別測試中超過了參數(shù)量更大的模型。

03?BloombergGPT的優(yōu)劣勢分析
值得注意的是,雖然BloombergGPT在眾多情緒分析和命名實(shí)體識別任務(wù)中表現(xiàn)出色,但該論文在金融領(lǐng)域的評估并未與GPT-3或GPT-4做對比,且從目前大眾對于ChatGPT的測試來看,GPT-3和GPT-4在理解和生成金融相關(guān)內(nèi)容方面也表現(xiàn)出了非凡的能力。因此,尚不清楚BloombergGPT是否能夠在各種金融任務(wù)中真正優(yōu)于ChatGPT。
(一) BloombergGPT優(yōu)勢
1. 專業(yè)性
從模型設(shè)計(jì)目的來看,與市場上通用GPT以聊天機(jī)器人為目標(biāo)不同,BloombergGPT的訓(xùn)練目標(biāo)是在金融領(lǐng)域內(nèi)提供高質(zhì)量的NLP服務(wù),包括信息檢索、文本生成、問答等,具有針對金融領(lǐng)域的專業(yè)術(shù)語、行業(yè)趨勢、經(jīng)濟(jì)數(shù)據(jù)等方面的高度準(zhǔn)確性和適用性,可以為用戶提供專業(yè)的高質(zhì)量的信息和分析服務(wù)。
2. 適配性
BloombergGPT有一個(gè)獨(dú)特的功能,它可以生成彭博查詢語言(BQL)。BQL是彭博終端用戶使用的專有語言,使用戶能夠更輕松地根據(jù)需要提取、篩選和操作財(cái)務(wù)數(shù)據(jù)?;谂聿┥缌己玫目蛻艋A(chǔ)與應(yīng)用基礎(chǔ)及其海量數(shù)據(jù),這將大大提高投資者和金融從業(yè)人員的工作效率。
3. 實(shí)用性
一方面,不同于通用LLM的傳統(tǒng)網(wǎng)絡(luò)爬取數(shù)據(jù),網(wǎng)絡(luò)上的數(shù)據(jù)總有重復(fù)和錯誤,BloombergGPT的訓(xùn)練數(shù)據(jù)基于彭博社四十余年的積累,其數(shù)據(jù)來源廣泛、全面、可靠,輸出的金融領(lǐng)域結(jié)果的準(zhǔn)確性和實(shí)用性都將高于通用LLM。
另一方面,BloombergGPT可以根據(jù)客戶的需求和使用場景進(jìn)行特定的模型訓(xùn)練和參數(shù)設(shè)置,同時(shí)提供專業(yè)的技術(shù)支持、安全性保障和穩(wěn)定的服務(wù)保障,全方位滿足用戶各種金融需求。
(二) BloombergGPT局限
1. 語言和數(shù)據(jù)的限制
一方面,BloombergGPT訓(xùn)練中從公開渠道及彭博社內(nèi)部抓取的所有文件均為英文,缺少了多語言的訓(xùn)練將導(dǎo)致該模型難以被全球用戶使用。另一方面,BloombergGPT的訓(xùn)練數(shù)據(jù)主要來自彭博社的金融數(shù)據(jù),相對其他領(lǐng)域的數(shù)據(jù)來說較為局限,這可能會導(dǎo)致模型對其他領(lǐng)域的文本處理效果不佳。
2. 毒性和偏見
報(bào)告中提到,量化有害語言產(chǎn)生的可能性仍然是一個(gè)懸而未決的問題。盡管FinPile包含的公開偏見或有毒語言更少,降低了模型生成不適當(dāng)內(nèi)容的傾向,但毒性和偏見對金融領(lǐng)域影響不容小覷,微小的錯誤也可能帶來巨大的投資損失,只有保證BloombergGPT的準(zhǔn)確和真實(shí)性才能對市場進(jìn)行合理的預(yù)測從而被用戶使用。
彭博社表示在使用LLM前后都會做好風(fēng)控以保證生成內(nèi)容的安全性,同時(shí)將會繼續(xù)研究以實(shí)現(xiàn)最終遏制不適當(dāng)內(nèi)容的產(chǎn)生。
3. 開放性和可用性有限
除了參數(shù)和一般信息外,該研究論文中沒有提到模型權(quán)重等細(xì)節(jié)。同時(shí)文中表示,由于該模型基于數(shù)十年的彭博數(shù)據(jù),基于其信息的敏感性,以及考慮到模型被濫用的潛在危害,彭博社將不會公開發(fā)布BloombergGPT,這決定將顯著影響其對更廣泛的金融行業(yè)及其他行業(yè)的潛在好處和可及性。
4. 道德與隱私風(fēng)險(xiǎn)
同其他LLM一樣,隨著技術(shù)的發(fā)展帶來的諸如工作流離失所的可能性、數(shù)據(jù)隱私以及權(quán)力集中在少數(shù)大公司手中等問題需要謹(jǐn)慎應(yīng)對。要確保以負(fù)責(zé)任的方式開發(fā)技術(shù),以最大限度地發(fā)揮其效益并最大限度地減少其潛在危害。

04?BloombergGPT的應(yīng)用展望
報(bào)告表明,BloombergGPT將協(xié)助彭博改進(jìn)現(xiàn)有的金融NLP任務(wù),如市場情緒分析、命名實(shí)體識別(Named Entity Recognition,簡稱NER)、新聞分類和問題回答,同時(shí)將整合彭博終端上的海量數(shù)據(jù),釋放更多新機(jī)遇,以更好地幫助客戶,將人工智能蘊(yùn)藏的全部潛力帶到金融領(lǐng)域。
報(bào)告雖未對其的應(yīng)用做出太多的展開,但作為一個(gè)專門針對金融領(lǐng)域的LLM,依托彭博四十余年金融數(shù)據(jù)積累,其對投資者和金融從業(yè)人員在投研、投顧、營銷、客服、運(yùn)營、風(fēng)控等各類金融業(yè)務(wù)場景下都將具有廣泛的應(yīng)用和可觀的潛力。
(一) 在彭博終端提供更高質(zhì)量的信息與數(shù)據(jù)分析服務(wù)
1. 命名實(shí)體識別
從對該模型金融領(lǐng)域的評估中的外部金融任務(wù)(Public Financial Tasks)及Bloomberg金融任務(wù)探索性任務(wù)NER評估可以看出該模型識別和分類實(shí)體(例如公司名稱、股票代碼和金融工具)的能力優(yōu)異,該能力可以簡化數(shù)據(jù)提取和分析過程,從而為分析師和研究人員提供更高效的工作流程。
2. 市場情緒分析
從對該模型金融領(lǐng)域的評估中的Bloomberg金融任務(wù)(Bloomberg Financial Tasks)內(nèi)部任務(wù):情緒三分類評估可以看出,BloombergGPT對金融語言的深刻理解能夠使其能夠準(zhǔn)確衡量新聞文章、研究報(bào)告和社交媒體帖子中的情緒,可以幫助投資者和交易者根據(jù)市場情緒做出明智的決定。
3. 風(fēng)險(xiǎn)把控
在風(fēng)險(xiǎn)防控階段,BloombergGPT可以幫助評估投資組合中不同資產(chǎn)的風(fēng)險(xiǎn),并提供風(fēng)險(xiǎn)管理建議。在信息快速集成和分析的基礎(chǔ)上,可以快速給出風(fēng)險(xiǎn)提醒及風(fēng)險(xiǎn)管控意見,有效幫助投資者快速對風(fēng)險(xiǎn)事項(xiàng)進(jìn)行應(yīng)對。在風(fēng)險(xiǎn)應(yīng)對階段,可以快速識別和分析懷疑欺詐的數(shù)據(jù),并在接收到異常請求時(shí)進(jìn)行快速反應(yīng),以確保投資者在資金交易過程中的安全。

(二)為客戶提供更智能、高效、個(gè)性化的服務(wù)
1. 提高投資者決策效率
一方面,BloombergGPT可以及時(shí)獲取全球范圍內(nèi)的最新趨勢和動態(tài),智能高效的分析金融領(lǐng)域的文本及數(shù)據(jù),分析市場情緒,提取有價(jià)值的信息和洞察,同時(shí)利用歷史數(shù)據(jù)和市場趨勢,結(jié)合當(dāng)前市場形勢,預(yù)測未來的市場走勢和變化,幫助投資者和機(jī)構(gòu)把握市場機(jī)會。
另一方面,BloombergGPT在金融領(lǐng)域有更深入的數(shù)據(jù)分析和交易知識,在問答方面的熟練程度可以作為一個(gè)金融智能助理,理解復(fù)雜的查詢并以相關(guān)、準(zhǔn)確的信息做出響應(yīng),對投資者提出的問題進(jìn)行快速準(zhǔn)確的回答,為投資者提供各種金融相關(guān)的服務(wù)及協(xié)助投資者獲取其所需的金融相關(guān)知識,幫助投資者更快速地獲取所需信息和洞察以大大提升決策效率。
2. 提升投資者的客戶滿意度
首先,BloombergGPT可以根據(jù)投資者的投資偏好和風(fēng)險(xiǎn)偏好,為他們推送個(gè)性化的新聞?wù)⑻峁┒ㄖ苹耐顿Y建議及實(shí)時(shí)調(diào)整。
第二,BloombergGPT支持BQL生成,即使用自然語言完成Bloomberg數(shù)據(jù)庫查詢,類似NL2SQL,可以讓投資者在終端的使用更為便利。
第三,基于BloombergGPT依托的海量金融數(shù)據(jù)與案例,BloombergGPT還可以作為一個(gè)金融教育和培訓(xùn)的工具,根據(jù)投資者需求定制化提供各種金融相關(guān)的課程培訓(xùn)和案例講解,提升投資者金融素養(yǎng),進(jìn)一步提升投資者的用戶體驗(yàn)。
(三) 協(xié)助金融機(jī)構(gòu)提升工作效率與穩(wěn)定性
1. 協(xié)助金融機(jī)構(gòu)降本增效
從降本的層面,在金融機(jī)構(gòu)投研、研發(fā)編程、風(fēng)險(xiǎn)控制及流程管理等方面引入BloombergGPT減少基礎(chǔ)人員投入以控制金融機(jī)構(gòu)的成本。
從增效的層面,一方面,BloombergGPT可以根據(jù)給定的主題和語境,根據(jù)實(shí)時(shí)數(shù)據(jù)自動生成高質(zhì)量的金融和商業(yè)報(bào)告、新聞文章等文本內(nèi)容,同時(shí)能夠輔助金融機(jī)構(gòu)生成基礎(chǔ)的財(cái)務(wù)分析報(bào)告和招股書,輔助會計(jì)和審計(jì)方面的工作。
另一方面,BloombergGPT可以協(xié)助金融分析師快速高效地將復(fù)雜的財(cái)經(jīng)新聞文章提煉成簡潔的摘要,簡化分析財(cái)務(wù)信息的任務(wù),釋放專業(yè)人士的勞動力到更需要人工專業(yè)判斷的領(lǐng)域。
2. 提高金融機(jī)構(gòu)從業(yè)人員工作準(zhǔn)確度
一方面,協(xié)助金融從業(yè)人員對市場和客戶的情緒進(jìn)行分析,同時(shí)保證投資的紀(jì)律性避免在市場情緒的影響下做出非理性的判斷,以便做出正確的投資決策。
另一方面,通過使用數(shù)據(jù)和算法來確定執(zhí)行交易時(shí)的最佳時(shí)機(jī)和定價(jià),以減少人為錯誤,提高了投資效率和穩(wěn)定。