通用信息抽取技術(shù)UIE產(chǎn)業(yè)案例解析,Prompt范式落地經(jīng)驗分享!
想了解用戶的評價究竟是“真心夸贊”還是“陰陽怪氣”?
想快速從多角色多事件的繁雜信息中剝繭抽絲提取核心內(nèi)容?
想通過聚合相似事件準確地歸納出特征標簽?
……
想了解UIE技術(shù)在產(chǎn)業(yè)中的實戰(zhàn)落地經(jīng)驗?通用信息抽取技術(shù)UIE產(chǎn)業(yè)案例分享來了!
? ? ? ?近期Prompt范式備受關(guān)注。實際上,Prompt思想在產(chǎn)業(yè)界已經(jīng)有了一些成功的應(yīng)用案例。由中科院軟件所和百度共同提出了大一統(tǒng)諸多任務(wù)的通用信息抽取技術(shù)UIE(Universal Information Extraction)?;赑rompt思想,將希望抽取的 Schema 信息轉(zhuǎn)換成“線索詞”(Schema-based Prompt)作為模型輸入的前綴,使得模型理論上能夠適應(yīng)不同領(lǐng)域和任務(wù)的Schema信息,并按需抽取出線索詞指向的結(jié)果,從而實現(xiàn)開放域環(huán)境下的通用信息抽取。在實體、關(guān)系、事件和情感等4個信息抽取任務(wù)、13個數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下,UIE均取得了SOTA性能[1]。
? ? ? ?截止目前,UIE系列模型已發(fā)布UIE、UIE-X、UIE-senta三大模型,憑借其強大的零樣本與小樣本能力、多任務(wù)統(tǒng)一建模能力,成為業(yè)界在信息抽取、情感分析等任務(wù)上的首選方案。
2022年5月,飛槳自然語言處理模型庫PaddleNLP結(jié)合文心大模型中的知識增強NLP大模型ERNIE 3.0 ,發(fā)揮UIE在中文任務(wù)上的強大潛力,推出首個面向通用信息抽取的產(chǎn)業(yè)級技術(shù)方案[2]?。
2022年11月,UIE新增文檔信息抽取能力——UIE-X[3],OCR、版面分析、跨模態(tài)文檔信息抽取能力一應(yīng)俱全。UIE-X基于文心ERNIE-Layout[4]跨模態(tài)布局增強預(yù)訓(xùn)練模型,集成了PaddleOCR[5]的PP-OCR、PP-Structure版面分析等領(lǐng)先能力。
2022年12月,PaddleNLP以UIE為訓(xùn)練底座,在大量情感分析數(shù)據(jù)集上進一步訓(xùn)練,增強了模型對于情感知識的處理能力,推出基于UIE的情感分析方案(下表簡寫UIE-senta)[6],覆蓋句子級情感極性分類、屬性抽取、觀點抽取、屬性級情感極性分類等多項情感任務(wù),且解決了屬性聚合和隱性觀點抽取難題,并提供情感分析結(jié)果可視化能力。

? ? ? ?來自云南能投財務(wù)服務(wù)有限公司和黑蟻資本的兩位講師將帶來精彩課程,解析UIE技術(shù)在多領(lǐng)域的應(yīng)用場景,分享落地實戰(zhàn)經(jīng)驗。
? ? ? ?2月28日、3月1日,飛槳直播間、B站直播間,兩場連播,不見不散!

01 課程介紹
2月28日
課程名稱
【金融】復(fù)雜單據(jù)信息抽取——財務(wù)系統(tǒng)智能化主講人
鐘榆星 | 云南能投財務(wù)服務(wù)有限公司
課程內(nèi)容
? ? ? ?財務(wù)管理是企業(yè)管理的重要組成部分,財務(wù)人員常常需要將業(yè)務(wù)單據(jù)表格中的數(shù)據(jù)通過人工填制到財務(wù)系統(tǒng)里,這往往費時費力,且容易產(chǎn)生錯誤。云南能投財務(wù)服務(wù)有限公司(以下簡稱云南能投),成立于2020年4月,是云南省能源投資集團有限公司全資子公司。為有效支撐集團財務(wù)管控落地執(zhí)行,起到支持集團國際化發(fā)展、戰(zhàn)略決策的作用,云南能投技術(shù)支持部利用PaddleNLP提供的文檔信息抽取全流程解決方案,開發(fā)了基于UIE-X的表格信息抽取方案,實現(xiàn)復(fù)雜結(jié)構(gòu)表格的關(guān)系型抽取,幫助業(yè)務(wù)、財務(wù)將常用表格快速導(dǎo)入業(yè)務(wù)系統(tǒng),取代人工手錄,高效推動了財務(wù)共享智能提單業(yè)務(wù)的快速落地。

3月1日
課程名稱
【零售】客戶意見洞察促進消費品牌經(jīng)營轉(zhuǎn)型主講人
Jeru | 黑蟻資本
課程內(nèi)容
? ? ? ?黑蟻資本,是一家深耕消費領(lǐng)域投資的企業(yè),成立之初就決心讓“投后服務(wù)”成為機構(gòu)的核心能力之一,而“數(shù)字化”正是黑蟻服務(wù)被投企業(yè)的重要內(nèi)容。隨著餐飲行業(yè)進入線上線下、堂食外賣并重的“雙主場”時代,面對鋪天蓋地的用戶評論數(shù)據(jù),如何用數(shù)字化手段優(yōu)化經(jīng)營成為餐飲企業(yè)降本增效的關(guān)鍵。為了幫助被投企業(yè)提升評價數(shù)據(jù)的處理效率,黑蟻投后數(shù)字化團隊基于UIE開發(fā)了用戶評論洞察系統(tǒng),幫助品牌高效深入了解用戶反饋,自動抽取出高價值信息,實現(xiàn)量化統(tǒng)計分析,從而降低經(jīng)營成本,優(yōu)化產(chǎn)品和服務(wù),提升市場競爭力。

02?技術(shù)拓展——文心大模型
? ? ? ?隨著數(shù)據(jù)井噴、算法進步和算力突破,效果好、泛化能力強、通用性強的預(yù)訓(xùn)練大模型(以下簡稱“大模型”),成為人工智能發(fā)展的關(guān)鍵方向與人工智能產(chǎn)業(yè)應(yīng)用的基礎(chǔ)底座。
? ? ? ?文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),是產(chǎn)業(yè)級知識增強大模型,涵蓋基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型,大模型總量達36個,并構(gòu)建了業(yè)界規(guī)模最大的產(chǎn)業(yè)大模型體系。文心大模型配套了豐富的工具與平臺層,包括大模型開發(fā)套件、API以及內(nèi)置文心大模型能力的EasyDL和BML開發(fā)平臺。百度通過大模型與國產(chǎn)深度學(xué)習(xí)框架融合發(fā)展,打造了自主創(chuàng)新的AI底座,大幅降低了AI開發(fā)和應(yīng)用的門檻,滿足真實場景中的應(yīng)用需求,真正發(fā)揮大模型驅(qū)動AI規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價值。

? ? ? ?從技術(shù)研發(fā)到落地應(yīng)用,大模型的發(fā)展已經(jīng)進入產(chǎn)業(yè)落地的關(guān)鍵期,歡迎前往文心大模型官網(wǎng)了解詳情。
文心大模型官網(wǎng):https://wenxin.baidu.com/

相關(guān)項目
PaddleNLP GitHub地址
https://github.com/PaddlePaddle/PaddleNLP
PaddleNLP Gitee地址
https://gitee.com/paddlepaddle/PaddleNLP
參考
[1]Unified Structure Generation for Universal Information Extraction
[2]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
[3]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction
[4]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout
[5]https://github.com/PaddlePaddle/PaddleOCR[6]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis