百度NLP十年布局:翻越認知智能高山,架起通往現(xiàn)實世界的橋
自然語言處理(NLP)是人工智能皇冠上的一顆明珠。
這樣的說法在人工智能領(lǐng)域流傳許久,現(xiàn)實中發(fā)生的卻是這樣一幕:計算機視覺、語音識別等領(lǐng)域紛紛跑出了多個獨角獸,沖刺IPO的消息也時常出現(xiàn)??勺鳛椤盎使谏系拿髦椤钡腘LP領(lǐng)域,卻難見獨角獸的影子,大多數(shù)創(chuàng)業(yè)者還停留在A輪或B輪融資。
NLP如何走出困局?
在NLP領(lǐng)域深耕十年,被稱作“中國NLP燈塔”的百度給出了切實的答案。8月25日舉行的百度大腦語言與知識技術(shù)峰會上,伴隨著一系列語言與知識產(chǎn)品的發(fā)布與升級,百度NLP的全景布局和鉆研了十幾年的核心技術(shù)一一亮相。

(百度CTO王海峰)
01 翻越認知智能的高山
把時間調(diào)回一個多月前的ACL 2020。
作為NLP領(lǐng)域最負盛名的國際頂會,ACL 2020收到了3429 篇論文投稿,其中被接收的779篇論文中有185 篇來自中國大陸,占比僅次于美國。距離2010年首次有中國科技企業(yè)的論文入選ACL,僅僅過去了10年時間。
除了論文數(shù)量的逐年增長,中國NLP學(xué)者的面孔也陸續(xù)在ACL上出現(xiàn)。
2013年,百度CTO王海峰成為ACL歷史上首位華人主席;2014 年,同樣來自百度的吳華出任 ACL 程序委員會主席;2015年,哈工大教育部語言語音重點實驗室主任李生教授獲得 ACL 終身成就獎;2016 年,百度的趙世奇當選 ACL 秘書長;2018年,ACL 宣布創(chuàng)建亞太區(qū)域分會,王海峰擔任創(chuàng)始主席;2020 年,百度組織了 ACL 大會上首場同聲傳譯研討會……
以百度為代表的中國力量在NLP的世界舞臺上不斷出彩,本身就是一種話語權(quán)的象征,而左右話語權(quán)的核心因素正是學(xué)術(shù)成就。

僅以百度為例,過去十年是百度NLP高速增長的十年,在NLP領(lǐng)域摘得了包括國家科技進步獎在內(nèi)的20多個獎項,在30多項國際競賽中奪得冠軍,累計發(fā)表的學(xué)術(shù)論文超過300篇,專利申請高達2000多項。
其中最具代表性的無疑就是百度的語義理解技術(shù)與平臺文心(ERNIE)。
2019年12月,基于ERNIE 2.0改進的模型在權(quán)威榜單GLUE上首次突破90大關(guān),超越人類基線3個點,獲得全球第一;3個月后的人工智能頂級會議AAAI 2020上,NLP預(yù)訓(xùn)練領(lǐng)域入選論文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被選為Oral展示;2020年的世界人工智能大會上,ERNIE有了中文名字“文心”,并一舉斬獲最高獎項SAIL獎(Super AI Leader,卓越人工智能引領(lǐng)者)。
學(xué)術(shù)上的一系列成就,意味著百度已經(jīng)站在了NLP研究的最前沿,成為中國NLP領(lǐng)域的領(lǐng)軍者,并與谷歌、微軟一道被視為“全球AI三巨頭”。

可對于百度來說,技術(shù)的價值絕不只是在象牙塔中“高光”,在NLP的學(xué)術(shù)領(lǐng)域走進殿堂的同時,也在循序推進應(yīng)用場景中的落地。
剛剛結(jié)束的百度大腦語言與知識技術(shù)峰會上,第一個重磅產(chǎn)品就是在NLP核心技術(shù)基礎(chǔ)上延展開發(fā)的文心ERNIE——語義理解技術(shù)與平臺,針對傳統(tǒng)NLP定制常見的成本高、耗時長、可迭代性差等短板,文心集成了優(yōu)秀的預(yù)訓(xùn)練模型、全面的NLP算法集、端到端開發(fā)套件和平臺化服務(wù),提供了一站式NLP開發(fā)與服務(wù)。
這或許就是百度給出的答案,想要推動NLP的產(chǎn)業(yè)應(yīng)用,僅僅在學(xué)術(shù)上站在山巔還不夠,需要的是幫助整個行業(yè)翻越認知智能的高山,以低門檻、低成本、高效率的平臺優(yōu)勢加速NLP的落地。
正如百度CTO王海峰所言,百度“致力于更好的與學(xué)術(shù)界、產(chǎn)業(yè)界攜手,推動語言與知識技術(shù)發(fā)展,進而推動人工智能技術(shù)持續(xù)進步,為產(chǎn)業(yè)持續(xù)升級、社會經(jīng)濟高質(zhì)量發(fā)展貢獻力量?!?/p>
02 走進行業(yè)應(yīng)用的深處
以往在談及NLP的應(yīng)用門檻時,最常見的回答有兩個:一是技術(shù)相對落后的硬傷,二是缺乏相對獨立的場景。
對于第一個問題,經(jīng)過大量真實應(yīng)用場景淬煉的文心ERNIE已經(jīng)給出了解決方案,全面降低了NLP的定制開發(fā)成本。

(百度集團副總裁吳甜)
引用百度集團副總裁吳甜分享的一組數(shù)據(jù):在數(shù)據(jù)標注方面,文心的語義理解能力可以降低90%的數(shù)據(jù)標注量;在算力方面,文心集成了ERNIE預(yù)訓(xùn)練模型,可以節(jié)省90%的算力;在開發(fā)時長方面,傳統(tǒng)的開發(fā)方式需要一周的工作量,開發(fā)者在文心上僅需配置或編寫少量代碼,可以減少85%模型開發(fā)時長,進而全面降低NLP定制開發(fā)的成本。
對于第二個問題,針對NLP落地應(yīng)用時的高頻場景,百度新發(fā)布或升級了一站式的場景化解決方案:
其一,面向企業(yè)文本場景的智能文檔分析平臺TextMind。
語義理解是NLP的基礎(chǔ),也是應(yīng)用場景最廣泛的服務(wù)。比如大多數(shù)企業(yè)的商業(yè)合同仍采用人工審核的方式,存在效率低下、漏查漏報等商業(yè)風(fēng)險,TextMind基于OCR、NLP等技術(shù),可以對20類文檔進行智能比對、解析、審核,與知識圖譜能力結(jié)合后能夠自動分析合同中隱含的法律風(fēng)險。

其二,面向媒體行業(yè)進行場景升級的智能創(chuàng)作平臺。
百度智能創(chuàng)作平臺上線至今,已經(jīng)自動創(chuàng)作了200多萬篇文章、超過15萬條短視頻、輔助創(chuàng)作的日均調(diào)用量超過35萬,累計落地20多家機構(gòu)媒體。同時圍繞策、采、編、審的媒體工作場景,百度推出智能策劃、智能采編、智能審校三大場景方案,幫助媒體降低創(chuàng)作成本,提升創(chuàng)作效率。
其三,面向交互場景升級的智能對話定制與服務(wù)平臺UNIT。
UNIT上線以來已經(jīng)服務(wù)了超過2.7萬開發(fā)者,支撐了超過10萬個智能對話應(yīng)用,積累的知識條目總量達到2.4億,與用戶進行了超過4200億次交互。全新升級后的UNIT進一步降低了任務(wù)式對話、智能問答的定制成本,其中數(shù)據(jù)標注成本降低了30%以上,并且融合了新一代對話引擎以提升交互體驗。
其四,面向翻譯場景全新發(fā)布的AI同傳會議解決方案。
AI同傳并不是什么陌生的概念,百度在2017年就推出了同傳系統(tǒng),衍生出了桌面助手、翻譯APP等產(chǎn)品。AI同傳會議解決方案主打的亮點是全場景、全流程,只需要一臺電腦和一部手機,就能迅速搭建出一套同傳服務(wù),不僅可以隨時對專業(yè)術(shù)語進行干預(yù),還能自動生成會議記錄。
值得一提的是,百度瞄準的四個場景分別對應(yīng)了NLP領(lǐng)域的理解、生成、對話、翻譯,這樣的設(shè)計絕非無意之舉。
過去十年的時間里,百度語言與知識技術(shù)培養(yǎng)吸引了大量的全球頂尖人才,推出了以王海峰為代表的百度NLP“十年十人”。這些頂尖大牛們的技術(shù)信仰和探索精神,既向外界展示了百度的技術(shù)硬實力,也讓外界看到了百度加速NLP走向行業(yè)深處的拳拳之心。
03 產(chǎn)業(yè)智能的百度方案
至于百度這般賦能NLP行業(yè)的原因,可以借鑒百度CTO王海峰的觀點:“在百度語言與知識技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個趨勢,即技術(shù)發(fā)展趨勢和產(chǎn)業(yè)發(fā)展趨勢,并力爭引領(lǐng)趨勢?!?/p>
對于技術(shù)趨勢的理解,可以借用這樣一個比方:感知智能是AI感知外部環(huán)境的能力,包括聽覺、視覺和觸覺,相當于人類的耳朵、眼睛和手;認知智能是AI理解、聯(lián)想、推理的能力,需要AI像人一樣思考并解決問題。
倘若AI的進化停留在感知智能,在認知智能層面停滯不前,終將無法擺脫上兩次人工智能浪潮的宿命。如何加速認知智能的越級?僅僅有仁人志士的奔走呼告還遠遠不夠,刺激一個行業(yè)走向繁榮的驅(qū)動力量還是誘人的商業(yè)前景。
某種程度上說,NLP領(lǐng)域并不缺少琳瑯滿目的技術(shù),諸如語義分析、情感分析、機器翻譯、知識圖譜等層出不窮,可大多只是一個引擎或者一個特定功能上的服務(wù)。
百度所做的正是擦去蒙在“明珠”上的灰塵,然后融合新基建、產(chǎn)業(yè)智能化的趨勢,將自身領(lǐng)先的NLP能力輸出給開發(fā)者與合作伙伴,并在不斷的創(chuàng)新和探索中找到了NLP規(guī)?;瘧?yīng)用的方法論:
首先是基礎(chǔ)技術(shù)的平臺化。NLP的算法和模型是典型的腦力勞動,結(jié)果就是在人才、資源和場景上占據(jù)優(yōu)勢的巨頭們有著絕對的話語權(quán)。從百度大腦的開放,到飛槳深度學(xué)習(xí)平臺的開源,再到文心ERNIE語義理解技術(shù)與平臺的上線,本質(zhì)上都是以平臺的形式對外賦能,降低整個行業(yè)的進入門檻和開發(fā)成本。
其次是核心能力的場景化。一些企業(yè)可能并不具備底層開發(fā)的能力,百度的對策是針對文本分析、對話系統(tǒng)、機器翻譯等高頻場景推出一體化的解決方案,開發(fā)者只需要進行簡單的配置或修改。畢竟NLP的難點在于落地時牽涉到深度學(xué)習(xí)、情感模型等等,場景化消除了不必要的開發(fā)環(huán)節(jié)和資源投入。
然后是細分應(yīng)用的產(chǎn)品化。對于智能搜索、智能推薦、智慧城市、智慧醫(yī)療等各行各業(yè)的應(yīng)用,百度的策略是與合作伙伴一道打造獨立的產(chǎn)品,以零門檻的形式提供服務(wù)。比如以API、插件、APP等模式對外服務(wù)的百度翻譯,目前已經(jīng)支持40多萬家第三方應(yīng)用,每天響應(yīng)超過千億字符的翻譯請求。
除此之外,為了解決NLP在模型魯棒性、可解釋性、跨模態(tài)語義理解等方面依然面臨的挑戰(zhàn),百度聯(lián)合中國計算機學(xué)會、中國中文信息學(xué)會共同發(fā)布了“千言”數(shù)據(jù)共建計劃。
同時百度技術(shù)委員會主席吳華發(fā)布了算力共享計劃,通過數(shù)據(jù)集的共建與算力的共享,繼而從語義理解、知識融合、跨模態(tài)融合等角度推動技術(shù)進步。
做一個總結(jié)的話,在NLP應(yīng)用落地的話題上,百度從來都不是一成不變的守舊者,而是根據(jù)行業(yè)現(xiàn)狀不斷變通,通過持續(xù)性的場景落地,逐步喚醒外界對NLP的價值認可。當整個行業(yè)都在重新審視NLP的時候,距離全面爆發(fā)已不再遙遠。
04 寫在最后
曾經(jīng)被問到百度NLP的理想和抱負是什么時,王海峰凝練了十二個字的回答:“理解語言,擁有智能,改變世界”。
如今再來思考這句話的內(nèi)涵,無疑有了更為準確的理解?!案淖兪澜纭钡膲粝腼@然不是算法改變世界那般狹隘,在新基建和產(chǎn)業(yè)智能化的浪潮下,百度已經(jīng)確定了平臺型AI的定位,風(fēng)光無限的NLP部門一面在學(xué)術(shù)上推動語言與知識技術(shù)發(fā)展,一面在應(yīng)用上幫助開發(fā)者們破除桎梏。
十年征程,百度NLP部門不僅在造一座燈塔,還在架一道技術(shù)通往現(xiàn)實世界的橋。