文心大模型踏上新征程:讀懂產(chǎn)業(yè)剛需,摸清落地路徑
作為深度學習領(lǐng)域最大規(guī)模的開發(fā)者盛會,Wave Summit深度學習開發(fā)者峰會已經(jīng)進入到第四個年頭。
和2019年首屆峰會時的情形做個對比的話,人工智能的產(chǎn)業(yè)應(yīng)用落地有著肉眼可見的進步:正在從部分場景滲透到千行百業(yè),由局部探索升級為全面落地,人工智能技術(shù)的通用性越來越強,不再是少數(shù)幾家科技巨頭的專屬,而是一步步向普惠AI演進,同時中國的產(chǎn)業(yè)智能化進程也從破局階段進入了深水區(qū)。
當一個行業(yè)進入“深水區(qū)”的時候,往往也伴隨著新的瓶頸:算力、算法、數(shù)據(jù)等要素應(yīng)如何滿足;人工智能技術(shù)如何快速下沉到碎片化的場景;百萬級的人才缺口如何填補……這些繁瑣且迫切的挑戰(zhàn)直接關(guān)系著AI產(chǎn)業(yè)化的成色。
2019年就錨定“工業(yè)大生產(chǎn)”的飛槳,自然也在思索上述問題的解法,并在Wave Summit 2022上給出了自己的思路。
01 被寄予厚望的“大模型”
自從GPT-3在人工智能研究領(lǐng)域“出圈”后,谷歌、微軟、英偉達、百度等科技巨頭迅速掀起了一場比拼資金和人才的“軍備競賽”。
OpenAI在2020年發(fā)布的NLP預(yù)訓練模型GPT-3,模型參數(shù)達到了1750億個;谷歌在2021年初發(fā)布的Switch Transformer,對外宣稱是萬億級的模型;微軟和英偉達在當年11月完成了5300億參數(shù)的MT-NLG,為此燒壞了4480塊CPU……
中國的科技企業(yè)同樣下場參戰(zhàn)。百度在2019年就開始深耕預(yù)訓練模型,當年3月發(fā)布了中國首個正式開放的預(yù)訓練模型ERNIE1.0,并在2021年12月聯(lián)合鵬城實驗室發(fā)布了全球首個知識增強的千億大模型——2600億參數(shù)規(guī)模的鵬城-百度·文心大模型。華為、阿里、浪潮等也紛紛發(fā)力大模型,平均的模型參數(shù)超過百億級。
為何科技巨頭們對預(yù)訓練大模型寄予厚望?其中的原因離不開預(yù)訓練技術(shù)的誘人前景:可以用自監(jiān)督學習的方法讓模型對海量無標注數(shù)據(jù)中的規(guī)律和知識進行提煉、學習,當面向任務(wù)和場景應(yīng)用時,只需要少量的任務(wù)標注數(shù)據(jù),就能通過持續(xù)微調(diào)得到在應(yīng)用場景中非常好用的模型。
預(yù)訓練大模型就像是找到了從“原油”中提煉“成品油”的方法。意味著開發(fā)者可以將天然存在的大量數(shù)據(jù)利用起來,擺脫了對精標數(shù)據(jù)的深度依賴,有望徹底解決應(yīng)用場景碎片化的困擾。
不過,“大模型”在落地過程中的痛點也很直接。
隨著“大模型”越變越大,對計算和存儲成本的消耗自然也越來越大;當大模型訓練好去使用時,模型太“大”會讓推理過程變得十分緩慢;倘若只是調(diào)整大模型中的一些參數(shù),下游任務(wù)的適配也是一件復(fù)雜的事。所以現(xiàn)階段很多科研機構(gòu)只是在訓練大模型,應(yīng)用卻處于非常低的水平。
但文心大模型讓外界看到了另一種可能:
某大型保險公司基于文心大模型中的文心ERNIE大模型的能力,實現(xiàn)了對保險合同中條款文本的自動解析識別,可以智能提取39個維度的關(guān)鍵信息,工作效率提升了30倍;化合物表征大模型文心HELIX-GEM被應(yīng)用于醫(yī)藥研發(fā),可以一次性預(yù)測50多種藥物代謝動力學相關(guān)的指標,且綜合效果超過其他機器學習方法4%以上;基于文心ERNIE的搜索召回和排序大模型上線后,為百度的搜索召回模塊帶來了3.96%的效果提升,排序模塊帶來了6.00%的效果提升……
02 業(yè)界首發(fā)行業(yè)大模型
對于文心大模型在“實用性”方面遠超同類產(chǎn)品的秘密,飛槳在Wave Summit 2022深度學習開發(fā)者峰會上公布了答案。
按照百度集團副總裁、深度學習技術(shù)及應(yīng)用國家工程研究中心副主任吳甜的說法,大模型技術(shù)與真實場景需求的有效匹配是落地要解決的關(guān)鍵問題,并給出支撐大模型產(chǎn)業(yè)落地的三個關(guān)鍵路徑:建設(shè)更適配場景需求的大模型體系,提供全流程支持應(yīng)用落地的工具和方法,營造激發(fā)創(chuàng)新的開放生態(tài)。
大模型體系涵蓋基礎(chǔ)大模型、任務(wù)大模型和行業(yè)大模型。飛槳在Wave Summit 2022深度學習開發(fā)者峰會上一口氣發(fā)布了10個大模型,再次刷新了文心全景圖,模型體系格局初現(xiàn)。
其中的焦點莫過于業(yè)內(nèi)首發(fā)的行業(yè)大模型,核心特色是“行業(yè)知識增強”,即基于通用數(shù)據(jù)訓練的文心大模型,加上挖掘行業(yè)應(yīng)用場景中,大量存在的行業(yè)特有大數(shù)據(jù)和知識,進一步提升大模型對行業(yè)應(yīng)用的適配性。
在能源電力行業(yè),百度和國家電網(wǎng)探索出了行業(yè)大模型機制?;谕ㄓ玫奈男拇竽P停俣仍诤A繑?shù)據(jù)中挖掘了電力行業(yè)數(shù)據(jù),引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識,并且在訓練中結(jié)合雙方在預(yù)訓練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗,設(shè)計了電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預(yù)訓練任務(wù),讓文心大模型深入學習電力專業(yè)知識,打造出了國網(wǎng)-百度.文心大模型。
相似的思路被應(yīng)用在金融領(lǐng)域,百度和浦發(fā)銀行聯(lián)合研發(fā)了金融行業(yè)大模型——浦發(fā)-百度.文心大模型。基于文心大模型進行行業(yè)數(shù)據(jù)挖掘,結(jié)合浦發(fā)場景積累的行業(yè)數(shù)據(jù)與知識,雙方技術(shù)和業(yè)務(wù)專家一起設(shè)計了針對性的財報領(lǐng)域判別、金融客服問答匹配等預(yù)訓練任務(wù),讓文心大模型學習到金融行業(yè)的知識,并在浦發(fā)典型任務(wù)應(yīng)用效果顯著提升。
不夸張地說,文心大模型與伙伴聯(lián)合探索出的行業(yè)大模型方法,讓大模型向行業(yè)場景走進了一大步。
工具和平臺包括多種數(shù)據(jù)預(yù)處理工具、多樣化的精調(diào)工具、高性能的部署方案、豐富的預(yù)制任務(wù)構(gòu)成的大模型套件,大模型API服務(wù)和面向不同能力開發(fā)者的EasyDL和BML開發(fā)平臺。目前EasyDL和BML上有超過1萬名開發(fā)者基于文心大模型開發(fā),創(chuàng)建了超過3萬個任務(wù),應(yīng)用到輸電通路巡檢、零部件瑕疵檢測、農(nóng)業(yè)病蟲害識別等場景中。
同時為了進一步拉近大模型和開發(fā)者的距離,飛槳上線了基于文心大模型的旸谷大模型創(chuàng)意與探索社區(qū),試圖讓用戶零距離感受文心大模型的魅力和應(yīng)用創(chuàng)新潛力。《淮南子》一書中將“旸谷”解釋為“日出的地方”,或許也承載了百度對于大模型的寄托,大模型的價值不在于有多少量級的模型參數(shù),在于能否讓開發(fā)者方便地將智能化能力帶到千行百業(yè)。
如果說文心大模型的三個關(guān)鍵路徑掃清了大模型的落地障礙,讓路徑得以跑通并規(guī)?;?wù)工業(yè)大生產(chǎn)的力量,還要歸功于飛槳的訓練推理一體化技術(shù)。
在訓練層面,飛槳自主研發(fā)了端到端自適應(yīng)分布式架構(gòu),既包含了并行訓練策略的創(chuàng)新,也包含針對異構(gòu)硬件的自適應(yīng)并行訓練支持,打造了框架與算力、算法相結(jié)合三位一體的大模型訓練解決方案,實現(xiàn)了端到端的極致性能優(yōu)化;在推理層面,飛槳推出了針對大模型的壓縮、推理、服務(wù)化全流程部署方案,擁有業(yè)內(nèi)領(lǐng)先性能,并已支撐自然語言理解、對話、跨模態(tài)生成等各類大模型的在線應(yīng)用。
做一個總結(jié)的話,文心大模型所考量的不單單是大模型的優(yōu)良特性,還在打通規(guī)模化部署的最后一公里,讓強大的AI能力走出實驗室、走進場景中。
03 “護航”中國產(chǎn)業(yè)智能化
飛槳圍繞文心大模型產(chǎn)業(yè)級應(yīng)用的探索,似乎并不讓人感到意外,甚至說是一種可以預(yù)見的必然結(jié)果。
2019年的首屆Wave Summit深度學習開發(fā)者峰會上,百度CTO王海峰博士就前瞻性地提出“深度學習正在推動人工智能進入工業(yè)大生產(chǎn)階段”,并確立了飛槳“源于產(chǎn)業(yè)實踐,服務(wù)于產(chǎn)業(yè)應(yīng)用”的建設(shè)思路。
三年時間里,這一觀點已經(jīng)在飛槳的實踐中得到驗證。百度CTO、深度學習技術(shù)及應(yīng)用國家工程研究中心主任在王海峰Wave Summit 2022上介紹,在AI工業(yè)大生產(chǎn)階段,深度學習技術(shù)的通用性越來越強、深度學習平臺的標準化、自動化和模塊化特征越來越顯著、深度學習應(yīng)用越來越廣泛且深入,已經(jīng)遍地開花。
文心大模型折射出的僅僅是飛槳“護航”產(chǎn)業(yè)智能化的一個側(cè)面,為了降低人工智能的產(chǎn)業(yè)應(yīng)用門檻,飛槳在技術(shù)、場景、生態(tài)上的深化遠不止于此。
比如在技術(shù)維度上,飛槳在V2.3的版本中升級了定制開發(fā)、高性能訓練、自動化壓縮、高性能推理等核心能力。
為了滿足高階開發(fā)者的深度定制開發(fā)需求,飛槳推出了高復(fù)用性算子庫,典型算子內(nèi)核的代碼量降低到了行業(yè)內(nèi)的領(lǐng)先水平;通過對通用異構(gòu)參數(shù)服務(wù)器架構(gòu)升級,適配新硬件代碼量從萬行減少到了千行。同時針對開發(fā)者性能調(diào)優(yōu)的困難,推出了業(yè)內(nèi)首個全流程性能自動調(diào)優(yōu)方案,實現(xiàn)了關(guān)鍵環(huán)節(jié)感知硬件特性自動調(diào)優(yōu)。
而在模型的推理部署方面,飛槳推出了業(yè)內(nèi)首個自動化壓縮功能,通過蒸餾微調(diào)解除了對模型訓練代碼的依賴,可以自動選擇最優(yōu)的壓縮方案;特別是對于多算力中心數(shù)據(jù)、算力共享的場景,飛槳推出了業(yè)內(nèi)首個異構(gòu)多云自適應(yīng)分布式訓練架構(gòu),幫助客戶利用多個算力中心聯(lián)合訓練進行算力共享和知識共享。
比如在場景維度上,飛槳深入結(jié)合場景需要發(fā)布了訓推一體導(dǎo)航圖、產(chǎn)業(yè)模型選型工具、飛槳移動工作站,為AI應(yīng)用落地提供了“快速直達目的地的智能導(dǎo)航”和一站式便攜方案;發(fā)布PaddleScience賽槳,促進了數(shù)據(jù)驅(qū)動和理論推演兩大科研范式的深度融合,加速前沿技術(shù)創(chuàng)新和應(yīng)用落地;以及深度學習實踐教輔書,助力AI人才的培養(yǎng)。
站在開發(fā)者的視角上,飛槳在場景落地方面不可謂不貼心:可以利用訓推一體導(dǎo)航圖,實現(xiàn)開發(fā)、訓練到推理部署的全流程智能導(dǎo)航;可以根據(jù)產(chǎn)業(yè)模型選型工具的推薦選擇模型,配合使用產(chǎn)業(yè)實踐范例,照著流程實施就能進行模型落地;飛槳的產(chǎn)業(yè)級開源算法已經(jīng)超過500個,其中被譽為“神器”的PP系列模型已經(jīng)從13個增加到23個,由于PP系列模型對精度和速度的平衡做到了極致,可以省去大量的人力開發(fā)成本……
再比如飛槳大航海2.0新增了面向三個領(lǐng)域的共創(chuàng)計劃,包括飛槳產(chǎn)業(yè)實踐范例庫、飛槳AI for Science,以及飛槳硬件生態(tài)共創(chuàng)計劃。
值得一提的是,飛槳和硬件伙伴的合作也在逐漸深入。2020年“共聚”,飛槳與13家硬件伙伴聯(lián)合發(fā)起了飛槳硬件生態(tài)圈,促進AI產(chǎn)業(yè)鏈的適配升級;2021年“共研”,飛槳與硬件伙伴軟硬一體聯(lián)合優(yōu)化,適配飛槳的芯片/IP超過30種。有理由相信,隨著飛槳與合作伙伴在廠商版飛槳框架、建設(shè)模型庫、開發(fā)課程等方面的通力合作,將更好地服務(wù)開發(fā)者。
隱藏在這些新動作背后的,恰恰是飛槳對中國產(chǎn)業(yè)剛需的深刻洞察,既在解決人工智能在應(yīng)用時的一系列棘手問題,也為千行百業(yè)的智能化升級指明了方向,中國的產(chǎn)業(yè)界正在進入“普惠AI”的時代。
04 寫在最后
每一次工業(yè)革命的爆發(fā),都離不開通用性技術(shù)的普及。
人工智能是否是第四次工業(yè)革命的通用性技術(shù)?至少在飛槳的示范下,答案已經(jīng)越來越確定。無論是大模型的產(chǎn)業(yè)化落地,還是深度學習框架本身的朝著產(chǎn)業(yè)級、低門檻的持續(xù)演變,都詮釋了人工智能作為通用性技術(shù)的潛力。
飛槳的征程還在繼續(xù),但智能化的未來已經(jīng)觸手可及。