這,就是大模型時(shí)代的生產(chǎn)力!
文心與飛槳,向我們展示了領(lǐng)先大模型的生產(chǎn)力。
大模型應(yīng)用卷到了什么地步?幾天前,我們看到的還是寫文章、畫圖、回答數(shù)學(xué)問題,現(xiàn)在已經(jīng)有人這么用了:

如果把一長段對(duì)話轉(zhuǎn)發(fā)到別的群聊里,AI 可以自動(dòng)生成總結(jié)。

拿到數(shù)據(jù)后,直接進(jìn)行有理有據(jù)還配圖的分析。
從市場分析、品牌構(gòu)建、到輸出視頻廣告,全部流程只需和 AI 進(jìn)行簡單對(duì)話就能完成。
這是剛剛結(jié)束的 WAVE SUMMIT 大會(huì)上,百度展示的文心大模型、飛槳平臺(tái)、AI 原生應(yīng)用如流等一系列技術(shù)、產(chǎn)品及生態(tài)成果。
最近一段時(shí)間,大語言模型取得了令人震撼的技術(shù)突破。以大語言模型為代表的人工智能正在深入千行百業(yè),加速產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)增長。百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主任王海峰表示,大語言模型具備了理解、生成、邏輯、記憶等人工智能的核心基礎(chǔ)能力,為通用人工智能帶來曙光。
王海峰進(jìn)一步表示,人工智能具有多種典型能力,理解、生成、邏輯、記憶是其中的核心基礎(chǔ)能力,這四項(xiàng)能力越強(qiáng),越接近通用人工智能。

面對(duì)人工智能的這次重要變革,飛槳和文心大模型這兩個(gè)百度核心技術(shù)拿出了一系列領(lǐng)先的發(fā)布。
文心大模型:遙遙領(lǐng)先
國內(nèi)的 AI 領(lǐng)域中,百度一直走在技術(shù)的前沿,最早可以追溯到 2019 年 3 月發(fā)布的 ERNIE 1.0。今年 3 月,百度又率先揭幕了自研知識(shí)增強(qiáng)大語言模型「文心一言」,其經(jīng)過數(shù)萬億數(shù)據(jù)、千億知識(shí)的訓(xùn)練,并采用了有監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)和提示等技術(shù),具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)等技術(shù)優(yōu)勢。
文心大模型的最新版本是前不久發(fā)布的 3.5 版。百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任吳甜表示,文心一言熟練掌握的創(chuàng)作體裁超過 200 種,涵蓋了幾乎所有寫作需求,內(nèi)容豐富度是初期的 1.6 倍、思維鏈長度是初期的 2.1 倍,知識(shí)點(diǎn)覆蓋是初期的 8.3 倍。

新版本中,文心大模型進(jìn)一步在基礎(chǔ)模型、知識(shí)增強(qiáng)、檢索增強(qiáng)等核心技術(shù)上進(jìn)行創(chuàng)新,實(shí)現(xiàn)了基礎(chǔ)模型、精調(diào)技術(shù)、知識(shí)點(diǎn)增強(qiáng)、邏輯推理、插件機(jī)制等方面的改進(jìn)。
其中在知識(shí)和檢索增強(qiáng)基礎(chǔ)上,文心大模型 3.5 提出「知識(shí)點(diǎn)增強(qiáng)技術(shù)」,讓模型能夠更好地利用精細(xì)的知識(shí)點(diǎn)來提升理解生成能力,提升了對(duì)世界知識(shí)的掌握和運(yùn)用。
推理方面,通過大規(guī)模邏輯數(shù)據(jù)構(gòu)建、邏輯知識(shí)建模、多粒度語義知識(shí)組合以及符號(hào)神經(jīng)網(wǎng)絡(luò)技術(shù),文心大模型提升了邏輯推理、數(shù)學(xué)計(jì)算及代碼生成等任務(wù)上的表現(xiàn)。
能給我們帶來更明顯感知的是插件。我們知道,在實(shí)際應(yīng)用時(shí)大模型有時(shí)會(huì)面臨數(shù)據(jù)有限,能力不夠?qū)>膯栴}。在 3.5 版本上,文心大模型新增了插件機(jī)制,已上線的官方插件有百度搜索、覽卷文檔、一鏡流影、說圖解畫、E 言易圖。其中:
百度搜索是默認(rèn)插件,讓文心一言具備了獲得實(shí)時(shí)準(zhǔn)確信息的能力。
覽卷文檔借助文檔智能模型及搜索系統(tǒng)可實(shí)現(xiàn)對(duì)文檔的格式、布局等信息的充分理解及定位,突破了大模型對(duì)文檔長度理解的限制。現(xiàn)在我們能利用文心與文檔進(jìn)行「對(duì)話」,解決針對(duì)文檔的摘要、問答及創(chuàng)作的需求。
一鏡流影依托文心跨模態(tài)大模型,突破了不同模態(tài)之間語義對(duì)齊等技術(shù)難題,創(chuàng)新融合文本、視覺、語音、跨模態(tài)等一系列技術(shù)能力,用戶僅需簡單輸入文字,即可在 1 分鐘內(nèi)獲得完整視頻。
說圖解畫接入文心跨模態(tài)大模型,實(shí)現(xiàn)了圖片理解的能力,不僅可以讓 AI「看圖說話」、還可深入理解圖片氛圍和情感。用戶上傳上傳圖片即可滿足隨拍發(fā)文、電商配文等圖片配文需求,也以幫你激發(fā)靈感。
E言易圖則實(shí)現(xiàn)了將文字需求轉(zhuǎn)化為可視化圖表的需求。僅需簡單的數(shù)據(jù)圖表需求,或輸入待生成圖標(biāo)的數(shù)據(jù)內(nèi)容,即可生成可交互圖表,協(xié)助用戶完成數(shù)據(jù)分析、洞察及圖表信息的交互演示。據(jù)了解,E 言易圖已支持7類圖表的生成,包括數(shù)據(jù)圖、餅狀圖、折線圖、雷達(dá)圖、漏斗圖、思維導(dǎo)圖、散點(diǎn)圖。
在現(xiàn)場,吳甜演示了文心一言應(yīng)用插件的方式,在和 AI 對(duì)話的過程中,現(xiàn)在你已可以讓大模型進(jìn)行總結(jié)長文內(nèi)容,圖表展示數(shù)據(jù),讀取圖像、生成文案,甚至還能合成帶語音的視頻。文心一言只花了 5 分鐘,就完成了從行業(yè)調(diào)研、品牌分析選擇到生成宣傳視頻,這樣一個(gè)完整場景的工作。
插件進(jìn)一步擴(kuò)展了大模型的能力邊界,對(duì)于文心大模型生態(tài)也至關(guān)重要。百度表示,文心一言還將上線更多優(yōu)質(zhì)官方和第三方插件,同時(shí)逐步開放插件生態(tài),幫助開發(fā)者基于文心大模型打造 AI 原生應(yīng)用。
為實(shí)現(xiàn)這一目標(biāo),百度依托于「文心一言」的核心技術(shù),提供了插件開發(fā)工具集,可以支持信息服務(wù)類、工具類、以及基于大語言模型創(chuàng)新類等多類型的插件開發(fā)。開發(fā)完成后,還可以通過插件接入平臺(tái)和應(yīng)用層生態(tài)進(jìn)行緊密結(jié)合。

插件能力正式啟動(dòng)邀測:yiyan.baidu.com/developer
與此同時(shí),飛槳 AI Studio(星河社區(qū))最新升級(jí),正式推出星河大模型社區(qū),在星河大模型社區(qū),開發(fā)者可以獲得一體化大模型開發(fā)體驗(yàn)。目前,星河大模型社區(qū)已積累超 300 個(gè)大模型創(chuàng)意應(yīng)用,社區(qū)還提供了豐富的功能方便開發(fā)者進(jìn)行交流。
會(huì)上,百度還最新發(fā)布了文心大模型「星河」共創(chuàng)計(jì)劃,將以豐富的大模型資源、多層次的產(chǎn)業(yè)生態(tài)資源,攜手廣大開發(fā)者和生態(tài)伙伴們,激活數(shù)據(jù)資源價(jià)值,共建大模型插件,廣泛創(chuàng)新 AI 應(yīng)用。
飛槳開源框架 v2.5,擁抱大模型
文心大模型之所以能顛覆生產(chǎn)力,除了因?yàn)?AI 算法層面創(chuàng)新,也離不開深度學(xué)習(xí)框架的優(yōu)化。
百度在人工智能領(lǐng)域是為數(shù)不多有全棧布局的公司,能力覆蓋從芯片到應(yīng)用。在框架層面上,飛槳深度學(xué)習(xí)平臺(tái)向上支撐大模型生產(chǎn),提高模型部署效率和靈活性,向下則適配各類硬件,提高硬件適配效率和降低成本。
今天的 WAVE SUMMIT 上,飛槳開源框架正式發(fā)布 2.5 版,完成了全面的架構(gòu)升級(jí),同時(shí)在大模型訓(xùn)練、推理和多硬件適配方面帶來了新的功能。
其中的重點(diǎn),就是與文心大模型做了聯(lián)合優(yōu)化。
通過飛槳深度學(xué)習(xí)框架在大模型訓(xùn)練、推理、硬件適配等方面的一系列新技術(shù),文心大模型的訓(xùn)練推理效率得到了大幅提升?,F(xiàn)場給出一組數(shù)字:通過協(xié)同優(yōu)化,文心大模型 3.5 的訓(xùn)練速度是優(yōu)化前的 3 倍,推理速度更是快了 30 多倍。
其中在大模型訓(xùn)練方面,飛槳與文心在硬件集群上進(jìn)行協(xié)同優(yōu)化,提升了有效訓(xùn)練時(shí)間占比,芯片層面上進(jìn)行了芯片、存儲(chǔ)、網(wǎng)絡(luò)協(xié)同優(yōu)化,提升訓(xùn)練吞吐速度。

而在軟件上,飛槳與模型算法協(xié)同優(yōu)化提高了模型收斂的效率。特別是在大模型訓(xùn)練中,優(yōu)化的收斂效率和穩(wěn)定性大幅度減少了訓(xùn)練時(shí)間,達(dá)到了事半功倍的效果。
很多科技公司都在對(duì)大模型的訓(xùn)練進(jìn)行優(yōu)化,而在推理上,我們面臨著更大、更嚴(yán)峻的挑戰(zhàn)。李彥宏曾表示:「當(dāng)別人剛剛開始思考如何進(jìn)行訓(xùn)練的時(shí)候,我們已經(jīng)在推理上沖出了很遠(yuǎn)?!?/p>
在大模型推理方面,飛槳從模型壓縮、推理引擎、服務(wù)部署三個(gè)關(guān)鍵環(huán)節(jié),開展了全方位的協(xié)同優(yōu)化。

除了采取了自適應(yīng) Shift-SmoothQuant 壓縮算法、結(jié)合場景的混合量化推理方案、動(dòng)態(tài)插入批處理技術(shù)等,飛槳還持續(xù)結(jié)合算子融合加速、變長輸入處理加速等方法,讓文心大模型推理速度達(dá)到優(yōu)化前的 30 多倍。
為了更好的支撐大模型生產(chǎn)與應(yīng)用,飛槳的大模型套件打通了整個(gè)流程,圍繞大模型開發(fā)、訓(xùn)練、精調(diào)、壓縮、推理、部署的六個(gè)階段全流程進(jìn)行了升級(jí),降低了大模型開發(fā)和應(yīng)用成本。
飛槳框架對(duì)于算大模型的優(yōu)化,也離不開軟硬件協(xié)同能力的不斷提升。飛槳為文心大模型在各類硬件上的部署提供了統(tǒng)一方案,還推動(dòng)建設(shè)了軟硬件適配的國家標(biāo)準(zhǔn)。
此前,由中國電子技術(shù)標(biāo)準(zhǔn)化研究院牽頭,百度、曙光、飛騰、浪潮一起聯(lián)合起草了國家標(biāo)準(zhǔn)《人工智能 深度學(xué)習(xí)框架多硬件平臺(tái)適配技術(shù)規(guī)范》?;谠摌?biāo)準(zhǔn),飛槳與 30 多家硬件廠商開展軟硬協(xié)同深度優(yōu)化,大大提升了軟硬件適配的效率。

在此之上,文心大模型與英偉達(dá)、寒武紀(jì)、華為等 12 家硬件伙伴開展了適配,覆蓋了云和端側(cè)多種硬件類型。目前已有 25 家硬件伙伴共建 AI Studio 硬件生態(tài)專區(qū),為 AI Studio 大模型社區(qū)引入多元生態(tài)算力,支持開發(fā)者基于 AI Studio 的大模型開發(fā)及多樣應(yīng)用體驗(yàn)。
在基礎(chǔ)層面上,飛槳也完成了重要升級(jí)。通過建設(shè)基礎(chǔ)算子體系和組合算子機(jī)制,飛槳將神經(jīng)網(wǎng)絡(luò)編譯器 CINN 更好地與主框架融合打通,借助其通用編譯優(yōu)化能力,實(shí)現(xiàn)了更加通用的性能優(yōu)化。往上看,基礎(chǔ)框架的自動(dòng)微分也更加完善,實(shí)現(xiàn)了動(dòng)靜統(tǒng)一的高階自動(dòng)微分開發(fā)接口,可以更低成本實(shí)現(xiàn)高階自動(dòng)微分能力。

馬艷軍表示,使用飛槳編譯器,可以獲得相比其他業(yè)內(nèi)主流框架更好的性能。
基于飛槳框架的能力升級(jí),特別是高階自動(dòng)微分能力,飛槳開源平臺(tái)已發(fā)布賽槳 PaddleScience、螺旋槳 PaddleHelix、量槳 Paddle Quantum 等開源 AI for Science 工具,支持復(fù)雜外形障礙物繞流、結(jié)構(gòu)應(yīng)力應(yīng)變分析、材料分子模擬等豐富領(lǐng)域算例,廣泛支持 AI + 計(jì)算流體力學(xué)、生物計(jì)算、量子計(jì)算等前沿方向的科研和產(chǎn)業(yè)應(yīng)用。

經(jīng)由基礎(chǔ)框架的兩大升級(jí),飛槳全新的訓(xùn)練架構(gòu)已初步成型,不僅保持了動(dòng)靜統(tǒng)一、一行代碼動(dòng)轉(zhuǎn)靜訓(xùn)練部署的優(yōu)勢,而且通過編譯器技術(shù)進(jìn)一步降低了模型性能優(yōu)化的邊際成本。
在解決了大模型開發(fā)和部署過程中的各類問題之后,飛槳平臺(tái)現(xiàn)在做到了讓 AI 模型的研發(fā)門檻更低、效果更好、流程更加標(biāo)準(zhǔn)化。
顛覆生產(chǎn)力
大會(huì)上,百度展現(xiàn)了大語言模型與智能工作的結(jié)合,重塑了人們工作的范式。
文心一言的能力已通過智能工作平臺(tái)「如流」應(yīng)用在百度內(nèi)部的工作流程中?,F(xiàn)場,百度集團(tuán)副總裁、百度集團(tuán)首席信息官李瑩重磅發(fā)布如流「超級(jí)助理」。

它可以解決你工作中的大部分問題。在大會(huì)上,百度進(jìn)行了一番演示。
文檔處理是生產(chǎn)力工作的剛需,在大量文檔中尋找和跳轉(zhuǎn)經(jīng)常會(huì)耗費(fèi)很多時(shí)間。大模型出現(xiàn)后,你只需要給超級(jí)助理發(fā)出指令,它就可以立即找出相關(guān)文檔。如果你需要了解新的知識(shí),大模型可以生成詳細(xì)的回答,如果你點(diǎn)擊其中附帶的參考鏈接發(fā)現(xiàn)是英文論文,也可以讓大模型生成中文的摘要。
據(jù)說,現(xiàn)在百度的很多員工都在用如流超級(jí)助理,AI 在很多小細(xì)節(jié)上可以成倍的提升效率。
說到提升效率,在科技公司里,如何能更好的寫代碼是很重要的事,李瑩現(xiàn)場演示了基于文心大模型的編碼工具 Comate X 智能編程助手,它目前支持 30 多種語言和 10 多種 IDE,甚至包括一些非常小眾的語言,像汽車硬件的語言。
以代碼生成為例,Comate 可根據(jù)自然語言的描述,生成對(duì)應(yīng)的代碼片段,也支持在代碼編輯區(qū)內(nèi)根據(jù)注釋自動(dòng)生成代碼實(shí)現(xiàn)。在代碼測試能力方面,Comate 可對(duì)選定代碼生成單元測試用例,極大減少工程師編寫單測用例的時(shí)間,提升代碼質(zhì)量。
開發(fā)基于 AI 原生的應(yīng)用,不僅需要代碼工具,還需要有開發(fā)套件。百度提出了 Comate Stack,其中包括三個(gè)工具:評(píng)測平臺(tái) iEValue、AI 應(yīng)用開發(fā)平臺(tái) IPlayground 和數(shù)據(jù)集托管平臺(tái) iDateSet。
使用這套體系,開發(fā)一個(gè)休假政策插件,只需要兩個(gè)步驟,規(guī)則也不用你輸入,直接給 AI 喂文檔就可以了。

現(xiàn)在,大模型能力已成為百度員工的 AI 助手,Comate 幫助 80% 百度工程師提升了編程效率,顛覆了程序開發(fā)的模式。而這種革命性的生產(chǎn)力,已經(jīng)吸引到超過 100 家合作伙伴的興趣。
面向全場景、覆蓋多行業(yè)
文心大模型的應(yīng)用實(shí)踐,在國內(nèi)覆蓋了最大的產(chǎn)業(yè)規(guī)模。
這段時(shí)間,大模型發(fā)展的進(jìn)程以天為計(jì),論文技術(shù)層出不窮,應(yīng)用也不斷更新,百度在這場競爭里始終保持在前列 —— 不斷更新版本的文心已應(yīng)用到搜索、信息流、網(wǎng)盤、智能音箱等產(chǎn)品中,面向更多普通用戶開放,面向企業(yè)的落地成果也非常可觀。
文心大模型建立了一套完整的大模型體系,其中基礎(chǔ)大模型包含 NLP(自然語言理解)、CV(計(jì)算機(jī)視覺)、跨模態(tài)大模型,任務(wù)大模型包含對(duì)話、搜索、信息抽取、生物計(jì)算等典型任務(wù)。
目前,文心大模型已擁有中國最大的產(chǎn)業(yè)落地規(guī)模,超過 15 萬家企業(yè)申請(qǐng)了文心一言內(nèi)測,其中超過 300 家生態(tài)伙伴在 400 多個(gè)具體場景取得了測試成效,覆蓋辦公提效、知識(shí)管理、智能客服、智能營銷等領(lǐng)域。百度也聯(lián)合國家電網(wǎng)、浦發(fā)銀行、泰康、吉利等企業(yè)共同發(fā)布了 11 個(gè)行業(yè)大模型。
去年王海峰指出,深度學(xué)習(xí)平臺(tái)加上大模型會(huì)貫通從硬件到場景應(yīng)用的 AI 全產(chǎn)業(yè)鏈,進(jìn)一步加速智能化升級(jí)。如今,百度的大模型 AI 技術(shù)棧已實(shí)現(xiàn)全面布局,深度學(xué)習(xí)加大模型技術(shù)讓 AI 真正進(jìn)入了工業(yè)大生產(chǎn)階段。
與此同時(shí),飛槳也公布了最新的生態(tài)數(shù)據(jù):整個(gè)平臺(tái)已匯聚 800 萬開發(fā)者,服務(wù)了 22 萬家企事業(yè)單位,基于飛槳?jiǎng)?chuàng)建的模型已有 80 萬個(gè)。

人們都說這段時(shí)間 ChatGPT 引發(fā)的大模型浪潮帶來了生產(chǎn)力變革,在大模型技術(shù)不斷演進(jìn)的同時(shí),AI 的新能力終究還是要落地在各行業(yè)的實(shí)踐中。
而百度在這個(gè)過程中,已經(jīng)走在了前面。
文章來源:機(jī)器之心公眾號(hào)
作者:澤南