跨語言、跨模態(tài)、跨任務(wù)的大模型,驅(qū)動應(yīng)用生態(tài)繁榮

大模型迭代閉環(huán)趨勢
眾所周知,大模型技術(shù)不斷發(fā)展,已經(jīng)從大模態(tài)發(fā)展到了多模態(tài)和跨模態(tài),比如從Instruct GPT3技術(shù)發(fā)展到跨模態(tài)的DALL·E-2技術(shù),同時大模型在應(yīng)用過程中也產(chǎn)生了非常好的輕量級應(yīng)用技術(shù),比如Prompt Turning技術(shù)。這些技術(shù)發(fā)展促進(jìn)了應(yīng)用繁榮,比如最近半年出現(xiàn)的以AIGC應(yīng)用為代表性業(yè)務(wù)的獨(dú)角獸創(chuàng)企,達(dá)到了十億美元以上估值。同時,大模型技術(shù)也促進(jìn)了端到端智能系統(tǒng)的快速發(fā)展,進(jìn)一步提升了應(yīng)用效果和效率,而這些應(yīng)用在與用戶、環(huán)境的交互過程中產(chǎn)生了海量新數(shù)據(jù),這些數(shù)據(jù)又不斷驅(qū)動大模型技術(shù)升級,從而形成了技術(shù)、應(yīng)用、數(shù)據(jù)的正循環(huán)。


大模型技術(shù)日趨成熟
在這個正循環(huán)里,大模型是根基。同時大模型不斷發(fā)展,資深技術(shù)也日趨成熟。
在自然語言處理領(lǐng)域,大模型具有更強(qiáng)的小樣本學(xué)習(xí)能力,比如基于思維鏈的Flan-PaLM,該模型已經(jīng)具有基本推理能力;再如基于層次化多任務(wù)學(xué)習(xí)的文心ERNIE 3.0 Zeus。同時為了進(jìn)一步降低落地門檻,出現(xiàn)了效率高、泛化能力強(qiáng)的輕量級大模型,比如文心ERNIE 3.0 Tiny。
在計算機(jī)視覺領(lǐng)域,百度提出了基于視覺掩碼技術(shù)的文心VIMER-CAE,在圖像分割任務(wù)中,該模型泛化能力較強(qiáng)。Google訓(xùn)練了一個模型參數(shù)規(guī)模高達(dá)170億的多任務(wù)視覺學(xué)習(xí)模型PaLI,該模型在多任務(wù)學(xué)習(xí)上效果得到了顯著提升。
在跨模態(tài)領(lǐng)域,最近提出了擴(kuò)散模型,該模型引發(fā)了文本到圖像生成技術(shù)的變革,比如百度提出了文心ERNIE-ViLG 2.0,該模型可以生成語義更相關(guān)、質(zhì)量更高的圖片。同時這個技術(shù)浪潮也催生了文本到視頻領(lǐng)域的技術(shù)革新,比如當(dāng)輸入“正在畫肖像的泰迪熊”這句話時,大模型能夠直接生成一個正在畫肖像的泰迪熊的視頻,諸如此類的技術(shù)不斷繁榮。


大模型的使用門檻進(jìn)一步降低
大模型的效果有目共睹,但在應(yīng)用過程中,研發(fā)者需要進(jìn)一步降低其使用門檻,主要面臨兩個問題。
第一個問題是面對大模型學(xué)習(xí)的海量知識和技能,如何在應(yīng)用中有效激發(fā),達(dá)到最好效果。針對這個問題,百度提出了Prompt技術(shù),該技術(shù)能在下游任務(wù)中,通過使用Prompt去應(yīng)用相關(guān)知識,從而提升模型效果。當(dāng)前大模型已經(jīng)能自己寫Prompt,且超越了人類水平。因此,大模型在下游任務(wù)中的門檻進(jìn)一步降低。
第二個問題是在一些應(yīng)用場景中,對速度、時延、存儲都有嚴(yán)格要求,如何使模型更輕量化也是大模型應(yīng)用所面臨的挑戰(zhàn)。針對這個問題,百度推演出大小模型協(xié)同促進(jìn)的研發(fā)范式,一方面大模型將效果推到極致,讓小模型向大模型學(xué)習(xí);另一方面小模型利用已有知識輔助大模型進(jìn)行知識選擇,提升迭代效果,降低使用成本,由此產(chǎn)生飛輪效應(yīng),促進(jìn)大小模型協(xié)同進(jìn)化。


大模型平臺集約化加速應(yīng)用創(chuàng)新
隨著大模型使用門檻的降低,大模型應(yīng)用呈現(xiàn)出集約化加速應(yīng)用創(chuàng)新的趨勢。比如百度以大模型能力為中心,構(gòu)建了文心大模型套件ERNIEKit。

基于該套件,用戶能夠?qū)崿F(xiàn)數(shù)據(jù)處理、模型預(yù)訓(xùn)練、模型微調(diào)、模型快速部署等多維度能力應(yīng)用,支持40多個場景,由此衍生出來的能力可以通過開發(fā)平臺和服務(wù)平臺,進(jìn)一步賦能開發(fā)者和生態(tài),最終實(shí)現(xiàn)整個平臺覆蓋大模型應(yīng)用落地全周期,使得開發(fā)門檻進(jìn)一步降低。

大模型驅(qū)動的產(chǎn)業(yè)應(yīng)用創(chuàng)新
隨著大模型能力不斷強(qiáng)大,基于大模型的智能系統(tǒng)驅(qū)動應(yīng)用端對端創(chuàng)新,使傳統(tǒng)任務(wù)系統(tǒng)架構(gòu)大幅簡化,同時提升了應(yīng)用效果和效率,從而加速數(shù)據(jù)和模型應(yīng)用閉環(huán)建設(shè)。如百度文心百中端對端搜索系統(tǒng),能夠完成端到端的文本、圖像、語音不同模態(tài)之間的搜索任務(wù),相比以前級聯(lián)的搜索系統(tǒng),該系統(tǒng)能夠更好利用用戶模型和數(shù)據(jù)之間、端到端地優(yōu)化效果簡化整個流程,不僅獲得更好效果,而且節(jié)省定制成本。

此外,在進(jìn)行文檔理解時,以前針對文檔里的無結(jié)構(gòu)化文本、表格、圖像,分別需要一個模型,而現(xiàn)在能夠使用統(tǒng)一的模型處理文本、表格、圖像等多種格式和模態(tài),實(shí)現(xiàn)使用一個模型處理多個任務(wù),而且在公開數(shù)據(jù)集上已獲得SOTA效果,使文檔理解系統(tǒng)達(dá)到商業(yè)要求。隨著大模型技術(shù)不斷發(fā)展,大模型也推動了AIGC的繁榮。目前,人們應(yīng)用數(shù)據(jù)或者互聯(lián)網(wǎng)內(nèi)容,主要通過普通用戶或者專家產(chǎn)生,也即UGC和PGC內(nèi)容生產(chǎn)模式。但現(xiàn)在AI也可以生產(chǎn)內(nèi)容,其優(yōu)勢是既能提升內(nèi)容生產(chǎn)效率,也能創(chuàng)造出獨(dú)特價值和視角。

最近幾年,很多國內(nèi)外頭部公司和創(chuàng)企公司都涌入AIGC賽道,同時,發(fā)展較快的AI作畫、AI營銷等應(yīng)用都呈現(xiàn)出蓬勃發(fā)展趨勢。圍繞大模型AIGC能力,市場產(chǎn)生了很多應(yīng)用,比如AI作畫、AI營銷等。AIGC除了生產(chǎn)文本和圖像外,還能夠生產(chǎn)視頻和代碼,生產(chǎn)代碼主要是為了提升開發(fā)效率。隨著AIGC內(nèi)容不斷豐富,用戶能夠進(jìn)一步探索應(yīng)用效果,同時大模型也顯著提升了交互體驗(yàn)。比如在多模態(tài)擬人效果上,基于大模型的數(shù)字人,借助形象、語音與表情更好地溝通表達(dá)、傳遞信息,從而大幅提升人和機(jī)器之間的交互體驗(yàn)。

大模型還能夠進(jìn)行角色扮演,用戶可以自定義機(jī)器人角色,比如定義為詩人、畫家、政治家等,這樣用戶就可以在與機(jī)器交互過程中產(chǎn)生不同體驗(yàn)。
此外,機(jī)器人可以扮演知識大百科角色,比如一位學(xué)富五車的學(xué)者,這背后主要基于文心PLATO-K大模型。作為首個中文可主動查詢利用外部知識的對話大模型,文心PLATO-K能夠主動學(xué)習(xí)知識,提升用戶體驗(yàn)。與此同時,大模型也促進(jìn)了傳統(tǒng)行業(yè)向智能化發(fā)展,加速產(chǎn)業(yè)落地。比如在生物計算領(lǐng)域,Google推出了AlphaFold2,發(fā)布了2.2億蛋白結(jié)構(gòu)預(yù)測結(jié)果,解決了生物領(lǐng)域50年的難題。同時,百度也推出了HelixFold-Single模型,它是在AlphaFold2基礎(chǔ)上提升預(yù)測效果,能夠進(jìn)行秒級別的蛋白結(jié)構(gòu)預(yù)測,而且在抗體蛋白結(jié)構(gòu)預(yù)測上,比AlphaFold2更優(yōu)。

此外,大模型也能夠跟行業(yè)大數(shù)據(jù)結(jié)合,在金融、電力、航天、汽車、媒體等行業(yè)里,大幅提升效果和效率。

大模型持續(xù)學(xué)習(xí)應(yīng)用反饋數(shù)據(jù)
人們普遍認(rèn)為人在學(xué)習(xí)過程中,如果想成為某個領(lǐng)域?qū)<?,存在“一萬小時定律”,同時在學(xué)習(xí)過程中的反饋也非常重要。這個理論對大模型同樣適用,即大模型需要向大數(shù)據(jù)學(xué)習(xí),并在學(xué)習(xí)過程中不斷獲得反饋信息。因此,大模型能夠持續(xù)學(xué)習(xí)應(yīng)用中的反饋數(shù)據(jù),尤其在環(huán)境和用戶交互過程中,通過反饋不斷提升模型效果,使大模型持續(xù)學(xué)習(xí),從而達(dá)到更好效果。比如在搜索問答場景里,通過用戶反饋,模型應(yīng)用效果得到進(jìn)一步提升。


統(tǒng)一大模型進(jìn)一步促進(jìn)生態(tài)繁榮
隨著技術(shù)、應(yīng)用、數(shù)據(jù)閉環(huán)的不斷發(fā)展,模型開始趨向于跨語言、跨模態(tài)、跨任務(wù)的統(tǒng)一大模型。

以前不同語言、不同模態(tài)和不同任務(wù),都是單獨(dú)模型;隨著技術(shù)不斷發(fā)展,現(xiàn)在能夠?qū)Χ鄠€任務(wù)使用統(tǒng)一模型學(xué)習(xí),比如模型能同時學(xué)習(xí)文本、語音、圖像、視頻等數(shù)據(jù)。而且模型在應(yīng)用過程中能夠與用戶和環(huán)境進(jìn)行交互,學(xué)習(xí)到用戶行為和環(huán)境信息,比如時空數(shù)據(jù)和感知數(shù)據(jù)。而這些數(shù)據(jù)之間相互作用、相互補(bǔ)充,得以進(jìn)一步提升模型效果,促進(jìn)生態(tài)繁榮。

在大模型發(fā)展過程中,首先將現(xiàn)有數(shù)據(jù)學(xué)習(xí)到模型中,并應(yīng)用在各行各業(yè)的任務(wù)中。同時這些應(yīng)用又可以產(chǎn)生新的數(shù)據(jù),并且在模型里使用,逐漸循環(huán)形成了閉環(huán)。這個閉環(huán)能夠極大提升生產(chǎn)力,使人們的生活更加美好。