AIGC行業(yè)深度:應(yīng)用場景、商業(yè)模式、市場規(guī)模、產(chǎn)業(yè)鏈及相關(guān)公司深度梳理
BY?慧博智能投研
目錄
2022年是AIGC爆火出圈的一年,不僅被消費(fèi)者追捧,而且備受投資界關(guān)注,更是被技術(shù)和產(chǎn)業(yè)界競相追逐。2022年12月,OpenAI的大型語言生成模型ChatGPT刷爆網(wǎng)絡(luò),它能勝任刷高情商對話、生成代碼、構(gòu)思劇本和小說等多個場景,將人機(jī)對話推向新的高度,讓人不禁懷疑ChatGPT是否已經(jīng)具有人類智能。全球各大科技企業(yè)都在積極擁抱AIGC,不斷推出相關(guān)的技術(shù)、平臺和應(yīng)用。近期微軟、谷歌等全球計軟件互聯(lián)網(wǎng)大廠大力投入AIGC,并開始探索應(yīng)用層面的突破,AIGC已經(jīng)來到2年前自動駕駛的應(yīng)用突破拐點(diǎn),今年有望成為AIGC大年。類似ChatGPT的“大模型”作為AIGC的底層平臺,將成為AIGC的核心資源。
那么,AIGC究竟是什么?應(yīng)用場景都有哪些?我國目前的發(fā)展現(xiàn)狀及商業(yè)模式是怎樣的?產(chǎn)業(yè)鏈及相關(guān)公司都有哪些?如今面臨的挑戰(zhàn)及未來的發(fā)展趨勢又是怎樣的?下面我們一一了解。
一、AIGC概述
1.概念
AIGC(AI-Generated Content,人工智能生產(chǎn)內(nèi)容),狹義概念是利用AI自動生產(chǎn)內(nèi)容的生產(chǎn)方式,但廣義上AIGC已在實(shí)現(xiàn)人工智能從感知理解世界到生成創(chuàng)造世界的進(jìn)擊,AIGC代表AI技術(shù)發(fā)展的新趨勢,過去傳統(tǒng)人工智能偏向分析能力,而現(xiàn)在人工智能正在生成新內(nèi)容,通過大量的訓(xùn)練數(shù)據(jù)和生成算法模型,自動生成文本、圖片、音樂、視頻、3D交互內(nèi)容等各種形式的內(nèi)容,換言之,AIGC正在加速成為AI領(lǐng)域的商業(yè)新邊界;AIGC也會帶來內(nèi)容創(chuàng)作的變革,如智能數(shù)字內(nèi)容孿生能力、智能數(shù)字內(nèi)容編輯能力、智能數(shù)字內(nèi)容創(chuàng)作能力。

2.發(fā)展歷程
伴隨人工智能發(fā)展演進(jìn),AIGC發(fā)展可分為三階段,早期萌芽階段(20世紀(jì)50年代至90年代中期)、沉淀累積階段(20世紀(jì)90年代至21世紀(jì)10年代中期)、快速發(fā)展階段(21世紀(jì)10年代中期至今)。
第一階段,早期萌芽階段(1950s-1990s)
AIGC由于技術(shù)限制僅限于小范圍實(shí)驗(yàn),1957年已出現(xiàn)首支以計算機(jī)傳作的音樂作品(弦樂四重奏《依利亞克組曲(Illiac Suite)》),80年代末至90年代中由于高成本及無法商業(yè)化進(jìn)而資本投入減少致AIGC無較多較大成績。
第二階段,沉淀累積階段(1990s-2010s)
AIGC從實(shí)驗(yàn)性轉(zhuǎn)向?qū)嵱眯裕?006年深度學(xué)習(xí)算法取得進(jìn)展,同時圖形處理器等算力設(shè)備不斷提升,互聯(lián)網(wǎng)快速發(fā)展,也為類人工智能算法提供海量數(shù)據(jù)進(jìn)行訓(xùn)練。2007年首部人工智能裝置完成的小說《I The Road》問世;2012年微軟展示全自動同傳系統(tǒng),主要基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)自動將英文演講者內(nèi)容通過語音識別等技術(shù)生成中文。
第三階段,快速發(fā)展階段(2010s-至今)
2014年深度學(xué)習(xí)算法之生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)提出并迭代更新,助力AIGC新發(fā)展。2017年微軟人工智能少年“小冰”推出世界首部由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》,2018年英偉達(dá)發(fā)布Style GAN模型可自動生成圖片;2019年,Deep Mind發(fā)布DVD-GAN模型可生成連續(xù)視頻。2021年Open AI推出DALL-E并推出迭代版本DALL-E-2主要用于文本、圖像的交互生成內(nèi)容。
我國AIGC在2022年年底受到市場較大關(guān)注,2023年開年企業(yè)端躍躍欲試,雖行業(yè)仍處于剛剛起步階段,距離大規(guī)模證明和體系化發(fā)展仍有距離,但從資本的加碼到應(yīng)用場景的探索,距離的縫隙有望逐步填補(bǔ),同時,“模塊分拆+個性化推薦”的“泛AIGC”形式有望持續(xù)發(fā)展。

二、應(yīng)用場景
AIGC按內(nèi)容生成類別可劃分為文本、代碼、圖像、音視頻四類,根據(jù)紅杉資本預(yù)測,2023年文本、代碼生成有望得以成熟應(yīng)用,其中文本生成可實(shí)現(xiàn)垂直領(lǐng)域文案的精確調(diào)整,達(dá)到科研論文精度,代碼生成可覆蓋多語種多垂直領(lǐng)域;圖像、音視頻生成的成熟度相對較低,目前尚處于生成基礎(chǔ)初稿的階段,2030年有望得以成熟應(yīng)用。

1.文本生成:文本交互成為未來發(fā)展方向
(1)應(yīng)用型文本
大多為結(jié)構(gòu)化寫作,以客服類的聊天問答、新聞撰寫等為核心場景。最為典型的是基于結(jié)構(gòu)化數(shù)據(jù)或規(guī)范格式,在特定情景類型下的文本生成,如體育新聞、金融新聞、公司財報、重大災(zāi)害等簡訊寫作。Narrative Science創(chuàng)始人甚至曾預(yù)測,到2030年,90%以上的新聞將由機(jī)器人完成。

(2)創(chuàng)作型文本
主要適用于劇情續(xù)寫、營銷文本等細(xì)分場景等,具有更高的文本開放度和自由度,需要一定的創(chuàng)意和個性化,對生成能力的技術(shù)要求更高。我們使用了市面上的小說續(xù)寫、文章生成等AIGC工具。發(fā)現(xiàn)長篇幅文字的內(nèi)部邏輯仍然存在較明顯的問題、且生成穩(wěn)定性不足,尚不適合直接進(jìn)行實(shí)際使用。除去本身的技術(shù)能力之外,由于人類對文字內(nèi)容的消費(fèi)并不是單純理性和基于事實(shí)的,創(chuàng)作型文本還需要特別關(guān)注情感和語言表達(dá)藝術(shù)。

(3)文本輔助
除去端到端進(jìn)行文本創(chuàng)作外,輔助文本寫作其實(shí)是目前國內(nèi)供給及落地最為廣泛的場景。主要為基于素材爬取的協(xié)助作用,例如定向采集信息素材、文本素材預(yù)處理、自動聚類去重,并根據(jù)創(chuàng)作者的需求提供相關(guān)素材。

(4)文本交互
例如虛擬伴侶、游戲中的NPC個性化交互等。2022年夏季上線的社交AIGC敘事平臺Hidden Door以及基于GPT-3開發(fā)的文本探索類游戲AIdungeon均已獲得了不錯的消費(fèi)者反饋。案例:小冰發(fā)布小冰島APP,每個用戶均可創(chuàng)造自己的島嶼,并連帶擁有一個功能類似于微信和LINE等社交產(chǎn)品的完整社交交互界面。用戶不僅能在島嶼中體驗(yàn)豐富的視覺和自然音場,與人工智能個體進(jìn)行對話,還可以再造完整的一對一對話、群聊、朋友圈和技能生態(tài)體驗(yàn)。

2.音頻生成:AI編曲將成為AI音頻生成中的快速成長賽道
(1)TTS(Text-to-speech)場景
泛應(yīng)用于客服及硬件機(jī)器人、有聲讀物制作、語音播報等任務(wù)。例如倒映有聲與音頻客戶端“云聽”APP合作打造AI新聞主播,提供音頻內(nèi)容服務(wù)的一站式解決方案,以及喜馬拉雅運(yùn)用TTS技術(shù)重現(xiàn)單田芳聲音版本的《毛氏三兄弟》和歷史類作品。這種場景為文字內(nèi)容的有聲化提供了規(guī)模化能力。
隨著內(nèi)容媒體的變遷,短視頻內(nèi)容配音已成為重要場景。部分軟件能夠基于文檔自動生成解說配音,上線有150+款包括不同方言和音色的AI智能配音主播。代表公司有九錘配音、加音、XAudioPro、剪映等。

(2)樂曲/歌曲生成
AIGC在詞曲創(chuàng)作中的功能可被逐步拆解為作詞(NLP中的文本創(chuàng)作/續(xù)寫)、作曲、編曲、人聲錄制和整體混音。目前而言,AIGC已經(jīng)支持基于開頭旋律、圖片、文字描述、音樂類型、情緒類型等生成特定樂曲。
通過這一功能,創(chuàng)作者即可得到AI創(chuàng)作的純音樂或樂曲中的主旋律。2021年末,貝多芬管弦樂團(tuán)在波恩首演人工智能譜寫完成的貝多芬未完成之作《第十交響曲》,即為AI基于對貝多芬過往作品的大量學(xué)習(xí),進(jìn)行自動續(xù)寫。

3.圖像生成:目前仍然難以達(dá)到穩(wěn)定可靠的生成高質(zhì)量圖像
(1)圖像屬性及部分編輯
屬性編輯部分,可以直觀的將其理解為經(jīng)AI降低門檻的PhotoShop。目前而言,圖片去水印、自動調(diào)整光影、設(shè)置濾鏡(如Prisma、Versa、Vinci和Deepart)、修改顏色紋理(如DeepAI)、復(fù)刻/修改圖像風(fēng)格(DALL·E2已經(jīng)可以僅憑借單張圖像進(jìn)行風(fēng)格復(fù)刻、NightCafe等)、提升分辨率等已經(jīng)常見。
圖像部分編輯部分,指部分更改圖像部分構(gòu)成(如英偉達(dá)CycleGAN支持將圖內(nèi)的斑馬和馬進(jìn)行更改)、修改面部特征(Metaphysics,可調(diào)節(jié)自身照片的情緒、年齡、微笑等;以Deepfake為代表的圖像換臉)。

(2)圖像端到端生成
此處則主要指基于草圖生成完整圖像(VansPortrait、谷歌Chimerapainter可畫出怪物、英偉達(dá)GauGAN可畫出風(fēng)景、基于草圖生成人臉的DeepFaceDrawing)、有機(jī)組合多張圖像生成新圖像(Artbreeder)、根據(jù)指定屬性生成目標(biāo)圖像(如Rosebud.ai支持生成虛擬的模特面部)等。

4.視頻生成:跨模態(tài)生成領(lǐng)域的中高潛力場景
(1)視頻屬性編輯
例如視頻畫質(zhì)修復(fù)、刪除畫面中特定主體、自動跟蹤主題剪輯、生成視頻特效、自動添加特定內(nèi)容、視頻自動美顏等。

(2)視頻自動剪輯
基于視頻中的畫面、聲音等多模態(tài)信息的特征融合進(jìn)行學(xué)習(xí),按照氛圍、情緒等高級語義限定,對滿足條件片段進(jìn)行檢測并合成。目前還主要在技術(shù)嘗試階段。典型案例包括Adobe與斯坦福共同研發(fā)的AI視頻剪輯系統(tǒng)、IBM Watson自動剪輯電影預(yù)告片、以及Flow Machine。我國的影譜科技推出了相關(guān)產(chǎn)品,能夠基于視頻中的畫面、聲音等多模態(tài)信息的特征融合進(jìn)行學(xué)習(xí),按照氛圍、情緒等高級語義限定,對滿足條件片段進(jìn)行檢測并合成。
(3)視頻部分生成(以Deepfake為典型代表)
視頻到視頻生成技術(shù)的本質(zhì)是基于目標(biāo)圖像或視頻對源視頻進(jìn)行編輯及調(diào)試,通過基于語音等要素逐幀復(fù)刻,能夠完成人臉替換、人臉再現(xiàn)(人物表情或面部特征的改變)、人臉合成(構(gòu)建全新人物)甚至全身合成、虛擬環(huán)境合成等功能。
5.圖像、視頻、文本間的跨模態(tài)生成:文本到視頻轉(zhuǎn)換目前還處于技術(shù)嘗試階段
(1)文字生成圖像
2021年,OpenAI的CLIP和DALLE開啟了AI繪畫重要的一年。同年,CVPR2021收錄的VQGAN也引發(fā)了廣泛關(guān)注。2022年被稱為“AI繪畫“之年,多款模型/軟件證明了基于文字提示得到效果良好的圖畫的可行性,Diffusion Model受到廣泛關(guān)注。
(2)文字生成視頻
在一定程度上,文本生成視頻可以看作是文本生成圖像的進(jìn)階版技術(shù)。按照技術(shù)生成難度和生成內(nèi)容,可以區(qū)分為拼湊式生成和完全從頭生成兩種方式。拼湊式生成的技術(shù)是指基于文字(涉及NLP語義理解)搜索合適的配圖、音樂等素材,在已有模板的參考下完成自動剪輯。這類技術(shù)本質(zhì)是“搜索推薦+自動拼接”,門檻較低,背后授權(quán)素材庫的體量、已有模版數(shù)量等成為關(guān)鍵因素。完全從頭生成視頻則是指由AI模型基于自身能力,不直接引用現(xiàn)有素材,生成最終視頻。

(3)圖像/視頻到文本
具體應(yīng)用包括視覺問答系統(tǒng)、配字幕、標(biāo)題生成等,這一技術(shù)還將有助于文本—圖像之間的跨模態(tài)搜索。代表模型包括METER、ALIGN等。
6.策略生成:國內(nèi)相關(guān)游戲廠商普遍存在內(nèi)部開發(fā)或外部測試需求
(1)GameAI
以騰訊AILab在游戲制作領(lǐng)域的布局為例,人工智能在游戲前期制作、游戲中運(yùn)營的體驗(yàn)及運(yùn)營優(yōu)化、游戲周邊內(nèi)容制作的全流程中均有應(yīng)用。

(2)AIBot,也即游戲操作策略生成
可以將其簡單理解為人工智能玩家,重點(diǎn)在于生成真實(shí)對戰(zhàn)策略。2016年DeepmindAlphaGO在圍棋中有所展示,隨后,AI決策在Dota2、StarCraft2、德?lián)?、麻將等游戲領(lǐng)域中均展現(xiàn)出了良好的實(shí)力。
(3)NPC邏輯及劇情生成,也即由AI生成底層邏輯
此前,NPC具體的對話內(nèi)容及底層劇情需要人工創(chuàng)造驅(qū)動腳本,由制作人主觀聯(lián)想不同NPC所對應(yīng)的語言、動作、操作邏輯等,這種動態(tài)的個性化匹配背后依舊是不同的靜態(tài)分支,創(chuàng)造性及個性化相對有限。
目前,NPC邏輯自動生成技術(shù)已經(jīng)應(yīng)用在《黑客帝國:覺醒》(MassAI,車輛行人等將獨(dú)立于玩家操控變動)、RedDeadRedemption2、Monster Hunter: World等大型游戲中。長期來看,NPC的靈活自主將引領(lǐng)其成為重要的社交節(jié)點(diǎn),有效填充元宇宙的內(nèi)部架構(gòu)。
7.虛擬人生成:視頻是短期的發(fā)展重點(diǎn)
目前“深度合成+計算驅(qū)動”型的虛擬人,綜合運(yùn)用文本、圖像、音頻等生成技術(shù),打造綜合外觀、面部表情、發(fā)聲習(xí)慣等產(chǎn)出全面擬人化的數(shù)字內(nèi)容,屬于AIGC領(lǐng)域。此種多模態(tài)生成技術(shù)的聚合應(yīng)用在虛擬偶像、虛擬主播等領(lǐng)域已有廣泛應(yīng)用。
(1)虛擬人視頻生成
是目前計算驅(qū)動型虛擬人應(yīng)用最為廣泛的領(lǐng)域之一,不同產(chǎn)品間主要的區(qū)分因素包括:唇形及動作驅(qū)動的自然程度、語音播報自然程度、模型呈現(xiàn)效果(2D/3D、卡通/高保真等)、視頻渲染速度等。

(2)虛擬人的實(shí)時互動
廣泛應(yīng)用于可視化的智能客服,多見于APP、銀行大堂等。在AIGC的虛擬人領(lǐng)域,由于更能夠體現(xiàn)AI在個性化、高并發(fā)性等方面的優(yōu)勢,我們更強(qiáng)調(diào)虛擬人的實(shí)時交互功能。
例:小冰虛擬人產(chǎn)品,基于小冰框架的全域底層能力,整合實(shí)現(xiàn)了虛擬人形象定制、內(nèi)容生產(chǎn)、渲染呈現(xiàn)、交互響應(yīng)等多個關(guān)鍵技術(shù)模塊,以完備的產(chǎn)品架構(gòu)支撐多樣化的應(yīng)用場景,如直播、教育、數(shù)字員工等,并以此賦能各行各業(yè)。

三、AIGC產(chǎn)業(yè)鏈及ChatGPT
1.AIGC產(chǎn)業(yè)鏈
算力、算法模型、應(yīng)用構(gòu)成了AIGC產(chǎn)業(yè)鏈。從OpenAI推出的ChatGPT我們發(fā)現(xiàn),ChatGPT依賴于GPT大模型,而GPT大模型則需要依靠微軟Azure超算中心提供算力訓(xùn)練,因此我們認(rèn)為ChatGPT等AIGC產(chǎn)業(yè)依然離不開算力、算法模型、應(yīng)用的基本框架。

2.產(chǎn)業(yè)鏈構(gòu)成
AIGC產(chǎn)業(yè)鏈可劃分為基礎(chǔ)層、中間層、應(yīng)用層三層架構(gòu)。

(1)基礎(chǔ)層:利用預(yù)訓(xùn)練模型搭建基礎(chǔ)設(shè)施,該環(huán)節(jié)具備最高的進(jìn)入門檻,參與者以頭部企業(yè)為主
預(yù)訓(xùn)練模型是眾多小模型的通用基底,為開發(fā)者降低AI開發(fā)與應(yīng)用的門檻。預(yù)訓(xùn)練模型初始投入成本高、運(yùn)行成本高,對軟件、硬件均提出較高要求,因此涉足該環(huán)節(jié)的企業(yè)以微軟、谷歌、英偉達(dá)、Meta等科技巨頭以及OpenAI、Stability.ai等AI研究機(jī)構(gòu)為主。以O(shè)penAI為例,2020年該機(jī)構(gòu)訓(xùn)練GPT-3的硬件及電力成本達(dá)1200萬美元;以Meta為例,為了提供更強(qiáng)大的算力支撐,Meta攜手英偉達(dá)、Penguin Computing及Pure Storage打造AI超級計算機(jī)RSC,其測試數(shù)據(jù)顯示,RSC訓(xùn)練大型NLP模型的速度提升3倍,運(yùn)行計算機(jī)視覺工作的速度提升20倍。

(2)中間層:基于預(yù)訓(xùn)練模型開發(fā)垂直化、場景化、個性化的模型和應(yīng)用工具
中間層廠商基于預(yù)訓(xùn)練的大模型生成場景化定制化的小模型,幫助不同行業(yè)和垂直領(lǐng)域?qū)崿F(xiàn) AIGC 的快速部署。在預(yù)訓(xùn)練模型基礎(chǔ)之上,開發(fā)者可根據(jù)不同行業(yè)、不同功能場景生成相應(yīng)的小模型,基礎(chǔ)層企業(yè)向中間層延伸為順勢而為。此外,基礎(chǔ)層企業(yè)還可扮演MaaS(Model-as-a-Service)服務(wù)提供方,將其模型開源給更多企業(yè)以二次開發(fā)模型,如Novel AI基于Stability.ai的開源模型Stable Diffusion開發(fā)出二次元風(fēng)格AI繪畫工具。

(3)應(yīng)用層:面向C端用戶提供文本、圖像、音視頻等內(nèi)容生成服務(wù)
應(yīng)用層是指面向 C 端提供 AIGC 相關(guān)服務(wù), 典型企業(yè)包括微軟、Meta、百度、騰訊,阿里巴巴等?;诨A(chǔ)層、中間層的模型及工具,應(yīng)用層企業(yè)可將其重心放在滿足用戶需求乃至創(chuàng)造內(nèi)容消費(fèi)需求上,AI寫作、AI繪畫等AIGC應(yīng)用已在營銷、娛樂、藝術(shù)收藏等領(lǐng)域落地。以國內(nèi)企業(yè)為例,視覺中國依托其數(shù)字版權(quán)內(nèi)容優(yōu)勢布局AIGC數(shù)字藏品,借力AI持續(xù)擴(kuò)充藝術(shù)多元性,截至目前多輪發(fā)售的AIGC數(shù)字藏品均已售罄;藍(lán)色光標(biāo)機(jī)器人小藍(lán)博面向廣告主推出AI繪畫、AI寫作工具,其中AI繪畫工具創(chuàng)意畫廊可生成抽象風(fēng)格畫作以適配不同營銷場景。

3.AIGC里程碑式產(chǎn)品:ChatGPT
ChatGPT是由OpenAI公司開發(fā)的一個人工智能聊天機(jī)器人程序,于2022年11月推出。ChatGPT上線5天內(nèi),用戶量就突破了百萬,兩個月后又直接突破了一個億,成為歷史上增長最快的消費(fèi)應(yīng)用。ChatGPT能夠通過學(xué)習(xí)和理解人類的語言來進(jìn)行對話,能根據(jù)聊天的上下文進(jìn)行互動,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務(wù)。ChatGPT是自然語言處理領(lǐng)域的前沿研究成果之一,現(xiàn)已成為AIGC里程碑式的產(chǎn)品。
ChatGPT火爆背后,折射出AIGC在全球的蓬勃發(fā)展。ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望帶動AIGC在圖像、音樂、視頻等其他領(lǐng)域落地。隨著AIGC在國內(nèi)消費(fèi)互聯(lián)網(wǎng)領(lǐng)域日趨主流化,涌現(xiàn)出寫作助手、AI繪畫、對話機(jī)器人、數(shù)字人等爆款級應(yīng)用,支撐著傳媒、電商、娛樂、影視等領(lǐng)域的內(nèi)容需求,市場潛力逐漸顯現(xiàn)。據(jù)CBInsights統(tǒng)計,ChatGPT概念領(lǐng)域目前約有250家初創(chuàng)公司。未來兩三年,與AIGC相關(guān)的初創(chuàng)公司和商業(yè)落地方案將持續(xù)增加,等到2030年AIGC市場規(guī)?;?qū)⒊^萬億。
相比于傳統(tǒng)AI對話模型,ChatGPT具備多項(xiàng)優(yōu)勢功能,從而實(shí)現(xiàn)應(yīng)用價值和使用體驗(yàn)的顯著提升:1)能夠認(rèn)知自身不足并進(jìn)一步提出跟進(jìn)問題以更好解答用戶問題;2)能夠理解上下文,實(shí)現(xiàn)連續(xù)對話,提高用戶交互體驗(yàn);3)能夠質(zhì)疑用戶提出的不合理問題與前提假設(shè);4)能夠拒絕用戶提出的不合理/不合法請求與問題。
相較于OpenAI此前研發(fā)的GPT1-3,ChatGPT核心技術(shù)優(yōu)化在于引入RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))的訓(xùn)練方式,從而在訓(xùn)練中增強(qiáng)了人類對模型輸出結(jié)果的調(diào)節(jié),促使模型輸出結(jié)果更具備理解性。RLHF訓(xùn)練框架主要分為三步:1)在初步模型中AI訓(xùn)練師同時作為用戶和AI角色,協(xié)助AI創(chuàng)作期望的回答,通過監(jiān)督學(xué)習(xí)的方式優(yōu)化模型的輸出結(jié)果;2)訓(xùn)練師根據(jù)模型對同一個提問所做出的不同輸出結(jié)果進(jìn)行排序,并通過該數(shù)據(jù)訓(xùn)練出獎勵模型;3)根據(jù)獎勵模型對模型輸出的結(jié)果進(jìn)行打分,運(yùn)用強(qiáng)化學(xué)習(xí)算法PPO不斷迭代和優(yōu)化模型輸出。
1.發(fā)展現(xiàn)狀
中國AIGC產(chǎn)業(yè)仍處于發(fā)展初期,底層技術(shù)相較國外仍有較大差距。國內(nèi)最先興起的是AI寫作和語音合成模塊,虛擬人概念剛興起,但技術(shù)層面仍有差距,眾多國內(nèi)廠商從內(nèi)容布局入手,同時眾多廠商目前商業(yè)模式不成熟,還停留在免費(fèi)引流階段。此外,AIGC目前主要客戶集中在B端,廠商話語權(quán)較弱,未來會向2B+2C方向發(fā)展,B端降本增效是根本訴求,C端對個人的賦能也是值得關(guān)注的方向。
微軟與OpenAI深化合作,AIGC商業(yè)化加速到來。1月23日,微軟官方宣布在與OpenAI將進(jìn)一步深入合作,將在未來數(shù)年內(nèi)追加投資數(shù)十億美元以加速AI技術(shù)推向大眾。微軟正在迅速推進(jìn)OpenAI的商業(yè)化,將目前的ChatGPT、DALL-E等AI工具整合進(jìn)微軟旗下的全部軟件,例如Bing、Office等,為用戶帶來更高效的交互體驗(yàn)。更值得關(guān)注的是,微軟將提供AI云服務(wù)AzureOpenAI,允許開發(fā)者在OpenAI的模型基礎(chǔ)上搭建自己的應(yīng)用,從而加速AI技術(shù)的商業(yè)化落地。
OpenAI作為AIGC行業(yè)龍頭,已開始商業(yè)化之路,一方面自己作為模型基礎(chǔ)設(shè)施,賦能搜索引擎、辦公軟件提高效率和用戶黏性;另一方面借助合作伙伴的算力基礎(chǔ)設(shè)施,為后續(xù)底層硬件拓展打牢基礎(chǔ)。

2.AIGC帶來的商業(yè)模式變革——AI的顯性化
AI雖已發(fā)展多年,但在諸多領(lǐng)域的應(yīng)用更像經(jīng)過專業(yè)學(xué)習(xí)的“??粕?,而今基于大模型的AIGC更像接受過通識教育的研究生,雖然在發(fā)展初期在特定專業(yè)領(lǐng)域功能有限,卻有著更強(qiáng)的可拓展性。因此,我們預(yù)計,當(dāng)2023年GPT4模型發(fā)布之后,“AIGC+”將成為全球性的趨勢。底層的大模型與數(shù)據(jù)集將成為下一個科技時代,真正意義上的“IT基礎(chǔ)設(shè)施”,既有垂直領(lǐng)域的價值也不容忽視,正如OpenAI與微軟的合作,通用AI的顯性化趨勢將日益顯著。
AI具有通過自動執(zhí)行各種任務(wù)、提高效率和啟用新的經(jīng)營方式來轉(zhuǎn)變商業(yè)模式的潛力。隨著技術(shù)的進(jìn)步,AI已經(jīng)不再像過去那樣與硬件、系統(tǒng)等一起打包進(jìn)行商業(yè)化落地了。對于普通人來說也不再是一門遙不可及的尖端技術(shù)。AI變成了一個普通人也可以輕松運(yùn)用、提升效率的工具,這預(yù)示著AI的商業(yè)模式更加顯化。
3.ToB仍是AIGC的主要商業(yè)模式
雖然AIGC使C端用戶以較低的門檻使用AI生成內(nèi)容,但目前來看,toB仍然是核心商業(yè)模式。對于C端用戶來說,缺乏長期持久的需求,大多數(shù)只是一時興起的好奇體驗(yàn)。而對于B端客戶來說,他們的需求和付費(fèi)意愿是較為穩(wěn)定和長久的,這主要有以下兩個核心原因:
(1)降低成本
AIGC替代了部分原本應(yīng)該由原創(chuàng)人員承擔(dān)的工作,例如網(wǎng)站內(nèi)容編輯、美工等,假設(shè)人工成本在100萬,而AIGC能夠降低50%以上,那么企業(yè)將有充足的動力進(jìn)行機(jī)器替代,其實(shí)這一過程正在發(fā)生,尤其在一些垂直領(lǐng)域,例如體育、金融、汽車等。除了新聞稿件類,AIGC生成圖片也被應(yīng)用在新聞稿或自媒體的插圖或封面上。相比原先在素材庫找圖的效果更貼合文章,也減少了找美工的費(fèi)用并提升了效率。但在這一領(lǐng)域,文字的需求大于圖片,一方面是由于工作的完成度另一方面是由于本身的市場空間。
(2)跨越B端需求鴻溝
部分toB應(yīng)用具有項(xiàng)目制的特點(diǎn)而難以被滿足,我們稱之為需求鴻溝。例如,IP矩陣的構(gòu)建,當(dāng)需要對大IP構(gòu)筑包括電影、電視、游戲、動漫、手辦等周邊產(chǎn)品時,需要大量各類原創(chuàng)作者對IP矩陣進(jìn)行豐富,這是一個費(fèi)錢且費(fèi)力的漫長過程。內(nèi)容供給方因工作量巨大而無法提供大量原創(chuàng)稿件,而需求方因看不到內(nèi)容而無法買單。未來基于AIGC,原創(chuàng)內(nèi)容方可以以少量手稿,借助模型的幫助,大量生成內(nèi)容,由于擴(kuò)散模型的存在,這種“白盒+黑盒”式的內(nèi)容生成甚至帶有“二創(chuàng)”的意味。若能在AIGC的幫助下跨越需求鴻溝,則大型B端項(xiàng)目更容易實(shí)現(xiàn)。
即使由于技術(shù)的發(fā)展使得AIGC變得普及,我們依舊認(rèn)為當(dāng)下階段,toB端才是主要的商業(yè)模式方向,核心原因在于對于B端帶來的效率提升是切實(shí)的,也能夠填補(bǔ)原本很難完成的需求對接,因此客戶付費(fèi)意愿較強(qiáng)。
4.面向C端的AIGC,以SaaS訂閱為主
隨著AI模型與算力的發(fā)展突破了可用的臨界點(diǎn),AIGC對個人的賦能也是值得關(guān)注的方向。在極小的邊際成本下,AIGC應(yīng)用能夠大幅度提高個人的信息處理效率以及內(nèi)容輸出質(zhì)量,而這類技術(shù)又可能反作用于生產(chǎn)關(guān)系的演變。
因此,面向C端的AIGC應(yīng)用,可從兩個角度來探討其商業(yè)價值:第一是作為效率工具,諸如傳統(tǒng)的筆記、日程管理等工具,AIGC應(yīng)用能夠在信息獲取、格式整理和工作流等各個流程提高個人用戶的效率,并且AI模型作為基礎(chǔ)設(shè)施能夠集成到現(xiàn)有的工作流程中;第二是作為創(chuàng)作工具,像剪輯、修圖軟件一樣,AIGC能夠在UGC內(nèi)容流行的今天,大幅度降低大眾用戶的創(chuàng)作門檻,強(qiáng)化個人媒體的IP價值。
從商業(yè)角度而言,將AIGC作為底層基礎(chǔ)設(shè)施的SaaS訂閱將成為中長期趨勢,目前Midjourney等企業(yè)已有類似嘗試。用戶付費(fèi)的邏輯在于以下幾個方面:更高效的信息獲取方式;從輔助表達(dá)到替代表達(dá);集成到已有的工作流;擴(kuò)大用戶創(chuàng)造力。
五、市場規(guī)模
AIGC的意義在于提高內(nèi)容生產(chǎn)力、打開內(nèi)容創(chuàng)作想象空間,這或許也是巨頭爭相加碼AIGC的原因所在。從現(xiàn)有的應(yīng)用場景來看,AIGC已經(jīng)可以替代部分重復(fù)勞動力,并協(xié)助部分創(chuàng)造性勞動,未來AI技術(shù)的發(fā)展有望不斷降低內(nèi)容生產(chǎn)成本、提高生產(chǎn)效率并拓展內(nèi)容邊界。
1.海外巨頭加速布局,未來人機(jī)協(xié)同成大勢所趨
1月23日,微軟宣布與OpenAI展開全新合作,未來將追加投資數(shù)十億美元,2月2日,微軟宣布旗下產(chǎn)品將全線整合ChatGPT,對于微軟而言,ChatGPT在擬人化交流、即時生成內(nèi)容等方面對必應(yīng)(Bing)的賦能有望助其突破谷歌的桎梏,作為回應(yīng),谷歌即刻投資Anthropic并計劃推出類似于ChatGPT的大型語言模型。除了加碼AI文本、代碼生成以外,海外巨頭如Meta、Netflix亦著力布局音視頻等內(nèi)容生成,未來人機(jī)協(xié)同或是大勢所趨。

麥肯錫分析亦顯示,全球數(shù)字化勞動力市場規(guī)模將迅速擴(kuò)大,2030年有望達(dá)到1.7萬億元,其中交互應(yīng)用/企業(yè)流程優(yōu)化/工業(yè)應(yīng)用/特殊應(yīng)用規(guī)模分別達(dá)6247/5213/3215/2583億元。

2.AI技術(shù)數(shù)字商業(yè)的滲透率也將不斷提升
在AIGC的應(yīng)用場景中,率先看到商業(yè)化的是2C的訂閱。從現(xiàn)有技術(shù)成熟度結(jié)合現(xiàn)有的需求成熟度看,從實(shí)時互動內(nèi)容、直接生成內(nèi)容、個性化內(nèi)容、2C內(nèi)容生成工具、2B內(nèi)容生產(chǎn)工具、合成數(shù)據(jù)生成等維度看,2020年AI技術(shù)在數(shù)字商業(yè)核心產(chǎn)業(yè)鏈綜合商業(yè)規(guī)模達(dá)1210億元,伴隨AI技術(shù)應(yīng)用延展,在數(shù)字商業(yè)的滲透率也將不斷提升。到2025年,AI數(shù)字商業(yè)市場規(guī)?;?qū)⑦_(dá)6188億元(年均增速38.6%),2025年預(yù)計中國AI數(shù)字商業(yè)中數(shù)字服務(wù)與數(shù)字商業(yè)內(nèi)容市場規(guī)模分別占比59%、24%(如下圖所示),從復(fù)合增速看(2020年-2025年維度)數(shù)字商業(yè)內(nèi)容與數(shù)字服務(wù)分別為達(dá)到49.9%、40%,而該部分均集中在B端,數(shù)字商業(yè)正成為繼互聯(lián)網(wǎng)商業(yè)后的重要形態(tài)與力量。

3.2030年AIGC市場規(guī)模有望超萬億元
2023年人工智能從學(xué)術(shù)研究逐漸走向產(chǎn)業(yè)化,商業(yè)與AI技術(shù)的融合形成互為支點(diǎn)的發(fā)展格局,進(jìn)入產(chǎn)業(yè)規(guī)模商用期。人工智能技術(shù)將不斷地對AI數(shù)字商業(yè)的各個領(lǐng)域進(jìn)行滲透。據(jù)量子位預(yù)測,2030年AIGC市場規(guī)模有望超過萬億元。在內(nèi)容領(lǐng)域,人機(jī)協(xié)同,對于存量業(yè)務(wù),AIGC的價值在于降本增效,對于增量內(nèi)容其價值在于跨模態(tài)的內(nèi)容生成等。
據(jù)Gartner的“人工智能技術(shù)成熟度曲線”,生成式AI仍處于萌芽期,但其廣闊的應(yīng)用場景和需求空間吸引大量資本和技術(shù)的投入,預(yù)計將在2-5年內(nèi)實(shí)現(xiàn)規(guī)?;瘧?yīng)用。AIGC有潛力產(chǎn)生數(shù)萬億元的經(jīng)濟(jì)價值,AIGC繁榮發(fā)展,將促進(jìn)資產(chǎn)服務(wù)快速跟進(jìn),通過對生成內(nèi)容合規(guī)評估、資產(chǎn)管理、產(chǎn)權(quán)保護(hù)、交易服務(wù)等構(gòu)成AIGC完整生態(tài)鏈,并進(jìn)行價值重塑,充分釋放其商業(yè)潛力,至2025年中國生成式AI商業(yè)應(yīng)用規(guī)模至2070億元。

六、相關(guān)公司
1.視覺中國
公司旗下“元視覺”藝術(shù)網(wǎng)共發(fā)行已收錄入“元視覺”藝術(shù)網(wǎng)“AIGC”專輯的藝術(shù)作品;并與騰訊會議達(dá)成合作協(xié)議,入駐騰訊會議應(yīng)用市場,為騰訊會議用戶提供包括插畫、攝影圖片、動態(tài)圖片以及AIGC-人工智能生成圖片在內(nèi)的各類虛擬背景圖片。2023年1月公司與百度達(dá)成戰(zhàn)略合作,共探AIGC落地新場景,此次合作是國內(nèi)版權(quán)圖庫與AI作畫平臺達(dá)成的首個戰(zhàn)略合作,具有標(biāo)志性意義。視覺中國是國內(nèi)較大的視覺內(nèi)容互聯(lián)網(wǎng)版權(quán)交易平臺,百度文心一格是AI作畫這一新興領(lǐng)域兼顧創(chuàng)新與實(shí)用的代表性平臺。雙方在AIGC賦能內(nèi)容創(chuàng)作上的積極探索,展現(xiàn)了AIGC的多元商業(yè)價值。
2.風(fēng)語筑
A股主板上市公司,中國數(shù)字科技應(yīng)用領(lǐng)域龍頭企業(yè),長年積累的CG特效、人機(jī)交互、裸眼3D、全息影像、VR/AR、AIGC及大數(shù)據(jù)可視化等關(guān)鍵技術(shù)手段,公司的產(chǎn)品及系統(tǒng)廣泛應(yīng)用于政務(wù)服務(wù)、文化體驗(yàn)、數(shù)字展示、文化旅游、新零售體驗(yàn)及數(shù)字藝術(shù)消費(fèi)等眾多領(lǐng)域。元宇宙時代,風(fēng)語筑將充分發(fā)揮公司在3D建模、空間設(shè)計、CG視覺、人機(jī)交互等領(lǐng)域的傳統(tǒng)優(yōu)勢,為元宇宙用戶搭建3D數(shù)字化場景、打造沉浸式交互體驗(yàn),共同運(yùn)營元宇宙虛擬數(shù)字空間,力爭成為元宇宙時代虛擬世界的3D數(shù)字化場景服務(wù)商和3D數(shù)字空間運(yùn)營商。
3.藍(lán)色光標(biāo)
新技術(shù)只有應(yīng)用才有生產(chǎn)力的提升,進(jìn)而重構(gòu)生產(chǎn)關(guān)系,公司在客戶端、內(nèi)容營銷案例端均累積大量素材,利于模型訓(xùn)練,具有較好場景價值。2022年年底藍(lán)色光標(biāo)銷博特發(fā)布AIGC“創(chuàng)策圖文”營銷套件,該套件結(jié)合內(nèi)容營銷業(yè)務(wù)“Know-How”提供從創(chuàng)意、策劃、文案、圖片等內(nèi)容一體化智能生成解決方案,通過AI技術(shù)讓W(xué)eb3.0時代的內(nèi)容營銷實(shí)現(xiàn)實(shí)時在線、即刻生成個性化內(nèi)容,構(gòu)建更有情感、更富質(zhì)感、更具體驗(yàn)感的新營銷方式,實(shí)現(xiàn)個性化內(nèi)容營銷。
銷博特在創(chuàng)意和文案自動生成領(lǐng)域已獲得三個軟件著作權(quán)(創(chuàng)意機(jī)、品牌主張、國風(fēng)文案);同時,在策劃案自動生成領(lǐng)域,銷博特團(tuán)隊(duì)在品牌定位方面結(jié)合NLP技術(shù)并引入數(shù)學(xué)向量運(yùn)算,將心智定位轉(zhuǎn)化成一道道數(shù)學(xué)題,由此形成的品牌定位支持向量機(jī)專利正在受理過程中;此前發(fā)布的“康定斯基”模型的相關(guān)專利和軟件著作權(quán)也正在申請中。.
4.浙文互聯(lián)
浙文互聯(lián)旗下米塔數(shù)字藝術(shù)社區(qū)率先推出米畫創(chuàng)作工具升級版“AI繪畫”,歷經(jīng)多輪算法升級,米塔“AI繪畫”全面支持當(dāng)下流行的繪畫類型,準(zhǔn)確度持續(xù)攀升,成為數(shù)字藝術(shù)創(chuàng)作領(lǐng)域的明日之星。以米畫為代表的AI繪畫工具,正在改變數(shù)字藝術(shù)創(chuàng)作者的繪畫方式,目前,米塔“AI繪畫”對于二次元動漫等繪畫形式已經(jīng)有了高準(zhǔn)確度的支持。下一階段,米畫AIGC算法還將持續(xù)升級,對于全彩CG、國風(fēng)、插畫、蒸汽朋克等流行繪畫類型做出進(jìn)一步優(yōu)化,帶來更加專業(yè)的AI繪畫創(chuàng)作體驗(yàn)。
5.中文在線
公司已推出AI主播、AI繪畫和AI文字創(chuàng)作功能,并在研發(fā)推動更多AIGC功能落地。其中AI主播已在有聲書生產(chǎn)中應(yīng)用,根據(jù)文字故事情節(jié)的真實(shí)語境,用獨(dú)創(chuàng)的情緒情感控制模塊,結(jié)合語音深度學(xué)習(xí)合成技術(shù),真實(shí)還原角色情感,生動模擬人聲音色以塑造角色,講述故事。AI文字創(chuàng)作功能已在17K小說網(wǎng)上線,可自動生成文字內(nèi)容,作者在使用該功能時,通過針對不同的描寫場景填寫關(guān)鍵詞和輔助短語,即可生成對應(yīng)的文字內(nèi)容描寫用于作品使用,目前可針對人物、物品等進(jìn)行AI文字創(chuàng)作,并針對不同的作品類別古風(fēng)、都市等進(jìn)行不同的內(nèi)容適配。未來,隨著技術(shù)的迭代更新,Al可在更多應(yīng)用領(lǐng)域提升內(nèi)容創(chuàng)作效率,產(chǎn)出更多精品內(nèi)容,降低成本,擴(kuò)大更多AI內(nèi)容衍生品類。公司背后AIGC的技術(shù)提供方是瀾舟科技。
6.昆侖萬維
公司推出三個產(chǎn)品天工巧繪SkyPaint、天工妙筆SkyText、天工智碼SkyCode背后依賴中文大模型,后續(xù)公司將持續(xù)優(yōu)化模型,第一個方向是緊跟業(yè)內(nèi)先進(jìn)水平,要訓(xùn)練自己的ChatGPT;第二個方向是要讓文本生圖、文本生代碼、以及文本生文本向?qū)嶋H應(yīng)用上靠近。
7.天娛數(shù)科
公司作為元宇宙應(yīng)用領(lǐng)域的數(shù)字科技企業(yè),依托數(shù)據(jù)、算法、場景三大核心優(yōu)勢,基于對元宇宙數(shù)字科技應(yīng)用需求及痛點(diǎn)的深入理解、挖掘,在需求牽引與技術(shù)驅(qū)動的雙重因素作用下,通過自研的多模態(tài)智能算法與AIGC相關(guān)技術(shù),升級發(fā)布“MetaSurfing-元享智能云平臺”,在原有功能基礎(chǔ)上納入AIGC功能模塊,從而提升專業(yè)人員的生產(chǎn)效率,填補(bǔ)供需間的差距。天娛數(shù)科旗下元境科技自主研發(fā)的“MetaSurfing-元享智能云平臺”的升級上線,進(jìn)一步實(shí)現(xiàn)從文本、音頻等低密度模態(tài)向圖像、視頻、實(shí)時交互等信息密度更高模態(tài)的轉(zhuǎn)化,正式宣告天娛數(shù)科全面邁入智能時代。通過低門檻、高效率、批量化為產(chǎn)品核心思想的生成能力廣泛服務(wù)于各類內(nèi)容的相關(guān)場景及生產(chǎn)者。
8. 阿里巴巴
阿里巴巴智能設(shè)計實(shí)驗(yàn)室于 2017 年自主研發(fā)了鹿班,該產(chǎn)品基于圖像智能生成技術(shù) ,可 以改變傳統(tǒng)的設(shè)計模式,使其在短時間內(nèi)完成大量 banner 圖、海報圖和會場圖的設(shè)計,提 高工作效率。用戶只需任意輸入想達(dá)成的風(fēng)格、尺寸,鹿班就能代替人工完成素材分析、 摳圖、配色等耗時耗力的設(shè)計項(xiàng)目,實(shí)時生成多套符合要求的設(shè)計解決方案。根據(jù)用戶輸入的需求,機(jī)器從無到有經(jīng)過規(guī)劃、行動多輪大規(guī)模計算,生成符合用戶需求和專業(yè)標(biāo)準(zhǔn) 的視覺圖像。在 2017 年雙 11 中,Luban 每秒可以生成 8,000 張海報。
9. 百度
百度持續(xù)在 AI 產(chǎn)業(yè)鏈保持高強(qiáng)度投入,公司搭建的文心大模型體系是業(yè)界規(guī)模最大的產(chǎn)業(yè) 大模型體系之一,覆蓋 NLP 大模型、CV 大模型、跨模態(tài)大模型、生物計算大模型等多領(lǐng) 域的大模型服務(wù)。同時,基于底層大模型,百度提供包括大模型套件、大模型 API、AI 內(nèi) 容生成平臺等AIGC工具與產(chǎn)品應(yīng)用。百度在2月7日宣布其類ChatGPT產(chǎn)品“文心一言” 即將推出,該產(chǎn)品的推出有望進(jìn)一步推動文心大模型應(yīng)用的普及與落地。
10. 騰訊
騰訊在 2022 年 4 月首次對外披露“混元”AI 大模型研發(fā)進(jìn)展,該模型集 CV、NLP、多模 態(tài)理解能力于一體,先后在 MSR-VTT、MSVD 等五大權(quán)威數(shù)據(jù)集榜單中排名第一。2022 年 12 月騰訊“混元”AI 大模型推出國內(nèi)首個低成本、可落地的 NLP 萬億大模型,并再次 在自然語言理解任務(wù)榜單 CLUE 中排名第一。
2022 年 5 月騰訊 QQ 影像中心便在 QQ 小世界推出國內(nèi)第一款基于 AIGC 的“AI 戀愛專屬 畫”520 活動。QQ 影像中心將輸入模型的提示詞分為兩圖片主體內(nèi)容描述和風(fēng)格描述,能 夠穩(wěn)定生成畫面精致、風(fēng)格突出的結(jié)果。此外騰訊旗下人工智能實(shí)驗(yàn)室騰訊優(yōu)圖實(shí)驗(yàn)室長 期聚焦 AI 相關(guān)能力研發(fā),2022年推出了騰訊云神圖·人像變換,基于騰訊優(yōu)圖領(lǐng)先的人臉 識別算法,提供人臉年齡變化、人臉性別轉(zhuǎn)換、人像動漫化等能力。
11.其他相關(guān)公司梳理

七、挑戰(zhàn)及趨勢
AIGC是PGC、UGC之后,全新的內(nèi)容生產(chǎn)方式。不僅能提升內(nèi)容生產(chǎn)的效率以滿足我們飛速增長的內(nèi)容需求,也能夠豐富內(nèi)容的多樣性。在2022年百度世界大會上,李彥宏提到了:“AIGC將走過三個發(fā)展階段:第一個階段是“助手階段”,AIGC用來輔助人類進(jìn)行內(nèi)容生產(chǎn);第二個階段是“協(xié)作階段”,AIGC以虛實(shí)并存的虛擬人形態(tài)出現(xiàn),形成人機(jī)共生的局面;第三個階段是“原創(chuàng)階段”,AIGC將獨(dú)立完成內(nèi)容創(chuàng)作。未來十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實(shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容?!?/p>
1.面臨的挑戰(zhàn)
技術(shù)上來看,雖然當(dāng)前生成的圖片、文字已經(jīng)可以用以商業(yè)用途,但還存在一些問題使得無法滿足較高的質(zhì)量要求。我們可以發(fā)現(xiàn)在二次元或抽象的圖片生成中,AIGC的表現(xiàn)較好。但對于比較具體和細(xì)節(jié)的內(nèi)容,生成的效果不盡如人意。不同的應(yīng)用平臺,輸入幾乎一致信息點(diǎn)的文本,生成的圖片的質(zhì)量和內(nèi)容差距是巨大的。
造成以上的這些問題和差距的原因在哪里呢?我們依舊可以從AIGC的工作原理上來分析:自然語義的理解在處理一些空間關(guān)系上還存在一定的誤差,這也是為什么在空間位置、數(shù)量上存在不精確的問題。目前文本生成圖像時,需要用到文本編碼器將文字映射到圖像上。當(dāng)前主流的、訓(xùn)練完善的是來自與OpenAI的Clip模型,其函數(shù)是開源的,但訓(xùn)練的數(shù)據(jù)集是封閉的。AIGC需要大量的良好畫質(zhì)的文本-圖片對才能訓(xùn)練到Clip這樣的程度。從Clip本身公開的信息來看,它使用了超4億個文本-圖片對來完成訓(xùn)練,這些都是基于英文的。運(yùn)用的AIGC生成算法不同也會導(dǎo)致產(chǎn)生的內(nèi)容的差距;數(shù)據(jù)集的質(zhì)量、合規(guī)性、風(fēng)格偏向都會決定生成的內(nèi)容質(zhì)量。
以上,我們可以看到若要使得AIGC生成的內(nèi)容真正高效地被運(yùn)用在商業(yè)層面,那么自然語言處理、翻譯模型、生成算法和數(shù)據(jù)集這些細(xì)分賽道都還有很大的進(jìn)步空間。
2.未來的發(fā)展方向
(1)未來的發(fā)展重點(diǎn)將更著力于大模型、大數(shù)據(jù)和大算力的方向去發(fā)展
從應(yīng)用軟件方面,自然語言處理、翻譯模型、生成算法和數(shù)據(jù)集這些細(xì)分賽道都還有很大的進(jìn)步空間。更深入地來看,以上這些的發(fā)展需要依托于算力、數(shù)據(jù)的支持。所以未來的發(fā)展重點(diǎn)將更著力于大模型、大數(shù)據(jù)和大算力的方向去發(fā)展。同時,為了讓功能更加精確,將會更多地去開發(fā)一些垂直類的應(yīng)用,畢竟垂直類的應(yīng)用可以更有針對性地為特定功能進(jìn)行訓(xùn)練,成本相對較低。
(2)AIGC技術(shù)層面還需要一定的發(fā)展
從PGC到UGC再到AIGC,AIGC能讓人類突破內(nèi)容生產(chǎn)力枷鎖,高效率生成高質(zhì)量內(nèi)容,讓人類進(jìn)入到真正的元宇宙之中。若要AIGC能夠滿足元宇宙的需求,獨(dú)立完成高質(zhì)量、高精度的內(nèi)容,AIGC技術(shù)層面還需要一定的發(fā)展,我們可以分為軟硬件兩個維度看,軟件層面主要包括自然語言處理技術(shù)、AIGC生成算法模型和數(shù)據(jù)集,硬件層面主要是算力、通信網(wǎng)絡(luò)。
(3)相關(guān)國產(chǎn)算力芯片將有機(jī)會獲得增量市場
從業(yè)務(wù)層面看,結(jié)合國內(nèi)外發(fā)展情況,目前在AIGC的知識產(chǎn)權(quán)歸屬方面尚有法律空缺,且創(chuàng)作倫理問題也未得到有效解決,因此無論是技術(shù)還是商業(yè)層面,高質(zhì)、干凈的數(shù)據(jù)集對于模型訓(xùn)練及內(nèi)容生成均有至關(guān)重要的影響。同時,隨著AIGC逐步落地,其算力需求將大增,未來相關(guān)企業(yè)除用云計算之外,或組建自有算力集群,考慮到英偉達(dá)A100、H100出口受限,相關(guān)國產(chǎn)算力芯片將有機(jī)會獲得增量市場。
(4)AIGC將是推動數(shù)字經(jīng)濟(jì)從Web2向Web3升級的重要生產(chǎn)力工具
從主題投資的角度看,區(qū)塊鏈、元宇宙、Web3均描述了數(shù)字經(jīng)濟(jì)時代中宏大的應(yīng)用場景,而去年被資本市場關(guān)注的虛擬人、NFT等只是其中的具體應(yīng)用之一。我們認(rèn)為,AIGC將是推動數(shù)字經(jīng)濟(jì)從Web2向Web3升級的重要生產(chǎn)力工具:一方面,其對現(xiàn)有的殺手級應(yīng)用——短視頻、游戲等具有顛覆式影響,或進(jìn)一步擴(kuò)大內(nèi)容量、提高成癮性,同時對社交和廣告提供新的工具;另一方面,Web3開放、共建的價值觀下,UGC、AIGC的內(nèi)容會更具吸引力,二次創(chuàng)作、開放想象的浪潮將來臨。目前AIGC已成為硅谷最新熱門方向,國內(nèi)一級市場、互聯(lián)網(wǎng)大廠等對AIGC應(yīng)用關(guān)注度也在快速提升中。
3.技術(shù)轉(zhuǎn)化為生產(chǎn)力的契機(jī)產(chǎn)生
2022年被稱為AIGC元年,這一年AIGC取得了里程碑式的成績,引發(fā)了市場廣泛熱烈的興趣,我們認(rèn)為主要因素是:
包含擴(kuò)散模型在內(nèi)的關(guān)鍵技術(shù)取得突破,技術(shù)可用性顯著提高,產(chǎn)出效率不斷提高,產(chǎn)出效果出現(xiàn)分水嶺,技術(shù)轉(zhuǎn)化為生產(chǎn)力的契機(jī)產(chǎn)生。2021年之前,AIGC生成的主要還是文字,而新一代模型可以處理的模態(tài)大為豐富且可支持跨模態(tài)產(chǎn)出,可支持AI插畫,文字生成配套營銷視頻等常見應(yīng)用場景;
通過國內(nèi)外科技公司的應(yīng)用轉(zhuǎn)化,技術(shù)進(jìn)入民用領(lǐng)域,引起了廣大行業(yè)從業(yè)者、文娛愛好者和投資人的關(guān)注。“智能圖文轉(zhuǎn)視頻”和AI作畫成功破圈,相關(guān)應(yīng)用迭代速度呈現(xiàn)指數(shù)級爆發(fā)。以AI作畫工具為例,水平上限有長足進(jìn)步,雖發(fā)揮并不穩(wěn)定,但結(jié)果輸出極快,可量變引起質(zhì)變,彌補(bǔ)其在創(chuàng)意、想象等方面的不足,滿足一般市場需求。