行業(yè)報告 | AIGC產(chǎn)業(yè)發(fā)展及應用白皮書
原創(chuàng) | 文 BFT機器人

01
計算機視覺迎來高速發(fā)展期,AIGC演進歷程及現(xiàn)狀
1.1 AIGC發(fā)展歷程:從萌芽到沉淀積累

1.2 AIGC發(fā)展歷程:進入快速發(fā)展階段

1.3 內(nèi)容生產(chǎn)方式的進化
AIGC全稱為A-Generated Content,指基于生成對抗網(wǎng)絡GAN、大型預訓練模型等人工智能技術,通過已有數(shù)據(jù)尋找規(guī)律,并通過適當?shù)姆夯芰ι上嚓P內(nèi)容的技術。
主要指基于AI生成的文字、圖像、音頻等。從字面意思上看,AIGC是相對于過去的PCGUCG而提出的。因此,AIGC的狹義概念是利用AI自動生成內(nèi)容的生產(chǎn)方式,但是AIGC已經(jīng)代表了AI技術發(fā)展的新趨勢。
過去傳統(tǒng)的人工智能偏向于分析能力,即通過分析一組數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律和模式并用于其他多種用途。而現(xiàn)在人工智能正在生成新的東西而不是僅僅局限于分析已經(jīng)存在的東西,實現(xiàn)了人工智能從感知理解世界到生成創(chuàng)造世界的躍遷。
從商業(yè)模式來看,AIGC本質上是一種AI賦能技術,能夠通過其高通量、低門檻、高自由度的生成能力廣泛服務于各類內(nèi)容的相關場景及生產(chǎn)者。因此,我們不會將其定義為PGC\UGC之后的新內(nèi)容創(chuàng)作模式,而是認為其在商業(yè)模式上會有大量其他交叉。

2.1 對傳統(tǒng)內(nèi)容生成模式的顛覆與重塑

2.2 AIGC加速元宇宙世界的內(nèi)容構建

3.1 AIGC中的算法和技術進步
AIGC的爆發(fā)得益于算法技術進展,其中包含對抗網(wǎng)絡、流生成模型、擴散模型等等深度學習算法。各類算法功能分別覆蓋了數(shù)各部分數(shù)據(jù)權重的選擇、從噪聲中構建數(shù)據(jù)樣本、不同語言文本翻譯、圖像文字特征值匹配等等。
在多模態(tài)的技術支持下,目前預訓練??忠呀?jīng)從單一的NLP或CV模型發(fā)展到了多種語言文字、圖像、音視頻的多模態(tài)模型。2021年0penAl團隊發(fā)布了AL繪 畫 產(chǎn)品DALLE通過使用者的語言描述去自動生成對應圖像,便是CLIP讓圖片和對話找到交接點。
總的來看,AIGC在2022年的爆發(fā)得益于模型創(chuàng)新推動的生成算法和預訓練模型創(chuàng)新,進而形成了參數(shù)豐富、訓練量大、生成內(nèi)容穩(wěn)定高質量的流水線。

3.2 機器對信息認知的三階段
機器對信息的認知處于第一或第二階段。人在遇到新問題時,會通過以往類似經(jīng)歷總結規(guī)律,并將新的問題套用到規(guī)律中,以推測可能的結果。相應地,機器學習基于對歷史數(shù)據(jù)的歸納和學習,構建出事件模型,并將合適的新數(shù)據(jù)輸入到相應的模型來預測未來。
人類能夠超越觀察達到干預及想象階段,而對于AI來說,目前還處于第一或第二階段,一些復雜的信息還沒辦法處理,人類需要將其簡化后再投喂給機器處理。用戶不再滿足于專業(yè)團隊和用戶創(chuàng)造,對內(nèi)容質量要求更高,AI在提高內(nèi)容生產(chǎn)效率、豐富內(nèi)容多樣性及提供更加動態(tài)且可交互的內(nèi)容上大有可為。
UGC生成的規(guī)?;瘍?nèi)容,創(chuàng)造了大量學習素材,幫助AI實現(xiàn)從學習經(jīng)驗到超越并重構已有經(jīng)驗的飛躍性轉變。

3.3 AIGC技術架構體系的變遷
人工智能從出現(xiàn)到現(xiàn)在已經(jīng)歷四個階段,第一個階段的AI是以邏輯推理為主,A能力以聚焦決策和認知為主,第二個階段的AI則是注重以概率計的建模、學習和計算為主,A1能力開始聚焦感知、認知和決策,第三個階段的AI聚焦學習環(huán)節(jié),注重大模型的建設,AI能力覆蓋學習和執(zhí)行第四個階段則聚焦執(zhí)行與社會協(xié)作環(huán)節(jié),開始注重人機交互協(xié)作,注重人類對人工智能的反饋訓練,當下正處于此階段。

02
AIGC引領數(shù)字化變革
1.1 掀起全領域內(nèi)容生產(chǎn)力革命
隨著ChatGPT的出現(xiàn),其出色的生成能力已經(jīng)開始影響一部分人解決問題的習慣?,F(xiàn)實的應用場景已經(jīng)出現(xiàn)。目前AIGC很典型的應用是利用自然語言描述作為輸入生成各種模態(tài)的數(shù)據(jù),包括:文本、代碼、圖像、語音、視頻、3D模型、場景、音樂等。由這些基本模式的生成任務可以衍生出各種各樣豐富的應用場景。隨著AIGC技術的發(fā)展和人們想象力邊界的擴展,這些場景還將繼續(xù)增加。

1.2 生成式AI如何改變我們的未來?
"AIGC +新聞”: AIGC參與滲透新聞產(chǎn)品滲透的全過程,剪輯環(huán)節(jié),通過使用視頻字幕生成等工具節(jié)省人力時間成本,最大化版權價值,傳播環(huán)節(jié),AIGC應用于以AI合成主播為核心的的新聞報道領域,帶來更好的視覺化體驗,大幅提高生產(chǎn)力。
"AIGC+影視”: 前期的劇本方面,AL通過對海量劇本數(shù)據(jù)進行分析、歸納,按照預設風格快速生產(chǎn)劇本,縮短創(chuàng)作周期的同時。拍攝期間,AIGC通過合成臉與合成場景,打破了物理場景的限制,拓寬了作品想象力的空間。
"AIGC+娛樂”: 借助于AIGC技術,通過趣味性圖像和視頻的生成、打造虛擬偶像、開發(fā)C端數(shù)字化身等方式,娛樂產(chǎn)業(yè)拓寬了自身的輻射邊界

1.3 更個性和多維的內(nèi)容生成方式
不僅是降本增效,更是個性化內(nèi)容生成。A不僅能夠以優(yōu)于人類的制造能力和知識水平承擔信息挖掘、素材調用、復刻編輯等基礎性機械勞動,從技術層面實現(xiàn)以低邊際成本、高效率的方式滿足海量個性化需求。
根據(jù)Sequoiacap數(shù)據(jù),近年來AI模型在手寫、語音和圖像識別、閱讀理解和語言理解方面的表現(xiàn)逐漸超過了人類的基準水平 ,而且AI讓所有人都能夠成為“藝術家”,可無時無刻生成更有創(chuàng)造力、更個性化的內(nèi)容。
通過支持AI生成式內(nèi)容與其他產(chǎn)業(yè)的多維互動、融合滲透從而孕育新業(yè)態(tài)新模式,為各行業(yè)創(chuàng)造新的商業(yè)模式,提供價值增長新動能

1.4 成本更低,效率更高,大幅度提升生產(chǎn)力
內(nèi)容生產(chǎn),特別是創(chuàng)意工作,一向被認為是人類的專屬和智能的體現(xiàn)。如今,AI正大步邁入數(shù)字內(nèi)容生產(chǎn)領域,不僅在寫作、繪畫作曲等多個領域達到“類人”表現(xiàn),更展示出在大數(shù)據(jù)學習基礎上的非凡創(chuàng)意潛能。這將塑造數(shù)字內(nèi)容生產(chǎn)的人機協(xié)作新范式,也讓內(nèi)容創(chuàng)作者和更多普通人得以跨越“技法”和“效能”限制,盡情揮灑內(nèi)容創(chuàng)意。
數(shù)字內(nèi)容邁入強需求、視頻化、拼創(chuàng)意的螺旋式升級周期,AIGC在這階段的發(fā)展迎合了這一需要。從全球來看,人們在線的時間持續(xù)增長,在線新聞、音樂、動漫、影視、文學、游戲的市場規(guī)模仍在上升。
同時,數(shù)字內(nèi)容消費的結構也正轉型升級,從以圖文為主過度到視頻為主,視頻在網(wǎng)絡流量中的占比不斷上升。短視頻和直播的流行,在生產(chǎn)側,讓原本需要長制作周期的視頻變成了可以源源不斷產(chǎn)出的“工業(yè)品”;在消費側,過往需要高注意投入、反復觀看的視頻內(nèi)容變成了一種媒體“貨架”上的“快消品”。
最后,創(chuàng)意仍是核心,仍舊稀缺,需要新的模式輔助創(chuàng)作者持續(xù)產(chǎn)生、迭代和驗證創(chuàng)意。種種因素,都需要更加低成本、高效能的數(shù)字內(nèi)容生產(chǎn)新方式。

2.1 “從無到有”的媒體內(nèi)容生成能力
從內(nèi)容生產(chǎn)的流程看,內(nèi)容生產(chǎn)粗略地由“采集”、“加工”、“審核”三個步驟組成,這三個步驟以線性的方式逐步推進,最終完成內(nèi)容的生產(chǎn)。AIGC技術使得機器可以在內(nèi)容生產(chǎn)過程中盡量實現(xiàn)“自動化”,減少人的工作量;AIGC技術進步使得機器越來越走向自動化”,實現(xiàn)了“從無到有”

2.1 內(nèi)容生產(chǎn)方式從“作坊式”走向“流水線”

3.1 文本生成已實現(xiàn)大范圍的商業(yè)落地
文本生成是AIG實現(xiàn)商業(yè)落地最早的技術之一,技術發(fā)展顯著提高了對于上下文的理解與承接能力、對常識性知識的嵌入能力、中長篇幅生成能力、生成內(nèi)容的內(nèi)在邏輯性等,文本生成迎來質的飛躍。現(xiàn)有的落地場景主要集中在應用型文本生成、創(chuàng)作型文本生成,重點關注閑聊型交互文本生成。

3.2 ChatGPT引領熱潮,大廠加碼布局交互式文本
2022年 11 月 30 日,OpenAl 推出的智能聊天工具 hatGPT 引入 RLHF 機制,降低訓練成本且效果優(yōu)化,不僅能夠對問題作出回答,還能完成短文和詩歌創(chuàng)作、代碼寫作、數(shù)學和邏輯運算等任務,據(jù) Similarweb數(shù)據(jù),ChatGPT 推出僅 2 月平均日活超 1,300萬,引發(fā)社會廣泛關注。
科技巨頭亦加碼布局交互式文本,微軟在 2023 年 1 月追加投資 penAl,未來還計劃將 ChatGPT 整合到旗下的搜索引擎 Bing 中;谷歌通過內(nèi)部研發(fā)與投資 ChatGPT 的競品 Anthropic 來應對挑戰(zhàn)。

3.3 圖像生成:圖像屬性編輯已大規(guī)模落地
圖像生成領域的技術場景可以劃分為圖像屬性編輯、圖像局部生成及更改以及端到端的圖像生成。其中,前兩者的落地場景為圖像編輯工具,而端到端的圖像生成則對應創(chuàng)意圖像及功能性圖像生成兩大落地場景。在圖像編輯領域已獲大規(guī)模應用落地,但由于圖像生成的復雜度遠高于文字,目前仍然難以達到穩(wěn)定可靠的生成高質量圖像。

3.4 文本生成圖畫的可行性已被多款模型證明
2022年被稱為“AI繪畫“之年,多款模型 /軟件證明了基于文字提示得到效果良好的圖畫的可行性,OpenAl推出了GLIDE,是一種擴散模型,參數(shù)僅35億。
支持CLIP引導(經(jīng)訓練后的噪聲感知64X64 ViT-L CLIP模型)和無分類器引導,支持部分P圖和迭代生成隨后為DisCO Dlffusion,該免費開源項目搭載在Google Colab上,需要一定的代碼知識,更擅長夢境感的抽象畫面,在具象生成和較多的描述語句上效果較差。
隨后Disco Difusion的作者之一推出了A1繪畫聊天機器人Midiurney,該軟件搭載在Disord上商業(yè)化和產(chǎn)品化更為成熟。
就設計行業(yè)而言,AIGC與創(chuàng)意設計深度碰撞融合、驅動內(nèi)容生產(chǎn)機制革新的智能創(chuàng)作時代已經(jīng)到來。近日,深耕創(chuàng)意設計領域的創(chuàng)客貼正式推出人工智能繪畫產(chǎn)品 [AI畫匠],依托近十年的設計行業(yè)專業(yè)沉淀與前沿的AIGC技術加持,為藝術家、創(chuàng)意者、設計師及普通大眾帶來更加智能、更富靈感的設計工具創(chuàng)新體驗。

03
AIGC應用場景及案例
1.1 AIGC創(chuàng)造價值的主陣地
我們將AIGC產(chǎn)業(yè)劃分為內(nèi)容領域和延展領域。內(nèi)容領域是目前已經(jīng)能夠、但并未有效實現(xiàn)商業(yè)化的領域,預估未來1-2年之內(nèi)會有相對完整的產(chǎn)業(yè)生態(tài)發(fā)展。而延展領域,由于對AI生成的自由度和穩(wěn)定性有更高的技術要求,在國內(nèi)的應用落地相對內(nèi)容領域會更晚。
業(yè)界認為,由于能夠更加充分體現(xiàn)AIGC系統(tǒng)聯(lián)動及要素拆解兩大關鍵優(yōu)勢,延展領域后期將成為AIGC創(chuàng)造價值的主陣地,提供AIG(的想象空間天花板。

1.2 AIGC的商業(yè)化潛力
由于AIGC目前產(chǎn)業(yè)化程度有限,大量業(yè)務場景尚未成功變現(xiàn),我們目前尚無法對市場規(guī)模進行精準測算。在參考相關創(chuàng)作軟件、已有成功商業(yè)化案例、AIGC預估功能等因素的基礎上,我們對各細分場景的商業(yè)化潛力進行了如下估算。

2.1 內(nèi)容行業(yè)的內(nèi)在需求是發(fā)展的利好條件
1.內(nèi)容消費量增加,急需降低生產(chǎn)門檻,提升生產(chǎn)效率
隨著內(nèi)容消費的碎片化,對內(nèi)容產(chǎn)出的多樣性有了更高要求,例如不同的宣傳物料,在不同的渠道/位置上都有特定的設計要求,需要區(qū)別生產(chǎn),增加了內(nèi)容總體的需求量。?
保證內(nèi)容的持續(xù)供給,這一需求進入元宇宙會更加明顯,需要海量內(nèi)容來填補數(shù)字世界內(nèi)容的供給缺口,需要增加更多具有創(chuàng)作技能的人,如軟件工程師、畫手等。這可以通過提升原有人群的創(chuàng)作效率,賦能非專業(yè)人士。
2.內(nèi)容消費升維,消費者要求更為豐富的感官體驗
隨著相關內(nèi)容消費硬件的提升,消費者對內(nèi)容形態(tài)要求也會更高。從2G時代的文字,3G時代的圖片,4G時代的視頻,以及5G時代將充分增長的直播,通信及硬件的持續(xù)增長使得主流的內(nèi)容消費形態(tài)不斷變化,消費內(nèi)容不斷升維。
無論是更高質量的視頻或CG內(nèi)容,還是預估將成為下一代主流的VR/AR內(nèi)容,提供更加海量和豐富的感官體驗已經(jīng)成為一種必然。
3.內(nèi)容生成個性化和開放化,用戶端表達意愿明顯上升
內(nèi)容消費可能從內(nèi)容本身,轉移到內(nèi)容的參與者身上,參與者希望能夠對內(nèi)容本身施加更多的影響。例如具有一定不可預 測性,以及和個人綁定的特殊情節(jié)/特征。在這種思路下二次內(nèi)容創(chuàng)作的占比將有所提升,內(nèi)容在抵達每個個體時都需要通過工具進行二次改造和發(fā)散
4.元宇宙要求內(nèi)容有新的自動生成機制
此外,AIGC也和2022年的熱詞元宇宙緊密相關。據(jù)rct AI評價,元宇宙需要永續(xù)性、自增長和大規(guī)模。特別是自增長,在沒有人力不斷保證內(nèi)容增長的時候,他需要有自己驅動發(fā)生的底層機制。要維持他不斷的成長,就一定需要一個背后的核心運行機制。過往的游戲策劃等人力崗位難以滿足這一需求,AI成為新的底層動力。
2.2 內(nèi)容生成類型輻射多個應用場景及行業(yè)

2.3 AIGC實現(xiàn)了AI技術對各個行業(yè)的升級迭代

2.4 AIGC推動了營銷過程中交互對于用戶心智的理解作用

3.1 應用革命序幕拉開,應用滲透不斷加劇
以ChatGPT為代表的生成式AJ讓每個人命令計算機解決問題成為了可能。可對生產(chǎn)工具、對話引鑒、個人助理等各類應用,起到協(xié)助人、服務人甚至超越人的角色。憑借此革命性突破,ChatGPT在搜索引擎與各類工具軟件中率先掀起應用熱潮,引起了廣大用戶對ChatGPT相關技術的關注與學習。
海量下游應用也因此捕捉到新的技術與產(chǎn)業(yè)機會,希望通過各類大模型與工程化能力,將類ChatGPT產(chǎn)品能力輸送到原有的應用中,關于應用革命的序幕就此拉開。
這些模型可以自動學習語言中的模式,并生成自然語言文本,從而能夠執(zhí)行各種任務,例如自動問答、機器翻譯、摘要生成、語音識別等。在自動問答方面,ChatGPT可以根據(jù)用戶提供的問題,生成準確的回答。
這種技術已經(jīng)被應用到許多領域,包括客服、教育醫(yī)療等。在機器翻譯方面,ChatGPT可以將一種語言轉換成另一種語言,幫助人們跨越語言障礙。hatGPT等大型語言模型正引領著應用革命的潮流,使得機器智能在越來越多的領域得到了應用。

3.2 B端海量應用需求待滿足,G端尚處于嘗試及觀望期
在B端企業(yè)服務應用中,類ChatGPT產(chǎn)品可嵌入原有企業(yè)服務進行升級,包括知識檢索、數(shù)據(jù)分析、輔助編程、數(shù)字員工、交互硬件數(shù)字人等企業(yè)級應用都將被重構。
G端市場則相對特殊,雖存在大量潛在高價值應用場景和未滿足需求,但基于自主可控、私有化部署與可信AI需求,以及“數(shù)據(jù)煙囪”導致的高質量數(shù)據(jù)資源乏,使現(xiàn)階段G端應用還處于觀望期。但國家大數(shù)據(jù)局的成立,將加快我國政務大數(shù)據(jù)管理與體系建設。

3.3?互動朔源的新搜索方式
集成了ChatGPT版搜索引擎的New Bing改變了檢索引擎的內(nèi)容呈現(xiàn)邏輯,用戶在短時間內(nèi)可獲取更可靠、更完整、更具備創(chuàng)意的答案,且因接入實時網(wǎng)絡數(shù)據(jù)同時滿足對數(shù)據(jù)實時性要求。
憑借全新的搜索體驗,New Bing收獲了較大的用戶流量。與此同時,谷歌與百度雖均發(fā)布了與ChatGPT對標產(chǎn)品,但并未直接嵌入搜索引擎中,不過谷歌正在測試幾款集成了類hatGPT對話式功能的新搜索產(chǎn)品;360作為國內(nèi)搜索引擎追趕玩家,發(fā)布大模型產(chǎn)品并整合入搜索產(chǎn)品中,意圖搶占用戶流量。

3.4 AIGC與數(shù)字人的結合,推動多模態(tài)交互
虛擬人系統(tǒng)框架一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互五個核心模塊構成虛擬人構建的“五橫體系”交互模塊為可擴展項,依據(jù)是否具有交互模塊可講虛擬人分為交互型虛擬人和非交互型虛擬人,其交互型虛擬人依據(jù)其驅動方式的不同,又可分為智能驅動型虛擬人和真人驅動型虛擬人。
其中虛擬人制作過程中核心關鍵技術應關注:建模、驅動、渲染和人工智能其決定了虛擬人的外在形象的美觀度、動作的流暢度以及交互的自然度及虛擬人的智能程度。

3.5 數(shù)字人與營銷數(shù)字化
虛擬人視頻生成是目前計算驅動型虛擬人應用最為廣泛的領域之一,不同產(chǎn)品間主要的區(qū)分因素包括: 唇形及動作驅動的自然程度語音播報自然程度、模型呈現(xiàn)效果(2D/3D、卡通/高保真等)、視頻渲染速度等。
我們在此關注到了小冰公司與每日財經(jīng)新聞合作的虛擬人實時直播,除虛擬人的自動生成外,還包括了摘要、圖示、表格等的自動生成,在虛擬人的基礎上,交付了更為完整的AIGC內(nèi)容播報產(chǎn)品。此外,倒映有聲的TTSA除虛擬人外,還包括整個畫面中的素材呈現(xiàn),相較于市面上嘴形、面部和身體律動的有限覆蓋,虛擬人播報的整體效果也有所提升
B站-up主結合AI繪畫、ChatGPT、智能語音等AI工具,以手把手教學教程的形式制作了已去世奶奶的虛擬數(shù)字人視頻。已故老人的虛擬人視頻絕對是一個巨大是隱形市場需求。

3.6 AIGC降低構建效果圖的難度和成本
AIGC的價值在于營銷內(nèi)容的快速迭代更新和更為個性化的內(nèi)容物料生成。基于AIGC的個性化內(nèi)容營銷,主要是指由AI生成系統(tǒng)與底層的客戶數(shù)據(jù)系統(tǒng)營銷效果反饋系統(tǒng)進行數(shù)據(jù)聯(lián)通,實時根據(jù)相關數(shù)據(jù)調整生成需求,由AI快速迭代相關內(nèi)容生成,進而提升個性化營銷的效率和精準性。
AIGC能夠提高營銷效果的關鍵在于基礎素材收集分析、營銷策略設定、技術生成、評估優(yōu)化、數(shù)據(jù)回流等方面的共同發(fā)展。根據(jù)內(nèi)容不同,可以將個性化內(nèi)容營銷分為圖像生成和文本生成,目前文本領域落地相對較多,國外已出現(xiàn)不少代表性公司。
圖像生成:AI生成商品模特,提高廣告視覺效果。如Rosebud Al可以自動生成不同的模特面孔以定位不同客戶,實現(xiàn)千人于面的廣告效果,利用其AI生成的模特的第一個活動增加了22%的點擊率。
此外時尚平臺Zalando的營銷部門研究出一種新穎的方法,可以生成時尚模特穿著定制服裝的高分辨率圖像實現(xiàn)不同顏色、款式的服裝在不同造型、姿勢的AI模特身上試穿,以供消費者參考。文本生成:AI生成廣告文案、商品描述等。Pencil基于品牌、受眾和產(chǎn)品的信息為營銷人員提供AI生成的標題和產(chǎn)品描述。

3.7 辦公軟件革新,解放基礎性辦公勞動力
2023年3月17日,微軟正式發(fā)布 Microsoft 365 Copilot,將GPT-4與ChatGPT能力融入了0fice 365全棧生產(chǎn)力工具,并推出匯集了0fice 365數(shù)據(jù)的Business hat功能,較大提升了數(shù)字化辦公的智能化水平,可有效解放重復性的基礎辦公勞動力。目前能與微軟Microsoft 365 Copilot對標的成型產(chǎn)品為谷歌的Workspace。
作為國內(nèi)領先的協(xié)同辦公軟件提供商,金山辦公也不甘落后。2023年4月18日,金山辦公正式發(fā)布了具備大語言模型能力的生成式人工智能應用,暫定代號“WPS A”,這也是國內(nèi)協(xié)同辦公賽道首個類ChatGPT式應用,今后還將持續(xù)向AIGC、閱讀理解和問答、人機交互三個方向深耕。

4.1 AIGC帶來的社會價值
AIGC 強大的生成能力,也將延伸、輻射至其他領域。比如在醫(yī)療行業(yè),AI生成治療方案、AI生成語音幫助失聲者“開口說話”,在傳媒行業(yè),虛擬主持人、寫稿機器人、AI語音生成播報等,在設計領域,AI快速生成大量案例,幫助設計師產(chǎn)生靈感等。
同時,AIGC也構成了數(shù)字人和元宇由這些新興技術形態(tài)的基礎能力。本部分講述兩個具體案例以詮釋AIGC的社會價值,分別為AI語音生成和AI修復文物。
1.AI+人
彼得·斯科特·摩根是英國的一位計算機科學家,他被診斷出患有ALS(肌萎縮側索硬化癥)。他開發(fā)了一個先進的機器人系統(tǒng),包括傳感器、執(zhí)行器等設備,并可以通過語音命令或眼神控制與外部環(huán)境進行交互。
這個系統(tǒng)幫助他在日常生活中實現(xiàn)了吃飯、喝水、看電視等基本需求,并成為最為先進的半機械人系統(tǒng)之一。斯科特·摩根的成果為其他殘疾人士提供了新的思路和參考,同時也推動了人類社會對于生命、科技、社會等問題的思考。
2.AI 文物修復
在文物修復領域,技術能實現(xiàn)的兩種路徑,包括數(shù)字采集和數(shù)字修復,前者是讓文物在數(shù)字世界重塑,而后者是讓文物在數(shù)字世界再造。騰訊公司利用360度沉漫式展示技術、智能音視頻技術、人工智能等技術手段,助力文物的數(shù)字化分析與診療。
針對常見的警回病害類型,騰訊通過深度學習壁畫病害數(shù)據(jù),形成自動識別并添加圖示的一整套算法,打造出高效的AI壁畫病害識別工具。利用文心大模型的AIGC能力,百度讓《富春山居圖》得以重生,也是AIGC運用于文物修復的一個范例。
04
面臨問題及未來趨勢
1.1?AIGC驅動力與制動力

1.2 大規(guī)模與訓練模型引發(fā)風險的討論
全球科技界都在為此輪生成式A熱潮狂歡,提振AI產(chǎn)業(yè)發(fā)展信心的消息層出不窮: 美國科技企業(yè)或布局追趕或投身下游應用開發(fā)與生態(tài)集合;中國企業(yè)也積極布局類ChatGPT、類Midjourney產(chǎn)品開發(fā),國內(nèi)巨頭紛紛公開大模型研發(fā)進展與計劃。
但在一片欣欣向榮中,漸漸也有反對的聲音出現(xiàn):“ChatGPT取代人類”,“A Risk下ChatGPT的叛逃”、“LLMs助推欺詐和恐怖主義”,"“打開AGI潘多拉魔盒"等討論甚器塵上。
大模型開發(fā)與應用企業(yè)也已認識到治理的重要性,例如通過RLAIF(減少人類反饋信息》、去除危險內(nèi)容生成、監(jiān)管框架等手段解決模型偏見。濫用等風險問題。OpenAl也于4月6日發(fā)布《Our approach to Al safety》,應對安全和倫理質疑。
作為突圍性產(chǎn)品,ChatGPT的革新價值被充分印證。雖然其誘發(fā)的風險不容忽視,但少數(shù)人的“叫?!辈⒉荒軠p緩商業(yè)巨頭和產(chǎn)業(yè)生態(tài)的推進步伐。而AIGC技術也并非是“懸頂之劍”圍繞其風險與倫理問題的討論與解決方案探索,將助推AIGC產(chǎn)業(yè)的可持續(xù)發(fā)展。
1. 壟斷與隱私風險
AI民主化訴求下,對于大模型開源或閉源的路徑討論持續(xù)存在,OpenAl也經(jīng)歷了從非營利性向半營利性組織的轉變過程; AIGC產(chǎn)品目前多為公有云部署形式,且私密信息存在被推導出的可能用戶使用過程中存在個人隱私信息泄露風險,商業(yè)組織和國家信息泄露威脅企業(yè)和國家安全。
2. 偏見與錯誤信息風險
大語言模型是基于現(xiàn)實世界的語言數(shù)據(jù)預訓練而成,數(shù)據(jù)偏見性可能生成有害內(nèi)容; 通過基于人類反饋的強化學習使模型生成結果更符合人類預期,存在基于標注人員導致的偏見風險;在醫(yī)學法律等敏感領域,生成的錯誤信息易導致直接傷害。
3. 用戶濫用風險
主要指用戶對AIGC產(chǎn)產(chǎn)生結果的不當使用,例如學生在作業(yè)或考試中直接使用生成結果作弊、不法分子使用生成圖像或文字內(nèi)容,進行造謠或勒索等,且存在知識產(chǎn)權風險濫用風險的形式將更多樣化,但對生成內(nèi)容鑒別的技術研究也已在同步推進
1.3 AIGC發(fā)展面臨的四個挑戰(zhàn)
1.知識產(chǎn)權挑戰(zhàn)
AIGC作品既存在被他人侵權的風險,也存在侵犯他人權利的可能性AI要變得更加智能,一個必要的環(huán)節(jié)就是深度學習。這就需要一個龐大的人類作品數(shù)據(jù)庫,讓算法學會創(chuàng)作風格、內(nèi)容題材等創(chuàng)作的要領。
如果未經(jīng)許可,通過網(wǎng)絡爬蟲爬取他人享有著作權的在線內(nèi)容,在我國現(xiàn)行著作權法沒有明確將數(shù)據(jù)挖掘等智能化的分析行為規(guī)定為合理使用的情況下,此類行為可能構成著作權侵權。
2.安全挑戰(zhàn)
AIGC的惡意使用或濫用,容易引發(fā)的深度合成詐騙、色情、誹謗假冒身份等新型違法犯罪行為。不法分子利用開源的AIGC模型或工具,可以以更低的門檻、更高的效率來制作出音視頻、圖片和文字等種類豐富的、真?zhèn)伪鎰e難度大的虛假信息,同時也更容易地盜用用戶身份,以此開展新型詐騙等非法活動。
3.倫理挑戰(zhàn)
算法歧視問題,一直是人工智能創(chuàng)新和應用中始終難以避免的倫理問題。雖然有人認為,預訓練模型用更多、更多元全面的數(shù)據(jù)量和參數(shù)進行訓練,可以避免算法歧視的問題。但是基于預訓練模型的AIGC依然存在較為嚴重的歧視問題。比如,目前已有研究顯示預訓練語言生成模型會再現(xiàn)有害的社會偏見和刻板印象。
4.環(huán)境挑戰(zhàn)
AI模型訓練消耗大量算力,碳排放量驚人。而實際上,隨著近年來AI的人們已經(jīng)開始意識到AI的碳排放問題。如下圖,馬薩諸塞大學阿默斯特分校的練幾種常見的AI模型進行了生命周期評估。他們發(fā)現(xiàn)該過程可排放超過626,00碳當量,幾乎是美國普通汽車生命周期排放量的五倍。
1.4 關于AIGC的未來展望
從行業(yè)重點,關鍵場景、玩家分布情況等情況來看,我國目前尚未進入真正的AIGC階段,在細分賽道上出現(xiàn)了個別優(yōu)秀的先行公司及研究機構但目前行業(yè)尚未進入大規(guī)模驗證和體系化發(fā)展的階段。
場景上來看,目前最關鍵的是內(nèi)容領域需求較為飽和,且降本增效尚不夠迫切。細分來看,虛擬人行業(yè)將成為產(chǎn)業(yè)中短期增長的關鍵動力。玩家需要尋找容錯率較高、專業(yè)度或創(chuàng)意要求有限的場景。但長期而言,AGC依舊需要有需求更加清晰且明確的消費落地場景,例如實時性場景(如實時互動、實時反饋類場景)和高度個性化生成場景。
1. 2022-2023-適用磨合期,拼接式生成為主導
多項AIGC被應用但仍未構成核心場景個別產(chǎn)業(yè)方開始適用AIGC能力,小規(guī)模進入實際業(yè)務場景。
模塊分拆 + 個性化推薦成為重要創(chuàng)新模式,結構化模塊化的內(nèi)容數(shù)據(jù)成為行業(yè)發(fā)展關鍵能力。虛擬員工等形式由頭部AIGC引入各使用場景。
2.2024-推廣應用期,提供參考創(chuàng)意,人機共創(chuàng)
人機共創(chuàng)成為普遍形式,通過完成內(nèi)容創(chuàng)作中的大部分參考性工作,應用價值得到普遍承認。
AIGC開始在各內(nèi)容領域普遍發(fā)揮重要作用,此階段仍然以降本增效和提供創(chuàng)意為主要價值。入局玩家增多,預計互聯(lián)網(wǎng)大廠將開始普遍進入賽道。
3.2026-價值增長期,自主生成,產(chǎn)生附加價值
AIGC在個性化、實時化、自主迭代等方向上的延展價值得到充分發(fā)揮,和其他業(yè)務系統(tǒng)進行緊密鏈接。
能夠形成一個持續(xù)自己運營的內(nèi)容體系預計會催生出完全不同的新業(yè)態(tài)。AIGC成為內(nèi)容領域基礎設施,自身產(chǎn)業(yè)鏈條完善。
報告編輯:智能機器人系統(tǒng)
報告出品方:創(chuàng)客貼
更多精彩內(nèi)容請關注公眾號:BFT機器人
本文為原創(chuàng)文章,版權歸BFT機器人所有,如需轉載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應。