計算機行業(yè)報告:大模型與數(shù)據(jù)共振,數(shù)據(jù)要素市場方興未艾
報告出品方: 國金證券
以下為報告原文節(jié)選
------
1.數(shù)據(jù)要素市場是數(shù)字經(jīng)濟發(fā)展的核心引擎
1.1數(shù)據(jù)成為生產(chǎn)要素,成為數(shù)字經(jīng)濟時代的“石油”
數(shù)據(jù)要素作為較新的經(jīng)濟學概念,準確清晰地理解和定義數(shù)據(jù)要素市場相關概念是探索和培育數(shù)據(jù)要素市場模式和方向的重要前提,根據(jù)國家工業(yè)信息安全發(fā)展研究中心報告,我們給出以下對數(shù)據(jù)、數(shù)據(jù)資源和數(shù)據(jù)資產(chǎn)的定義:
1)數(shù)據(jù):是指所有能夠輸入計算機程序處理、反映一定事實、具有一定意義的符號介質(zhì)的總稱。
2)數(shù)據(jù)資源:是指按一定規(guī)則排列組合的物理符號集合,用于承載或記錄信息,這些信息可以是數(shù)字、文字、圖像,也可以是計算機代碼的集合。
3)數(shù)據(jù)資產(chǎn):本質(zhì)上是產(chǎn)權的概念,是指個人或企業(yè)擁有或控制的、以物理或電子方式記錄的能夠為個人或企業(yè)帶來經(jīng)濟利益的數(shù)據(jù)資源。
數(shù)據(jù)已成為新型生產(chǎn)要素,具有勞動工具和勞動對象的雙重屬性。生產(chǎn)要素是指進行社會生產(chǎn)經(jīng)營活動所必需的資源和環(huán)境條件,隨著經(jīng)濟的發(fā)展,生產(chǎn)要素的具體形態(tài)和主次序列不斷變化,傳統(tǒng)的生產(chǎn)要素主要包括土地、資本、技術和勞動力,在5G、物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、區(qū)塊鏈和人工智能等技術的共同作用下,數(shù)據(jù)對生產(chǎn)的貢獻日益突出。作為新型生產(chǎn)要素,數(shù)據(jù)具有勞動工具和勞動對象的雙重屬性,作為勞動對象,數(shù)據(jù)通過采集、加工、存儲、流通和分析等環(huán)節(jié)具有價值和使用價值,作為勞動工具,數(shù)據(jù)通過融合應用能夠提高生產(chǎn)效率,推動生產(chǎn)力的發(fā)展。數(shù)據(jù)要素市場的目標是實現(xiàn)數(shù)據(jù)要素的市場化配置,將數(shù)據(jù)要素從尚未完全由市場配置轉(zhuǎn)向由市場配置的動態(tài)過程,其目的是建立以市場為基礎的調(diào)配機制,實現(xiàn)數(shù)據(jù)的流動價值或在流動中產(chǎn)生價值。
數(shù)據(jù)要素主要通過業(yè)務貫通、數(shù)智決策和流通賦能三條途徑實現(xiàn)自身價值。首先,數(shù)據(jù)投入生產(chǎn)的一次價值體現(xiàn)在支撐企業(yè)和政府的業(yè)務系統(tǒng)運轉(zhuǎn),實現(xiàn)業(yè)務間的貫通,為釋放數(shù)據(jù)要素的初級價值,政府和企業(yè)的主要任務是推進業(yè)務的數(shù)字化和各類業(yè)務信息系統(tǒng)的建設。其次,數(shù)據(jù)要素二次價值釋放體現(xiàn)在通過加工、分析、建模等過程,揭示出更深層次的關系和規(guī)律,從而使生產(chǎn)、經(jīng)營、服務和治理等環(huán)節(jié)的決策更加智慧、智能和精準,該過程對企業(yè)的數(shù)據(jù)挖掘和分析能力提出了更高的要求。最后,數(shù)據(jù)要素的三次價值釋放體現(xiàn)在將數(shù)據(jù)流通到更需要它的地方,讓不同來源的優(yōu)質(zhì)數(shù)據(jù)在新的業(yè)務需求和場景中匯聚和融合,實現(xiàn)雙贏和多贏的價值利用。
從產(chǎn)業(yè)鏈的角度出發(fā),我們將數(shù)據(jù)要素市場歸結(jié)為數(shù)據(jù)采集、存儲、加工、流通、分析和生態(tài)保障六大模塊。數(shù)據(jù)采集環(huán)節(jié)關注確保數(shù)據(jù)采集的準確性和全面性。數(shù)據(jù)存儲環(huán)節(jié)關注確保數(shù)據(jù)存儲的安全性和實時調(diào)用的可行性。數(shù)據(jù)加工環(huán)節(jié)關注確保數(shù)據(jù)加工的精度和準確性。數(shù)據(jù)流通環(huán)節(jié)是數(shù)據(jù)要素市場的核心環(huán)節(jié),關注在保障所有者權利的前提下進行合理合規(guī)的數(shù)據(jù)流通。數(shù)據(jù)分析環(huán)節(jié)關注深度分析和挖掘數(shù)據(jù)的價值和潛力。生態(tài)保障環(huán)節(jié)包括數(shù)據(jù)資產(chǎn)評估、登記結(jié)算、交易撮合、爭議仲裁以及跨境流動監(jiān)管等,旨在為數(shù)據(jù)要素市場各主體提供有效的保障,并構(gòu)建一個良好的市場生態(tài)。
數(shù)據(jù)要素產(chǎn)業(yè)圖譜清晰,國內(nèi)企業(yè)集中度較高。雖然數(shù)據(jù)要素作為一個較新的經(jīng)濟學概念,但與數(shù)據(jù)相關的產(chǎn)業(yè)已經(jīng)在國內(nèi)經(jīng)過了較長時間的發(fā)展,例如在數(shù)據(jù)存儲方面信創(chuàng)之風已經(jīng)提前帶領國內(nèi)數(shù)據(jù)庫反彈復蘇,以華為、阿里和騰訊為首的云數(shù)據(jù)庫,以及以達夢、南大通用為首的傳統(tǒng)數(shù)據(jù)庫,還有 OceanBase、GoldnDB 和 TiDB 等國內(nèi)分布式交易型數(shù)據(jù)庫快速發(fā)展。除此之外,AI 大模型的快速崛起也大幅增加了對模型訓練的需求,數(shù)據(jù)加工中的數(shù)據(jù)清洗、標注和審核等工作需求激增,百度 EasyData、海康 NLP 等技術獲得關注。
數(shù)據(jù)流通環(huán)節(jié)作為二級市場的關鍵環(huán)節(jié),在數(shù)據(jù)確權和隱私計算方面的國內(nèi)企業(yè)如拓爾思、易華錄等公司獲得市場資金大幅支持。生態(tài)保障的主要參與者是政府機構(gòu)和組織,例如北京數(shù)據(jù)資產(chǎn)評估中心、大數(shù)據(jù)交易所以及國家數(shù)據(jù)局等監(jiān)管機構(gòu)等。
我國數(shù)據(jù)要素市場規(guī)模持續(xù)擴張,數(shù)據(jù)要素成為數(shù)字經(jīng)濟發(fā)展新引擎。數(shù)字化的本質(zhì)是在信息化的基礎上,對系統(tǒng)產(chǎn)生的數(shù)據(jù)要素,利用大數(shù)據(jù)、AI、區(qū)塊鏈等數(shù)字技術,進行流程改造、數(shù)據(jù)決策、商業(yè)模式重構(gòu)等全新的價值開發(fā),核心目的是實現(xiàn)商業(yè)增量。國家工業(yè)信息安全發(fā)展研究中心數(shù)據(jù)顯示,我國 2021 年數(shù)據(jù)要素市場規(guī)模達 815 億元,預計“十四五”發(fā)展期間年均增長率達 25%,有望在 2025 年達到 1,990 億元的市場規(guī)模。同時可以發(fā)現(xiàn),2022 年我國數(shù)據(jù)要素市場中數(shù)據(jù)存儲、分析和加工行業(yè)位列前三,隨著人工智能和互聯(lián)網(wǎng)技術的進步,數(shù)據(jù)量的增大對數(shù)據(jù)存儲提出了更高要求,數(shù)據(jù)的安全、可靠和隱私存儲市場需求逐步擴張,AI 大模型的快速演進帶動數(shù)據(jù)加工中的清洗和標注工作需求量激增,我們看好數(shù)據(jù)要素行業(yè)相關企業(yè)未來的快速發(fā)展。
1.2 政策催化強勁,行業(yè)景氣度拐點已至
從政策到頂層管理架構(gòu),數(shù)據(jù)要素體系根基逐漸穩(wěn)固。2019 年黨的十九屆四中全會首次將數(shù)據(jù)列為生產(chǎn)要素,表明國家大力發(fā)展數(shù)字經(jīng)濟的決心,并標志著數(shù)據(jù)從資源向要素的轉(zhuǎn)變。2020 年 4 月,中共中央、國務院發(fā)布了《關于構(gòu)建更加完善的要素市場化配置體制機制的意見》,明確將數(shù)據(jù)市場與土地市場、勞動力市場、資本市場和技術市場列為加快培育的五大核心生產(chǎn)要素市場之一,數(shù)據(jù)要素進入市場化階段。2022 年 12 月,國務院發(fā)布“數(shù)據(jù)二十條”這一綱領性文件,確立了數(shù)據(jù)要素發(fā)展頂層指導框架。2023 年 3 月,國家數(shù)據(jù)局成立,負責協(xié)調(diào)推進數(shù)據(jù)基礎制度建設,統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用,統(tǒng)籌推進數(shù)字中國、數(shù)字經(jīng)濟、數(shù)字社會規(guī)劃和建設等。地方層面,多個省市密集發(fā)布數(shù)據(jù)要素相關政策,數(shù)據(jù)要素產(chǎn)業(yè)進入實質(zhì)性落地階段。
頂層文件“數(shù)據(jù)二十條”搭建數(shù)據(jù)要素“四梁八柱”。2022 年 12 月 19 日,《中共中央國務院關于構(gòu)建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》正式對外發(fā)布,又稱“數(shù)據(jù)二十條”,這是繼 2020 年 4 月 10 日發(fā)布的《中共中央國務院關于構(gòu)建更加完善的要素市場化配置體制機制的意見》之后首次全面明確國家級政策文件中的數(shù)據(jù)基礎制度。“數(shù)據(jù)二十條”涵蓋了四個制度領域,包括數(shù)據(jù)產(chǎn)權、流通交易、收益分配和安全治理。在數(shù)據(jù)產(chǎn)權方面,建立數(shù)據(jù)資源持有權、數(shù)據(jù)加工使用權和數(shù)據(jù)產(chǎn)品經(jīng)營權的“三權分置”結(jié)構(gòu)。
在流通交易環(huán)節(jié),建立場內(nèi)外結(jié)合的數(shù)據(jù)要素流通和交易制度。在收益分配方面,遵循了“誰投入、誰貢獻、誰受益”的原則。在實行貢獻值分配的基礎上,還關注公益和相對弱勢群體的利益,在再分配環(huán)節(jié)進行相應的考慮。在安全治理方面,通過“以鏈治數(shù)”的監(jiān)管模式,實現(xiàn)了數(shù)據(jù)要素的安全可信流通。“數(shù)據(jù)二十條”的發(fā)布對于更好地發(fā)揮數(shù)據(jù)要素的作用具有重要意義,為數(shù)據(jù)基礎制度的建設提供了全面的指導和規(guī)范。
國家數(shù)據(jù)局獲批成立,職責權限明晰集中有望實現(xiàn)數(shù)據(jù)要素發(fā)展再提速。2023 年 3 月,《黨和國家機構(gòu)改革方案》印發(fā),該方案在保持現(xiàn)有工作格局的總體穩(wěn)定的前提下,提出了整合共享和開發(fā)利用數(shù)據(jù)資源的職責相對集中的要求。根據(jù)該方案,國家數(shù)據(jù)局作為國家發(fā)展和改革委員會管理的國家局,負責協(xié)調(diào)推進數(shù)據(jù)基礎制度建設,統(tǒng)籌推進數(shù)字中國、數(shù)字經(jīng)濟、數(shù)字社會規(guī)劃和建設等任務。我國數(shù)字經(jīng)濟規(guī)模全球排名第二,約占國內(nèi)經(jīng)濟總量的 40%左右,設立國家數(shù)據(jù)局展示了與時俱進的態(tài)度,體現(xiàn)了國家對數(shù)字經(jīng)濟發(fā)展的頂層設計,符合時代要求和發(fā)展需求。國家數(shù)據(jù)局由發(fā)展和改革委員會直接管理,有助于消除部門之間、系統(tǒng)之間和地區(qū)之間的壁壘,實現(xiàn)數(shù)據(jù)要素的互聯(lián)互通,將解決過去數(shù)字經(jīng)濟管理中的碎片化問題,并減少地方數(shù)字經(jīng)濟發(fā)展不均帶來的數(shù)字鴻溝,提高數(shù)據(jù)交換的效率和準確性,加快數(shù)據(jù)要素產(chǎn)業(yè)的發(fā)展進程。
多個省市成立數(shù)據(jù)集團,有望成為各地政府參與數(shù)據(jù)運營的抓手。央企層面,中國電子數(shù)據(jù)產(chǎn)業(yè)集團于2022年12月成立,是國內(nèi)首家由中央企業(yè)設立的數(shù)據(jù)產(chǎn)業(yè)集團;地方層面,上海、河南、福建、陜西、成都、南京等地陸續(xù)成立數(shù)據(jù)集團,多為政府主導。數(shù)據(jù)集團以數(shù)據(jù)為核心業(yè)務,實現(xiàn)公共數(shù)據(jù)、行業(yè)數(shù)據(jù)和社會數(shù)據(jù)的交匯、供給、配置及市場化開發(fā)利用,開展數(shù)字資產(chǎn)運營、數(shù)據(jù)交易服務和數(shù)字產(chǎn)業(yè)投資。
各地大數(shù)據(jù)交易所陸續(xù)掛牌運營,加速數(shù)據(jù)要素價值轉(zhuǎn)化。我國自 2014 年開始探索建立類似證券交易所形式的數(shù)據(jù)交易機構(gòu),隨著數(shù)據(jù)要素相關政策的推動,數(shù)據(jù)產(chǎn)品交易迎來2.0 時代。2015 年 4 月,貴陽大數(shù)據(jù)交易所正式掛牌,根據(jù)數(shù)據(jù)交易網(wǎng),截至 2023 年 6月 21 日,貴數(shù)所已累計集聚“數(shù)據(jù)商”、“數(shù)據(jù)中介”等市場主體 629 家,上架產(chǎn)品 1055個,交易 888 筆,共計交易額達 14443 萬元。2021 年 11 月,上海數(shù)據(jù)交易所揭牌交易,根據(jù)數(shù)據(jù)交易網(wǎng),2022 年上海數(shù)據(jù)交易所數(shù)據(jù)產(chǎn)品掛牌超 800 個,涉及金融、交通、工業(yè)、通信等 12 個行業(yè)領域,交易金額突破 1 億元。2022 年 11 月,深圳數(shù)據(jù)交易所掛牌運營,截至 2023 年 6 月,深數(shù)所已累計交易突破 700 筆,覆蓋 165 個應用場景,生態(tài)合作機構(gòu)突破 900 家,匯集數(shù)據(jù)產(chǎn)品超 1500 個,服務觸達 2000 家以上市場主體。截至 2022年底,全國數(shù)據(jù)交易所已近 50 家。各大數(shù)據(jù)交易所交易主題、上架產(chǎn)品以及交易規(guī)模都處于快速發(fā)展態(tài)勢,數(shù)據(jù)產(chǎn)品和服務類型日益豐富,能夠提供數(shù)據(jù) API、數(shù)據(jù)集、數(shù)據(jù)報告等多種形式的產(chǎn)品和服務。
土地財政收入增速下降,數(shù)據(jù)要素探索“數(shù)據(jù)財政”可能性。土地財政主要指政府通過出售土地或者收取土地使用權等方式獲取財政收入的政策,然而土地資源的有限性在我國經(jīng)濟轉(zhuǎn)型升級和高質(zhì)量發(fā)展的背景下,探索通過財政稅收工具和手段從數(shù)字經(jīng)濟的關鍵要素中取得一定比重的財政收入,并發(fā)揮財政的基礎性、支柱性國家治理作用是非常有意義的。
數(shù)據(jù)財政是基于大數(shù)據(jù)和人工智能等新興技術的發(fā)展,將數(shù)據(jù)視為新的財富來源的理念,具體而言數(shù)據(jù)財政包括數(shù)據(jù)進入市場之前,在數(shù)商組建、數(shù)據(jù)產(chǎn)品開發(fā)、登記等環(huán)節(jié)的監(jiān)管伴隨的財政活動,以及數(shù)據(jù)進入市場之后,在數(shù)據(jù)開發(fā)、服務、再生產(chǎn)等過程,通過財稅手段實現(xiàn)對數(shù)據(jù)市場的激勵和管理。歐洲地區(qū)率先對數(shù)據(jù)服務進行征稅,在國際稅收改革背景下提出的一種對數(shù)字服務進行征稅的新模式,主要針對的是那些利潤豐厚但卻往往在歐洲本土納稅不多的跨國數(shù)字巨頭,給我國推行數(shù)據(jù)財政提供了參考意義。
“數(shù)據(jù)財政”制度將在數(shù)字經(jīng)濟發(fā)展和國家治理中扮演重要角色。數(shù)據(jù)資源具有公共性,數(shù)據(jù)權利分置創(chuàng)新拓寬了數(shù)據(jù)流通空間,建立數(shù)據(jù)財政制度是完善數(shù)據(jù)基礎制度的需求,體現(xiàn)數(shù)字經(jīng)濟公共利益和全民共享數(shù)字經(jīng)濟紅利;同時,數(shù)據(jù)財政發(fā)揮現(xiàn)代國家治理中財政作用,推動數(shù)據(jù)要素成為新生產(chǎn)要素,創(chuàng)造良好環(huán)境實現(xiàn)要素市場化配置,注入新時代寓意。數(shù)據(jù)財政主要通過財政支出和收入發(fā)揮治理數(shù)據(jù)要素市場的功能,在數(shù)據(jù)市場化起步階段應當以財政激勵和適當輕稅推動數(shù)據(jù)供需市場發(fā)展,并力爭形成良性循環(huán);同時確立數(shù)據(jù)財政方式和手段,包括歸并公共數(shù)據(jù)、提供公益性服務和有償服務、采用財稅政策和管理要求等;此外,建立數(shù)據(jù)財政制度和政策,涵蓋公共數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)定價、數(shù)據(jù)稅收、收入分配等也是試試數(shù)據(jù)財政的主要工作之一;最后,運營包括主體準入、運營級次選擇、運營體系、稅費征管等。
由單一強調(diào)“土地財政”轉(zhuǎn)向“土地財政+數(shù)據(jù)財政”雙軌并行。相較于土地財政,數(shù)據(jù)財政的核心標的從土地轉(zhuǎn)變?yōu)閿?shù)據(jù),從而利用虛擬性、共享性和異質(zhì)性等特點,排除了土地資源有限、主體獨有不可共享和邊際效應等問題。在財政收入方面,數(shù)據(jù)資源的資產(chǎn)性讓其能夠參與抵押活動,同時主要的收入來源變成了數(shù)據(jù)授權或出售過程中的收入,參考歐洲地區(qū)的數(shù)據(jù)服務稅,還可在數(shù)據(jù)流通、交易和服務等環(huán)節(jié)征稅。從“土地財政”到“土地財政+數(shù)據(jù)財政”雙軌并行,這種轉(zhuǎn)變反映了政府財政模式的演進和創(chuàng)新,不僅能有效避免單一依賴土地財政的風險,還能充分利用數(shù)據(jù)資源,增加財政收入的多樣性,進一步推動社會經(jīng)濟的發(fā)展;同時數(shù)據(jù)財政也可以為政府提供更準確的數(shù)據(jù)支持,幫助政府更好地進行政策決策和提供公共服務。
2.垂類 AI 大模型加速落地,推動數(shù)據(jù)要素市場發(fā)展
2.1 AI 大模型向行業(yè)垂類模型落地演進,數(shù)據(jù)成為核心壁壘
2017 年谷歌發(fā)布的 Transformer 網(wǎng)絡結(jié)構(gòu)是大模型發(fā)展的源頭技術,自此以后大模型技術在自然語言理解、計算機視覺、智能語音等方面都取得了標志性的技術突破,在模型精度、通用性和泛化能力等方面都實現(xiàn)了跨越式發(fā)展。中國自 2020 年進入大模型快速發(fā)展期,目前與美國保持同步增長態(tài)勢,涌現(xiàn)出 GLM、盤古、悟道、文心一言、通義千問、星火認知等一批具有行業(yè)影響力的預訓練大模型,形成了緊跟世界前沿的大模型技術群。
數(shù)據(jù)貫穿 AI 垂類模型訓練的始終。AI 垂類模型強調(diào)領域的 know-how,對數(shù)據(jù)在深度和質(zhì)量上的要求更高,模型訓練分為四個階段:
1) 通用預訓練:在數(shù)據(jù)質(zhì)量有保證的前提下,增加數(shù)據(jù)的數(shù)量和多樣性,同時提升模型復雜度,這樣可以提供普遍有效的模型增強能力。
2) 領域預訓練:在第一階段通用模型基礎上,分別用各個領域數(shù)據(jù),再分別做一次預訓練,得到適合解決各個不同領域的預訓練模型。
3) 任務預訓練:選擇任務適配的領域預訓練模型,在這個模型的基礎上,用手頭數(shù)據(jù),拋掉數(shù)據(jù)標簽,再做一次預訓練。
4) 任務 Fine-tuning。
增加訓練數(shù)據(jù)量對模型性能提升來說更具性價比。根據(jù) OpenAI 的研究,獨立增加訓練數(shù)據(jù)量、模型參數(shù)規(guī)模、訓練計算量時,預訓練模型在測試集上的損失會單調(diào)降低,模型的效果越好。DeepMind 在設計 Chinchilla 模型時,對標數(shù)據(jù)量 300B、模型參數(shù)量 280B 的Gopher 模型,選擇將參數(shù)降低為 Gopher 的四分之一的同時增加 4 倍的訓練數(shù)據(jù),無論是預訓練指標,還是很多下游任務,Chinchilla 的效果都要優(yōu)于規(guī)模更大的 Gopher。
金融垂類數(shù)據(jù)對于 BloombergGPT 模型性能提升效果明顯。Bloomberg 作為全球商業(yè)、金融信息和財經(jīng)資訊的領先提供商,擁有 40 年金融數(shù)據(jù)的積累。BloombergGPT 是一個有 500億參數(shù)、基于 BLOOM 模型的 LLM,其訓練所用的金融數(shù)據(jù)集包含新聞、檔案、網(wǎng)絡爬取的新聞稿件、英文財經(jīng)文檔等英文金融文檔,共包含 3630 億個 token,是目前最大的金融數(shù)據(jù)集。BloombergGPT 在金融語料上的 bits per byte 指標均好于其他垂類模型,在大多數(shù)任務中的得分位列第一,是目前最出色的金融垂類模型。
--- 報告摘錄結(jié)束 更多內(nèi)容請閱讀報告原文 ---
報告合集專題一覽 X 由【報告派】定期整理更新
(特別說明:本文來源于公開資料,摘錄內(nèi)容僅供參考,不構(gòu)成任何投資建議,如需使用請參閱報告原文。)
精選報告來源:報告派
科技 / 電子 / 半導體 /
人工智能 | Ai產(chǎn)業(yè) | Ai芯片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機 | 可穿戴設備 |半導體 | 芯片產(chǎn)業(yè) | 第三代半導體 | 藍牙 | 晶圓 | 功率半導體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區(qū)塊鏈 | NFT數(shù)字藏品 | 虛擬貨幣 | 比特幣 | 數(shù)字貨幣 | 資產(chǎn)管理 | 保險行業(yè) | 保險科技 | 財產(chǎn)保險 | 大數(shù)據(jù)