大模型時代下的數(shù)據標注
數(shù)據標注服務貫穿大模型全生命周期,上下游合作關系更為緊密耦合; 大模型范式涌入數(shù)據標注,自動化標注效率進一步提升; 國內市場規(guī)模將達百億量級,合成數(shù)據增速最高。 大模型時代下的數(shù)據標注 數(shù)據標注,是將原始數(shù)據進行加工處理,比如分類、拉框、注釋、標記等操作,轉換成機器可識別信息的過程。 國內數(shù)據標注廠商,廣義也被叫做基礎數(shù)據服務商,通常需要完成數(shù)據集結構/流程設計、數(shù)據處理、數(shù)據質檢等工作,為下游客戶提供訓練數(shù)據集、定制化服務。這也是本次主要研究對象。 大模型時代到來,數(shù)據標注受到前所未有的關注。 大模型數(shù)據解決方案多處開花,以一站式、定制化服務為主 圍繞大模型開發(fā)全生命周期(包括預訓練、監(jiān)督微調、RLHF、基準測試等),專業(yè)數(shù)據服務商、大模型企業(yè)、AI公司等各方都拿出相關數(shù)據解決方案。 大模型范式涌入數(shù)據標注,自動化標注?檻大幅降低 以「Segment Anything」為代表的圖像分割模型開源,可通過提示詞對圖像或視頻中任意對象進行分割,并可擴展到任何新任務和新領域,被稱為是CV領域的「GPT-3」時刻,大大降低了圖像領域的標注門檻。 智能駕駛新感知范式,BEV+Transformer是機遇也是挑戰(zhàn) 作為最具代表性應用場景,智能駕駛迎來新感知范式—— 以BEV+Transformer為代表的四維感知替代掉2D+CNN為代表的二維感知方案,給數(shù)據服務廠商帶來更多機遇與挑戰(zhàn),包括不限于標注場景難度大、數(shù)據量產能力要求高等。 四大關鍵變化 需求變化:與行業(yè)場景強相關,高質量數(shù)據需求長期且持續(xù) 大模型時代的到來,正加速推動人工智能開發(fā)從以模型為中心朝著以數(shù)據為中心的方向轉變。 大模型作為以數(shù)據為中心的產物,數(shù)據數(shù)量和質量很大程度決定著大模型能力的上限。尤其像訓練流程中的后兩個階段,直接決定了大模型性能好壞—— 需要專業(yè)人士生成數(shù)據或對數(shù)據進行改寫或排序,最終形成符合人類標準(比如專業(yè)邏輯、核心價值觀等)高質量數(shù)據。 處理流程側變化:標準從客觀到主觀,高學歷多領域成人才硬指標 從數(shù)據流程上來看,傳統(tǒng)數(shù)據標注是以目標任務為導向,通過拉框、描點、轉寫等方式進行人工或自動化標注,評價標準主要以準確率和效率為指標。 而大模型數(shù)據標注,則是按照階段來劃分,通常對自然語言要求很高,需要更專業(yè)的人才參與,標注要求偏主觀,難以形成統(tǒng)一的標準。 數(shù)據標注從勞動密集朝著知識密集型轉變。 其中像百度在海口專為大模型建設的數(shù)據標注基地,本科比例100%,培訓專業(yè)人才已達1000人。未來五年,數(shù)據標注相關專業(yè)人才缺口將達百萬量級。 業(yè)務變化:合成數(shù)據新衍生賽道,潛在市場空間巨大 合成數(shù)據作為新衍生賽道,正受到廣泛關注。所謂合成數(shù)據,即是用AI生成數(shù)據而非真實產生,能夠替代真實數(shù)據來訓練、測試和驗證大模型。OpenAI CEO Sam Altman曾方言: 未來所有數(shù)據都將變成合成數(shù)據。 除了能降本增效外,它可以補充更多邊緣、長尾場景數(shù)據,能有效解決大模型時代下的“數(shù)據鴻溝”,并自然規(guī)避掉數(shù)據隱私安全、合規(guī)等方面問題。 像在數(shù)據增強、模型驗證、可解釋AI等領域,以及自動駕駛、機器人、生物醫(yī)藥等領域都有相關應用。 量子位智庫預計,合成數(shù)據將成為未來增速最快賽道,年增?率可達45%。 供應鏈變化:產業(yè)鏈重新洗牌,大模型公司/AI企業(yè)涌入 大模型公司/AI企業(yè)自建數(shù)據處理管線,并對外輸出大模型數(shù)據解決方案,產業(yè)鏈重新洗牌。 部分廠商還具備云服務能力,可與數(shù)據服務打包輸出,能有效建立起客戶之間的口碑和信任。 三大影響因素:以技術+場景聚合的飛輪效應 一看技術能力 作為AI底層服務,數(shù)據標注最本質的就是為下游客戶降本增效。而技術是降本增效的最優(yōu)解決路徑,持續(xù)迭代技術能力的企業(yè)將有機會脫穎而出。 包括不限于以下幾點:數(shù)據閉環(huán)工具鏈的智能化水平、對大模型/AI算法的理解、數(shù)據工程化能力、基礎設施建設等。 二看場景資源 場景資源能力主要包括數(shù)據和人才兩個層面:高質量的場景數(shù)據以及場景人才(領域專家、深度用戶等) 這與行業(yè)持續(xù)多年的深耕不無關系——企業(yè)懂得行業(yè)know-how,能夠根據客戶需求,快速找到并利用與場景最為貼合的數(shù)據和人才資源。 三看飛輪效應 數(shù)據標注仍具有飛輪效應。以往靠銷售渠道、人力成本等驅動因素,服務商實現(xiàn)業(yè)務量增長,進而贏得市場獲得口碑,獲得新客戶也會越來越容易。 如今在技術和場景資源能力雙重驅動下,數(shù)據處理能力越強,大模型標注經驗越豐富,落地案例越來越多,數(shù)據處理的可擴展性和靈活性也越高。 這樣一來,新創(chuàng)業(yè)公司入局門檻將進一步提高,專業(yè)數(shù)據服務提供商更多機會將在垂直場景,幫助企業(yè)完成私有化部署。 國內基礎數(shù)據服務百億市場規(guī)模 數(shù)據標注行業(yè)傳統(tǒng)依靠渠道、人力等形成的低成本優(yōu)勢將被重塑,數(shù)據需求方將更看重數(shù)據質量、場景多樣性和可擴展性?;谝陨显?,量子位智庫將從數(shù)據基礎設施、場景資源兩個方面來分析國內市場分布及現(xiàn)狀。 第一象限:有技術有場景的明星公司 該象限存在兩種情況: 第一種是模型層公司本身有大模型技術范式以及場景落地經驗積累,可快速輸出數(shù)據解決方案,與云服務打包輸出建立信任; 第二種則是主要以技術驅動的明星企業(yè),大部分擁有數(shù)據閉環(huán)工具鏈,再結合幾年來行業(yè)經驗,在大模型浪潮下易受到企業(yè)用戶?睞。 第二象限:有強技術支撐的創(chuàng)業(yè)新勢力。 該象限主要聚焦在近兩年創(chuàng)立的創(chuàng)業(yè)公司,主要以自動駕駛場景作為切入點,再覆蓋 到AIGC及其他領域。他們飽受資本市場認可,以愷望數(shù)據為例,一年半時間就是完成了三輪融資。 第三象限:包括中小團隊、企業(yè)自建數(shù)據管線等。 第四象限:場景壁壘更為深厚的行業(yè)玩家 該象限著更為深厚的行業(yè)數(shù)據壁壘,可為下游用戶提供高質量數(shù)據集或擁有大模型數(shù)據標注團隊, 以海天瑞聲為例,不僅是LIama2的唯一中國伙伴,還發(fā)布超大規(guī)模中文多輪對話數(shù)據集DOTS-NLP-216,合作企業(yè)超810家,覆蓋全球近200個主要語種及方言,有近20年行業(yè)深耕。 量子位智庫認為,數(shù)據標注處于重新洗牌的時期,更高質量、專業(yè)化的數(shù)據標注成為剛需。 未來五年,國內AI基礎數(shù)據服務將達到百億規(guī)模,年復合增長率在27%左右。