AIGC行業(yè)報告:ChatGPT-百度文心一言暢想
報告出品/作者:民生證券、方競
以下為報告原文節(jié)選
------
1.1 ChatGPT為API接口收費(fèi),我國需自主可控
ChatGPT,AI的曠世之作,持續(xù)引爆市場: 是OpenAI于 2022年11月推出的聊天機(jī)器人,由于其功能強(qiáng)大,例如實(shí)現(xiàn)文章創(chuàng)作、代碼創(chuàng)作、回答問題等功能,我們認(rèn)為其具有跨時代的意義,例如實(shí)現(xiàn)勒“模糊搜索”到“精準(zhǔn)推送”的跨越,因此持續(xù)引爆市場。
ChatGPT為AI接口收費(fèi),我國需自主可控: OpenAI(ChatGPT母公司)的商業(yè)模式為API接口收費(fèi),客戶可以通過接入OpenAI的API接口獲取獲取相關(guān)圖像、語言、代碼調(diào)整服務(wù),我們認(rèn)為此種商業(yè)模式具有“卡脖子”的風(fēng)險,一旦海外禁止API接口權(quán)限,會對我國AIGC生態(tài)造成嚴(yán)重影響,因此我國需要發(fā)展自主可控的“ChatGPT”。
國產(chǎn)生態(tài)正在逐步繁榮,百度打響“ChatGPT”領(lǐng)域“第一槍”:百度是少有預(yù)訓(xùn)練模型(大模型)語言訓(xùn)練能力的公司,其在算法、算力、數(shù)據(jù)、生態(tài)、平臺五方面皆有儲備,根據(jù)百度官方公眾號,百度計劃于2023年3月16日在北京總部召開新聞發(fā)布會,圍繞國產(chǎn)版ChatGPT文心一言,我們認(rèn)為此舉正式意味著我國自主可控的“ChatGPT”即將問世。
1.2 ChatGPT的競爭本質(zhì)即大模型儲備競賽
大模型的是人工智能發(fā)展的必然趨勢: 大模型即“大算力+強(qiáng)算法”結(jié)合的產(chǎn)物。大模型通常是在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)出一種特征和規(guī)則?;诖竽P瓦M(jìn)行應(yīng)用開發(fā)時,將大模型進(jìn)行微調(diào),如在下游特定任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行二次訓(xùn)練,或者不進(jìn)行微調(diào),就可以完成多個應(yīng)用場景的任務(wù)。
大模型是輔助式人工智能向通用性人工智能轉(zhuǎn)變的堅實(shí)底座: 大模型增強(qiáng)了人工智能的泛化性、通用性,生產(chǎn)水平得到質(zhì)的飛躍,過去分散化模型研發(fā)下,單一AI應(yīng)用場景需要多個模型支撐,每個模型需要算法開發(fā)、數(shù)據(jù)處理、模型訓(xùn)練、參數(shù)調(diào)優(yōu)等過程。大模型實(shí)現(xiàn)了標(biāo)準(zhǔn)化AI研發(fā)范式,即簡單方式規(guī)?;a(chǎn),具有“預(yù)訓(xùn)練+精調(diào)”等功能,顯著降低AI開發(fā)門檻,即“低成本”和“高效率”。
數(shù)據(jù)、平臺、算力是打造大模型生態(tài)的必備基礎(chǔ): 數(shù)據(jù)是訓(xùn)練大模型參數(shù)的必備,我們認(rèn)為可以理解成“燃料”;算力是訓(xùn)練大模型的底層動力源泉,一個優(yōu)秀的算力底座在大模型(AI算法)的訓(xùn)練和推理具備效率優(yōu)勢;平臺是大模型和算力之間的“橋梁”,可針對不同的模型和硬件,實(shí)現(xiàn)資源的合理分配,達(dá)到軟硬件的最優(yōu)組合,從而大幅提升訓(xùn)練模型的效率。
1.3 大模型帶來的AI技術(shù)與應(yīng)用變革潛能被廣泛驗(yàn)證
大模型帶來的AI技術(shù)與應(yīng)用變革潛能被廣泛驗(yàn)證,可以分為四類,分別是NLP(自然語言處理)、CV(計算機(jī)視覺)、多模態(tài)和科學(xué)計算。
NLP: 近年來,隨著預(yù)訓(xùn)練技術(shù)(大模型)、算力提升以及NLP海量數(shù)據(jù)和任務(wù)特性,大模型預(yù)訓(xùn)練在該領(lǐng)域取得顯著突破,2018年,隨著BERT(谷歌)的誕生,是利用海量無標(biāo)注文本的監(jiān)督學(xué)習(xí),已經(jīng)刷新多個AI權(quán)威技術(shù)榜單,3億參數(shù)的BERT模型在權(quán)威GLUE的11任務(wù)刷新紀(jì)錄,基準(zhǔn)值推至80.4%,絕對值提升7.6個點(diǎn)。
CV: 目前,主要以卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer為支撐的計算機(jī)大模型快速發(fā)展,比如,2021年的150億參數(shù)的V-MoE推出,在ImageNET準(zhǔn)率高達(dá)90.35%,此外,國內(nèi)廠商也逐漸發(fā)力,盤古CV大模型可提供OCR文字識別,并在多個場景落地。
多模態(tài): 大模型技術(shù)推動多模態(tài)模型不斷迭代升級,比如阿里大模型M6,模型參數(shù)10萬億級別,持續(xù)拓寬大模型應(yīng)用廣度,覆蓋電商、智能交互等場景,此外,OpenAI的CLIP(文本圖像匹配)以及DALL·E2(文生圖)持續(xù)落地。
科學(xué)計算: AI+科學(xué)計算持續(xù)引發(fā)大變革,比如生物制藥、氣象預(yù)報、地震探查、材料等領(lǐng)域,例如Deep-Mind推出的AlphaFold2能夠覆蓋98.5%的人類蛋白質(zhì)組,并對20種其他生物蛋白結(jié)構(gòu)進(jìn)行預(yù)測。
1.4 中美科技巨頭廠商開啟大模型儲備“軍備賽”
美國科技巨頭公司開啟AI大模型 “軍備賽” :u 谷歌: 谷歌推出聊天機(jī)器人Bard,底層代碼為LaMDA,我們認(rèn)為LaMDA與ChatGPT算法具備一戰(zhàn)之力。此外,BERT算法具備庫時代的意義。
微軟:目前,根據(jù)智東西報道,微軟推移動版Bing,語音接入、AI群聊等功能。此外,微軟本身也有在NLP、CV相關(guān)大模型的技術(shù)儲備。
其他: 例如FaceBook、亞馬遜、DeepMind、英偉達(dá)等廠商已經(jīng)加入大模型的“軍備賽”,并分別在NLP、CV或多模態(tài)方面已有相應(yīng)的技術(shù)儲備,應(yīng)用在語言生成、推理、代碼生成、跨模態(tài)搜索等領(lǐng)域中。
我國需有自主可控AI大模型,生態(tài)正逐漸繁榮:ü 百度: 是少有預(yù)訓(xùn)練模型(大模型)語言訓(xùn)練能力的公司,已經(jīng)經(jīng)歷多次迭代,目前已覆蓋眾多方向,目前已有近百萬開發(fā)者使用文心大模型,生態(tài)正在逐步繁榮,合作廠商覆蓋科技、教育、工業(yè)、媒體、金融等諸多產(chǎn)業(yè)。
阿里: 根據(jù)鈦媒體數(shù)據(jù),M6模型是中文多模態(tài)模型,參數(shù)規(guī)模高達(dá)萬億,已在超40個場景中應(yīng)用,可以實(shí)現(xiàn)劇本創(chuàng)作等功能。
其他: 例如騰訊、京東、科大訊飛、字節(jié)跳動、網(wǎng)易等紛紛加入“軍備賽”,分別擁有獨(dú)特技術(shù)架構(gòu),應(yīng)用在智慧音效、AI視頻創(chuàng)作、AI語音、AI作文、AI搜索等應(yīng)用場景中。
資料來源:公開資料整理,騰訊《AIGC發(fā)展趨勢報告2023》,華西證券研究所
2.1 百度文心一言開啟國產(chǎn)ChatGPT新征程
百度是少有大模型語言訓(xùn)練能力的公司: 其文心大模型和Open AI的GPT模型類似,在2019年就已經(jīng)推出,并且已經(jīng)迭代了多代,從單一的自然語言理解延伸到多模態(tài),包括視覺、文檔、文圖、語音等多模態(tài)多功能,因此“文心一言”所基于的ERNIE系列模型也已經(jīng)具備較強(qiáng)泛化能力和性能。
我們認(rèn)為百度作為國產(chǎn)ChatGPT“領(lǐng)軍企業(yè)”,符合數(shù)據(jù)、平臺、算力、大模型、生態(tài)多重要素需求: 算力方面,百度擁有自主生態(tài)的算力底座,比如百度智算中心;AI芯片方面,坐擁昆侖芯加速器,實(shí)現(xiàn)了核心自主可控,且性能優(yōu)異;平臺方面,百度具備百度百舸 · AI異構(gòu)計算平臺,具有高性能、高彈性等優(yōu)勢;大模型儲備方面,百度實(shí)現(xiàn)了全生態(tài)的布局,其中包括NLP、CV、大模型、生物計算等領(lǐng)域,且在不同場景中已有較多應(yīng)用。數(shù)據(jù)方面,根據(jù)IDC數(shù)據(jù),其擁有5500億條知識,且已經(jīng)應(yīng)用于百度搜索、信息流、智能駕駛、百度地圖、小度等產(chǎn)品。
2.2.1 百度文心一言大模型儲備齊全: NLP(自然語言處理)
百度文心一言NLP方向算法儲備齊全: 其中著名的 ERNIE系列,是基于知識增強(qiáng)的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯等各類自然語言理解和生成任務(wù),并且模型已經(jīng)可應(yīng)用于醫(yī)療、金融、圖語言、編程、跨模態(tài)、信息抽取等各個方面。此外,PLATO模型,是全球首個超百億參數(shù)規(guī)模的中英文對話訓(xùn)練模型,可以讓機(jī)器人像人一樣具有邏輯且自由對話。
百度文心一言NLP功能強(qiáng)大: 例如ERNIE系列,ERNIE3.0基于知識增強(qiáng)的多范式統(tǒng)一預(yù)訓(xùn)練框架,深入融合的千億級知識,具備強(qiáng)大的語言理解能力與小說、摘要、文案創(chuàng)意、歌詞、詩歌等文學(xué)創(chuàng)作能力。其中與鵬城實(shí)驗(yàn)室合作發(fā)布了知識增強(qiáng)千億大模型 “鵬城-百度·文心“。目前文心ERNIE已經(jīng)刷新93個中文NLP任務(wù)基準(zhǔn),并多次登頂SuperGLUE全球榜,已在機(jī)器閱讀理解、文本分類、語義相似度計算等60多項(xiàng)任務(wù)中實(shí)際應(yīng)用。
2.2.2 百度文心一言大模型儲備齊全: CV(計算機(jī)視覺)
百度文心一言CV具有顛覆性: VIMER-CAE: 為視覺自監(jiān)督預(yù)訓(xùn)練大模型,創(chuàng)新性地提出 “在隱含的編碼表征空間完成掩碼預(yù)測任務(wù)”的預(yù)訓(xùn)練框架,在圖像分類、目標(biāo)檢測、語義分割等經(jīng)典下游任務(wù)上刷新SOTA結(jié)果。
VIMER-UFO 2.0: 多任務(wù)學(xué)習(xí)模型,行業(yè)最大170億參數(shù)視覺多任務(wù)模型,覆蓋人臉、人體、車輛、商品、食物細(xì)粒度分類等 20+ CV 基礎(chǔ)任,具備支持各類任務(wù)、各類硬件的靈活部署等優(yōu)勢,可以有效解決大模型參數(shù)量大,推理性能差等問題。
OCR -VIMER-StrucTexT 2.0: 為表征學(xué)習(xí)預(yù)訓(xùn)練模型解決了訓(xùn)練數(shù)據(jù)匱乏和傳統(tǒng) OCR + NLP 鏈路過長導(dǎo)致的模型表達(dá)能力不足、優(yōu)化效率偏低等問題,能夠廣泛應(yīng)用于文檔、卡證、票據(jù)等圖像文字識別和結(jié)構(gòu)化理解,例如泛卡證票據(jù)信息抽取應(yīng)用、政務(wù)辦公文檔還原應(yīng)用等場景。
VIMER-UMS: 是行業(yè)首個統(tǒng)一視覺單模態(tài)與多源圖文模態(tài)表征的商品多模態(tài)預(yù)訓(xùn)練模型,可實(shí)現(xiàn)統(tǒng)一圖文表征預(yù)訓(xùn)練同時覆蓋商品視覺單模態(tài)、多模態(tài)識別與檢索任務(wù),可以顯著改善商品視覺檢索和商品多模態(tài)檢索體驗(yàn)。
2.2.3 百度文心一言大模型儲備齊全: 跨模態(tài)、生物計算
文心跨境大模型優(yōu)勢顯著: ERNIE-ViLG2.0是知識增強(qiáng)的 AI 作畫大模型,在公開權(quán)威評測集MS-COCO上取得了當(dāng)前該領(lǐng)域的領(lǐng)先效果,在語義可控性、圖像清晰度、中國文化理解等方面均展現(xiàn)出了顯著優(yōu)勢;跨模態(tài)文檔智能大模型ERNIE-Layout,基于布局知識增強(qiáng)技術(shù),融合文本、圖像、布局等信息進(jìn)行聯(lián)合建模,在文檔抽取、布局理解等5類11項(xiàng)任務(wù)刷新業(yè)界SOTA;ERNIE-VIL是首個只是業(yè)界首個融合場景圖知識的多模態(tài)預(yù)訓(xùn)練模型。在視覺常識推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 典型多模態(tài)任務(wù)中刷新了世界記錄。
文心生物計算大模型在全球具有領(lǐng)先優(yōu)勢: HelixFold-Single是秒級別的蛋白結(jié)構(gòu)預(yù)測大模型,從近3億的無標(biāo)注蛋白質(zhì)數(shù)據(jù)中隱式的學(xué)習(xí)MSA信息,在90% 的單體蛋白場景上預(yù)測效果持平AF2,在抗體結(jié)構(gòu)預(yù)測場景下,比AlphaFold2預(yù)測結(jié)果更優(yōu);HelixGEM-2為小分子藥物研發(fā)模型,在量子化學(xué)屬性預(yù)測和虛擬篩選雙場景上達(dá)到領(lǐng)先效果,其上個版本是業(yè)界首個基于幾何構(gòu)象增強(qiáng)的化合物表征模型,引入化合物的三維空間信息,在14個藥物屬性預(yù)測相關(guān)的benchmarks上效果達(dá)到業(yè)界最優(yōu);HelixFold模型可以端到端地學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu),在國產(chǎn)DCU環(huán)境下訓(xùn)練千萬級別蛋白僅需到2.6天,在 GPU 上相同硬件環(huán)境配置下,訓(xùn)練性能和部分場景效果顯著優(yōu) AlphaFold2。
2.3.1 百度底層算力技術(shù)實(shí)力強(qiáng)勁: 百度智算中心
百度智算中心是數(shù)字經(jīng)濟(jì)的重要底座: 百度自身具有建設(shè)智能算力中心的實(shí)力,百度智算中心面向人工智能應(yīng)用場景,為政府和行業(yè)客戶提供普惠算力、算法模型和數(shù)據(jù)服務(wù)的人工智能基礎(chǔ)設(shè)施。可面對人工智能應(yīng)用場景,支持大規(guī)模部署的同時,滿足高并發(fā)、高彈性、高精度等不同計算需求,可支撐城市大腦、產(chǎn)業(yè)金融、自動駕駛等各個垂直化行業(yè)。
方案優(yōu)勢強(qiáng)大,具備多重領(lǐng)先優(yōu)勢: 1、技術(shù)領(lǐng)先,現(xiàn)有千卡并行環(huán)境下實(shí)現(xiàn)加速比90%,可支持大規(guī)模模型訓(xùn)練場景;2、綠色低碳,數(shù)據(jù)中PUE可以低至1.08,左到低能耗、高性能運(yùn)行;3、自主可控,AI芯片、AI框架、開發(fā)平臺、大模型層面、可以做到全棧自研自主可控;4、開放生態(tài),飛槳已累計凝聚477萬開發(fā)者等。
目前已在江蘇鹽城、湖北宜昌等地落地,建設(shè)內(nèi)容包括智算中心、城市級視頻中臺、數(shù)據(jù)中臺系統(tǒng)、核心物聯(lián)網(wǎng)通信系統(tǒng)、大規(guī)模圖譜分析體系,以及超過270類不同人工智能算法模型。
資料來源:百度智能云官網(wǎng),華西證券研究所
2.3.2 百度底層算力技術(shù)實(shí)力強(qiáng)勁:百度百舸 · AI異構(gòu)計算平臺
百度AI異構(gòu)計算平臺技術(shù)積累濃厚:包含AI計算、AI存儲、AI加速、AI容器四大核心套件,具有高性能、高彈性、高速互聯(lián)、高性價比等特性,其中平臺已經(jīng)充分汲取了百度多年技術(shù)積累,具備深度融合推薦、無人駕駛、生命科學(xué)、NLP等場景的實(shí)踐經(jīng)驗(yàn),能為AI場景提供軟硬一體解決方案,加速AI工程化落地。
百度智能計算平臺具備多重優(yōu)勢: 1、高效率,提供AI超級服務(wù)器、RDMA網(wǎng)絡(luò)、大吞吐低延時的并行文件系統(tǒng),可大幅提升訓(xùn)練速度和推理效率;2、高密度,支持GPU資源共享與隔離、架構(gòu)感知調(diào)度,提升異構(gòu)資源的容器化部署密度,提升資源利用率;3、良好易用性,支持PaddlePaddle、TensorFlow、Pytorch等多種主流深度學(xué)習(xí)框架;4、多場景部署,可根據(jù)業(yè)務(wù)需求在不同場景部署落地,公有云、IDC等場景;5、樂高式拼接,AI計算、AI存儲、AI容器三大核心產(chǎn)品均可各自獨(dú)立提供服務(wù)。
應(yīng)用場景廣泛: 可用于營銷廣告、無人駕駛、生物科技、語音語義、計算機(jī)視覺等場景中的訓(xùn)練及推理。
2.3.3 百度底層算力技術(shù)實(shí)力強(qiáng)勁: 昆侖芯云服務(wù)器
百度昆侖云服務(wù)器服務(wù)器專為AI算力而生:昆侖芯云服務(wù)器是一種彈性按需、提供高性能通用AI算力的云服務(wù)器,應(yīng)用于AI推理和AI訓(xùn)練加速。昆侖芯云服務(wù)器是搭載昆侖芯的云服務(wù)器,支持K100和R200型號。其中昆侖芯為自主研發(fā)的 AI 通用處理器芯片。其中R200AI芯片采用7nm制成,廣泛應(yīng)用于計算機(jī)視覺、自然語言處理、大規(guī)模語音識別、大規(guī)模推薦等場景。
昆侖芯云服務(wù)器技術(shù)壁壘濃厚: 1、領(lǐng)先的AI計算能力,基于7nm制程,單卡算力達(dá)到128TFLOPS,支持推理和訓(xùn)練;2、生態(tài)兼容,支持主流深度學(xué)習(xí)開發(fā)框架,例如Tensorflow、Pytorch、PaddlePaddle等;3、具備硬件虛擬化能力,優(yōu)化了加速芯片的利用率,在保證延時和吞吐量的情況下支持推理和訓(xùn)練等混合工作負(fù)載;4、易開發(fā),支持多種開發(fā)組件工具,編譯引擎支持C和C++編程。
典型案例: 1、互聯(lián)網(wǎng)搜索,可支持搜索系統(tǒng)對高并發(fā)要求,提高NLP推理的效率;2、超算中心,實(shí)現(xiàn)人工智能算力大規(guī)模、高密度部署;3、工業(yè)質(zhì)檢,利用深度學(xué)習(xí)技術(shù)替代人工質(zhì)檢,大大節(jié)省了人力成本,提高整廠的智能化水平,幫助企業(yè)降低損耗,提升約10%的良品率;4、智慧城市,全方位支撐智慧政務(wù)、綜合治理等智慧城市核心板塊。
2.3.4 百度底層算力技術(shù)實(shí)力強(qiáng)勁: 昆侖芯AI芯片
百度自身AI芯片技術(shù)實(shí)力濃厚: 昆侖芯AI芯片是百度自主研發(fā)的芯片,昆侖芯科技前身是百度智能芯片及架構(gòu)部昆侖芯科技深耕AI加速領(lǐng)域已十余年,是一家在體系結(jié)構(gòu)、芯片實(shí)現(xiàn)、軟件系統(tǒng)和場景應(yīng)用均有積累的AI芯片企業(yè)。昆侖芯1代是百度自妍的第一一代昆侖芯片,2020年底實(shí)現(xiàn)量產(chǎn);昆侖芯2代也已于2021年8月量產(chǎn);根據(jù)百度集團(tuán)執(zhí)行副總裁沈抖透露,昆侖芯3代將于2024年初量產(chǎn)。
昆侖芯2代AI芯片可提供龐大算力支撐,具有性能優(yōu)勢: 采用7nm架構(gòu),對比上一代,R200全面提升AI負(fù)載的運(yùn)行效率,巔峰算力可達(dá)256 TOPS@INT8,昆侖芯2代具備多重優(yōu)勢,1、創(chuàng)新架構(gòu),通用和專用指令集融合,支持訓(xùn)練、推理、虛擬化;2、算力支撐強(qiáng)大,通用計算能力明顯增強(qiáng),可靈活支持AI算法的演進(jìn),3、高速互聯(lián),高性能分布式AI系統(tǒng),加速AI數(shù)據(jù)和模型并行中的數(shù)據(jù)交換。此外,昆侖芯在著名算法的功耗比已有顯著優(yōu)勢。
2.4 百度文心一言生態(tài)愈發(fā)繁榮
百度模型評估結(jié)果屬于第一梯隊,彰顯其強(qiáng)大技術(shù)實(shí)力: 根據(jù)IDC的數(shù)據(jù)評估先實(shí),百度文心大模型在市場格局中處于第一梯隊,產(chǎn)品能力、生態(tài)能力達(dá)到L4水平,應(yīng)用能力達(dá)到L3水平。產(chǎn)品能力呈現(xiàn)出較強(qiáng)技術(shù)實(shí)力和平臺積累, “文心大模型+深度學(xué)習(xí)平臺”創(chuàng)新了人工智能研發(fā)應(yīng)用范式達(dá)到行業(yè)前端水平;應(yīng)用能力方面,百度已在金融、能源、制造、城市、傳媒、互聯(lián)網(wǎng)等行業(yè)擁有實(shí)際落地的標(biāo)桿案例,截止目前文心已累計發(fā)布11個行業(yè)大模型;在生態(tài)能力方面,百度文心大模型在社區(qū)用戶的基礎(chǔ)上,可以實(shí)現(xiàn)與開發(fā)者、行業(yè)用戶、上下游產(chǎn)業(yè)的正向互動,在評估廠商中處于行業(yè)領(lǐng)先位置。
百度大模型賦能千行百業(yè),已有落地應(yīng)用:目前百度文心在能源、金融、航天、制造、傳媒、城市、社科以及影視等領(lǐng)域與國網(wǎng)、浦發(fā)、吉利、TCL、人民網(wǎng)、哈爾濱、上海辭書出版社等均有案例應(yīng)用的行業(yè)大模型。這些行業(yè)大模型作為重要AI底座,在各行業(yè)的技術(shù)效果突破、產(chǎn)品創(chuàng)新、生產(chǎn)流程變革、降本增效等維度產(chǎn)生價值。
2.4 百度文心一言生態(tài)愈發(fā)繁榮
百度文心一言場景愈發(fā)繁榮,目前已有諸多廠商開展合作,我們認(rèn)為其商業(yè)模式同樣為API接口收費(fèi),屬于SAAS商業(yè)模式,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。
2.5 百度文心一言五大要素齊全,開啟全新篇章
我們認(rèn)為大模型成功必備的五要素,分別是數(shù)據(jù)、算力、平臺、模型和生態(tài),而百度作為國產(chǎn)ChatGPT的領(lǐng)頭羊,五大要素皆已配備。
海量數(shù)據(jù): 即訓(xùn)練大參數(shù)模型的“燃料”,根據(jù)IDC數(shù)據(jù),其擁有5500億條知識,且已經(jīng)應(yīng)用于百度搜索、信息流、智能駕駛、百度地圖、小度等產(chǎn)品。
模型儲備:百度實(shí)現(xiàn)了全生態(tài)的布局,其中包括NLP、CV、跨境大模型、生物計算等領(lǐng)域。
NLP領(lǐng)域: ERNIE系列,是基于知識增強(qiáng)的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力。PLATO模型,是全球首個超百億參數(shù)規(guī)模的中英文對話訓(xùn)練模型,可以讓機(jī)器人像人一樣具有邏輯且自由對話的功能。
CV領(lǐng)域: VIMER-CAE,應(yīng)用于圖像分類、目標(biāo)檢測、語義分割等場景;VIMER-UFO,擁有170億參數(shù),覆蓋人臉、人體、車輛、商品、食物細(xì)粒度分類等 20+的視覺多任務(wù)模型;OCR -VIMER-StrucTexT廣泛應(yīng)用于文檔、卡證、票據(jù)等圖像文字識別和結(jié)構(gòu)化理解;VIMERUMS業(yè)內(nèi)首發(fā)多源圖文模態(tài)表征的商品多模態(tài)預(yù)訓(xùn)練模型;
跨境大模型:可實(shí)現(xiàn)AI作畫、場景融合視覺常識推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等多場景。
生物計算: 應(yīng)用場景為蛋白結(jié)構(gòu)預(yù)測和小分子藥物研發(fā)等領(lǐng)域。
平臺方面: 擁有自主生態(tài)的百度百舸 · AI異構(gòu)計算平臺,具備高效率、多密度、高易用性、多場景部署、樂高式拼接等能力。
算力底座:百度自身具有建設(shè)智能算力中心的實(shí)力,技術(shù)領(lǐng)先且自主可控,已有典型落地案例;服務(wù)器方面擁有自妍的昆侖芯云服務(wù)器,具有AI計算能力領(lǐng)先、生態(tài)兼容、兼具硬件虛擬化、易開發(fā)等能力;芯片方面,昆侖芯AI芯片是百度自主研發(fā)的芯片,2代芯片已量產(chǎn),具備算力支撐強(qiáng)、高速互聯(lián)等多重優(yōu)勢。
生態(tài): 百度大模型賦能千行百業(yè),已有落地應(yīng)用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。
--------------------------------------------------------------------------
“報告摘錄結(jié)束 更多內(nèi)容請閱讀報告原文 ”
每日研選深度報告導(dǎo)讀,敬請關(guān)注:報告派
--------------------------------------------------------------------------
報告合集專題一覽 X 由【報告派】定期整理更新
科技 / 電子 / 半導(dǎo)體 /
人工智能 | Ai產(chǎn)業(yè) | Ai芯片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機(jī) | 可穿戴設(shè)備 |半導(dǎo)體 | 芯片產(chǎn)業(yè) | 第三代半導(dǎo)體 | 藍(lán)牙 | 晶圓 | 功率半導(dǎo)體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費(fèi)電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區(qū)塊鏈 | NFT數(shù)字藏品 | 虛擬貨幣 | 比特幣 | 數(shù)字貨幣 | 資產(chǎn)管理 | 保險行業(yè) | 保險科技 | 財產(chǎn)保險 |
(特別說明:本文來源于公開資料,摘錄內(nèi)容僅供參考,不構(gòu)成任何投資建議,如需使用請參閱報告原文。)