【專題】2023年大語言模型綜合評測報告PDF合集分享(附原數(shù)據(jù)表)
原文鏈接:https://tecdat.cn/?p=33624
原文出處:拓端數(shù)據(jù)部落公眾號
自2022年年末以來,人工智能大模型已成為技術(shù)領(lǐng)域甚至全球創(chuàng)新領(lǐng)域最受關(guān)注的話題。以ChatGPT為代表的大模型產(chǎn)品發(fā)展迅速,預(yù)測數(shù)據(jù)顯示,到2030年,AIGC市場規(guī)模有望超過萬億元。2023年,國內(nèi)主要廠商也相繼推出自研的大語言模型產(chǎn)品,同時,國內(nèi)也推出了大量的大語言模型應(yīng)用,逐步構(gòu)建了基于中文語言特色的大語言模型生態(tài)。閱讀原文,獲取專題報告合集全文,解鎖文末140份大模型相關(guān)行業(yè)研究報告。
本合集集中研究大語言模型產(chǎn)品的研發(fā)要素和核心特征,并從語言模型準(zhǔn)確性、數(shù)據(jù)基礎(chǔ)、模型和算法能力、安全和隱私四個維度入手,拆分出12個細(xì)分維度,分別是語義理解、語法結(jié)構(gòu)、知識問答、邏輯推理、代碼能力、上下文理解、語境感知、多語言能力、多模態(tài)能力、數(shù)據(jù)基礎(chǔ)、模型和算法能力、安全和隱私。針對ChatGPT、Claude、Sage、天工3.5、文心一言、通義千問、訊飛星火、Moss、ChatGLM、vicuna-13B等十款大模型產(chǎn)品,我們設(shè)計(jì)了超過3000個問題的評測。
此外,本合集特別關(guān)注了大模型產(chǎn)品在編程能力方面的表現(xiàn),提高了這部分問題的權(quán)重和比例。同時,我們還專門設(shè)置了測試中文語境特色的問題,例如方言測試、中文特色推理、對對聯(lián)等。我們希望通過本次評測來幫助更多技術(shù)領(lǐng)域的同行獲得對于中外大模型產(chǎn)品能力的認(rèn)識,以幫助大家在AGI創(chuàng)業(yè)方向選擇和工作實(shí)際應(yīng)用方面獲得最新的認(rèn)知。
國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品
編程題目主要反映大語言模型產(chǎn)品進(jìn)階的邏輯推理能力。
在十個模型中編程得分最高的為Claude,得分率73.47%,國內(nèi)產(chǎn)品表現(xiàn)最好的為文心一言,得分率為68.37%。
在四個題目分類中,大語言模型表現(xiàn)最好的題目分類為錯誤提示和修復(fù),整體得分率為82.5%,而表現(xiàn)最差的是難度相對較高的代碼自動補(bǔ)全類題目,整體得分率為41.67%。

國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品
知識題目主要反映大語言模型產(chǎn)品對文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。
在十個模型中知識得分最高的為文心一言,得分率73.33%,得分第二的為ChatGPT,得分率為72.67%。
在九個題目分類中,大語言模型呈現(xiàn)很大的差異化分布,即醫(yī)學(xué)常識獲得最高分率86%,而娛樂明星類知識僅獲得24%。
除IT知識問答題目外,其他八個題目分類中國內(nèi)的大模型產(chǎn)品在中文知識環(huán)境中會的問答表現(xiàn)整體接近或優(yōu)于國際大模型產(chǎn)品。
本專題內(nèi)的參考報告(PDF)目錄
清華大學(xué):2023大語言模型綜合性能評估報告 報告2023-08-23
BDS國家工程中心:2023大語言模型提示注入攻擊安全風(fēng)險分析報告 報告2023-07-31
InfoQ:大語言模型綜合評測報告2023 報告2023-05-30
艾瑞咨詢:ChatGPT浪潮下,看中國大語言模型產(chǎn)業(yè)發(fā)展 報告2023-04-12
微軟:微軟GPT研究報告 報告2023-09-07
前瞻產(chǎn)業(yè)研究院:ChatGPT開啟AlGC產(chǎn)業(yè)生態(tài)新時代 新風(fēng)口 新生... 報告2023-08-25
MarketUP:ChatGPT prompt指令模型大全 報告2023-08-15
混沌學(xué)園:解鎖新的生產(chǎn)力:如何用ChatGPT提升業(yè)務(wù)能力 報告2023-08-09
智能小巨人俱樂部:ChatGPT還需要跨越幾道鴻溝-生成式AI工具使用... 報告2023-07-20
高力國際:ChatGPT引發(fā)的AI人工智能產(chǎn)業(yè)應(yīng)用前景分析與行業(yè)新機(jī)遇 報告2023-07-04
Microsoft Azure:Azure OpenAI案例集-GPT... 報告2023-06-20
曲直:錯過AI錯過未來-如何利用chatGPT賦能國際貨代 報告2023-06-06
Microsoft Azure:如何借GPT快速建構(gòu)應(yīng)用?掌握9大通用... 報告2023-06-03
CSA GCR:ChatGPT的安全影響 報告2023-05-31
眾安科技:2023 AIGC&ChatGPT保險行業(yè)應(yīng)用白皮書 報告2023-05-26
美通社:ChatGPT,AGI與營銷 報告2023-05-25
OpenMediation:2023年ChatGPT Plus 80+... 報告2023-05-22
美通社:GPT+AI時期公關(guān)的傳播機(jī)遇與挑戰(zhàn) 報告2023-05-21
美通社:ChatGPT賦能品牌內(nèi)容 報告2023-05-20
美通社:ChatGPT在商業(yè)內(nèi)容中的作用價值 報告2023-05-19
法國里昂商學(xué)院&HRflag:ChatGPT對人力資源管理的影響分析報... 報告2023-05-17
奇績論壇:ChatGPT新機(jī)遇分享 報告2023-04-26
量子論:ChatGPT 實(shí)用指南(精編版)(2023) 報告2023-04-17
南京航空航天大學(xué):ChatGPT的前世今生(2023) 報告2023-04-16
Ibrahim John:如何向ChatGPT提問以獲得高質(zhì)量答案:提... 報告2023-04-14
艾瑞咨詢:ChatGPT浪潮下,看中國大語言模型產(chǎn)業(yè)發(fā)展 報告2023-04-12
獵豹移動:為什么ChatGPT是生產(chǎn)力革命(2023) 報告2023-04-09
中國科學(xué)院:ChatGPT對文獻(xiàn)情報工作的影響 報告2023-04-06
工業(yè)4.0俱樂部:ChatGPT認(rèn)知白皮書 報告2023-04-06
安信:ChatGPT移動應(yīng)用程序威脅分析報告(2023) 報告2023-04-04
微軟研究院:人工通用智能的星星之火-GPT-4的早期實(shí)驗(yàn) 報告2023-03-30
工業(yè)4.0產(chǎn)業(yè)聯(lián)盟:ChatGPT對企業(yè)與個人的機(jī)遇與挑戰(zhàn) 報告2023-03-30
亞信科技&清華大學(xué):2023年AIGC(GPT-4)賦能通信行業(yè)應(yīng)用白... 報告2023-03-29
浙商證券:AI行業(yè)深度報告-ChatGPT-AI模型框架研究 報告2023-03-28
中信建投:GPT4及ChatGPT相關(guān)應(yīng)用梳理 報告2023-03-23
熊鵬:ChatGPT4.0在投資中的運(yùn)用初探 報告2023-03-21
中興新云:ChatGPT解讀及財(cái)務(wù)應(yīng)用探索 報告2023-03-19
OpenAI:GPT-4 技術(shù)報告(中文版) 報告2023-03-18
OpenAI:GPT-4 技術(shù)報告(英文版) 報告2023-03-18
工業(yè)4.0研究院:ChatGPT對數(shù)字孿生體發(fā)展的啟示 報告2023-03-12
華東政法大學(xué):人工智能通用大模型(ChatGPT)的進(jìn)展、風(fēng)險與應(yīng)對 報告2023-03-09
哈爾濱工業(yè)大學(xué):ChatGPT調(diào)研報告 報告2023-03-07
智譜研究:ChatGPT團(tuán)隊(duì)背景研究報告 報告2023-03-04
甲子光年:2023AIGC市場研究報告及ChatGPT推動的變革趨勢與... 報告2023-02-28
浙商證券:ChatGPT研究框架 報告2023-02-15
國泰君安:ChatGPT或引領(lǐng)游戲產(chǎn)業(yè)革命 報告2023-02-15
國泰君安:ChatGPT研究框架(2023) 報告2023-02-10
真格基金:ChatGPT 報告2023-02-09
華西證券:ChatGPT-重新定義搜索“入口” 報告2023-02-09
量子位智庫:三分鐘看懂ChatGPT 報告2023-02-08
中信建投:從CHAT_GPT到生成式AI(Generative AI)... 報告2023-02-01
中倫:2023公司控制權(quán)爭奪研究報告:法律大模型分析與數(shù)據(jù)挖掘 報告2023-09-01
紅餐品牌研究院:小吃店模型創(chuàng)新分析報告2023 報告2023-09-01
海爾智家:2023智能家電與生成式人工智能大模型-創(chuàng)新與發(fā)展白皮書 報告2023-09-01
和而泰:2023基于家電大模型的產(chǎn)業(yè)應(yīng)用白皮書 報告2023-08-30
InfoQ研究中心:2023中國人工智能成熟度模型報告 報告2023-08-28
浪潮信息:AIGC大模型算力平臺參考設(shè)計(jì) 報告2023-08-27
頭豹:2023年中國3D建模行業(yè)-3D建模-虛擬模型制造過程(摘要版) 報告2023-08-26
清華大學(xué):2023大語言模型綜合性能評估報告 報告2023-08-23
中國移動研究院:體系化人工智能與大模型 報告2023-08-22
中國移動研究院:6G內(nèi)生AI架構(gòu)及AI大模型 報告2023-08-21
中國電子技術(shù)標(biāo)準(zhǔn)化研究院:知識圖譜與大模型融合實(shí)踐研究報告 報告2023-08-16
新華社研究院中國企業(yè)發(fā)展研究中心:人工智能大模型體驗(yàn)報告2.0 報告2023-08-16
MarketUP:ChatGPT prompt指令模型大全 報告2023-08-15
中國移動:2023“弈衡”通用大模型評測體系白皮書 報告2023-08-12
商湯:2023大模型倫理原則與實(shí)踐白皮書-日日新思無邪 報告2023-08-01
愛分析:中國市場大模型落地進(jìn)展與趨勢洞察 報告2023-07-31
安世亞太:數(shù)字孿生是基于模型的體系工程 報告2023-07-31
BDS國家工程中心:2023大語言模型提示注入攻擊安全風(fēng)險分析報告 報告2023-07-31
速途網(wǎng)&大模型之家:人工智能大模型產(chǎn)業(yè)創(chuàng)新價值研究報告 報告2023-07-27
甲子光年:AIGC通用大模型產(chǎn)品測評篇 報告2023-07-25
工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟:工業(yè)互聯(lián)網(wǎng)標(biāo)識解析-標(biāo)識數(shù)據(jù)模型白皮書 報告2023-07-25
TE智庫:2023中國通用大模型內(nèi)容生成及安全性能力評測報告 報告2023-07-23
易觀分析:大模型對企業(yè)數(shù)智化升級與業(yè)務(wù)經(jīng)營的影響與應(yīng)對 報告2023-07-20
浙江大學(xué)大模型時代:智能設(shè)計(jì)的機(jī)遇和挑戰(zhàn) 報告2023-07-20
中國工業(yè)互聯(lián)網(wǎng)研究院:通用人工智能大模型工業(yè)領(lǐng)域知識問答性能評估 報告2023-07-11
騰訊研究院:大模型時代的AI十大趨勢觀察-人機(jī)共生 報告2023-07-11
普華永道:氣象數(shù)據(jù)價值系列白皮書之三:撬動氣象數(shù)據(jù)價值新模型白皮書 報告2023-06-16
之江實(shí)驗(yàn)室:2023生成式大模型安全與隱私白皮書 報告2023-06-11
中國移動研究院:面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書 報告2023-06-03
新華社研究院:人工智能大模型體驗(yàn)報告 報告2023-06-02
InfoQ:大語言模型綜合評測報告2023 報告2023-05-30
中國移動:我國人工智能大模型發(fā)展動態(tài) 報告2023-05-19
沙利文:AI大模型市場研究報告(2023)-邁向通用人工智能,大模型拉... 報告2023-05-17
艾瑞咨詢:ChatGPT浪潮下,看中國大語言模型產(chǎn)業(yè)發(fā)展 報告2023-04-12
浙商證券:AI行業(yè)深度報告-ChatGPT-AI模型框架研究 報告2023-03-28
騰訊:2023全域用戶經(jīng)營白皮書:STAR模型,從用戶運(yùn)營到生意增長 報告2023-03-21
德勤:消費(fèi)元宇宙塑造商業(yè)新模型 報告2023-03-13
百信銀行:商業(yè)銀行“Bank Digital Mesh”數(shù)字化成熟度評... 報告2023-03-13
華東政法大學(xué):人工智能通用大模型(ChatGPT)的進(jìn)展、風(fēng)險與應(yīng)對 報告2023-03-09
IDC:2022中國大模型發(fā)展白皮書-元能力引擎筑基智能底座 報告2023-03-07
百信銀行:商業(yè)銀行“Bank Digital Mesh”數(shù)字化成熟度評... 報告2023-02-27
IDC:2022中國大模型發(fā)展白皮書?元能力引擎筑基智能底座 報告2023-02-21
微伴助手:私域商業(yè)模型分析與案例解析 報告2022-09-01
智篆:數(shù)智化轉(zhuǎn)型:鉆石模型白皮書 報告2022-03-30
工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟:工業(yè)互聯(lián)網(wǎng)信息模型園區(qū)應(yīng)用白皮書 報告2021-12-29
騰訊&智來時代:2021新職業(yè)教育機(jī)構(gòu)數(shù)字化經(jīng)營模型 報告2021-12-22
太平洋:傳媒互聯(lián)網(wǎng)行業(yè)專題-海外AIGC應(yīng)用進(jìn)展之游戲篇 報告2023-09-07
甲子光年:2023年中國AIGC產(chǎn)業(yè)算力發(fā)展報告 報告2023-09-05
浪潮信息:AIGC大模型算力平臺參考設(shè)計(jì) 報告2023-08-27
艾瑞咨詢:2023年中國AIGC產(chǎn)業(yè)全景報告 報告2023-08-24
貝塔數(shù)據(jù):2023 AIGC時代-手機(jī)銀行財(cái)富管理能力建設(shè)白皮書 報告2023-08-18
靈汐科技:2023年AIGC行業(yè)調(diào)研報告 報告2023-08-03
無界AI:AIGC之AI繪畫行業(yè)發(fā)展研究報告2023 報告2023-07-31
頭豹:2023年中國AIGC細(xì)分賽道研究報告(上)-文本和圖像率先應(yīng)用... 報告2023-07-31
軟通智慧&人大:2023年AIGC賦能城市治理應(yīng)用白皮書 報告2023-07-27
甲子光年:AIGC通用大模型產(chǎn)品測評篇 報告2023-07-25
量子位:2023 AIGC算力全景與趨勢報告 報告2023-07-24
TE智庫:2023AIGC+營銷價值與應(yīng)用研究報告 報告2023-07-21
億歐智庫:2023中國AIGC商業(yè)潛力研究報告 報告2023-07-10
騰訊云:AI2.0時代如何通過AIGC打造爆款營銷內(nèi)容? 報告2023-07-06
清華大學(xué):從營銷AIGC化到AIGC營銷化0000 報告2023-07-05
阿里云:玩轉(zhuǎn)AIGC與應(yīng)用部署 報告2023-07-02
愛分析:2023AIGC廠商全景報告 報告2023-07-01
亞洲數(shù)據(jù)集團(tuán):智能時代的生產(chǎn)力變革:AIGC產(chǎn)業(yè)應(yīng)用實(shí)踐 報告2023-06-28
獵聘:2023 AIGC人才趨勢洞察報告 報告2023-06-20
中國文化產(chǎn)業(yè)協(xié)會:中國文化元宇宙AIGC發(fā)展研究報告 報告2023-06-18
億歐智庫:企業(yè)AIGC商業(yè)落地應(yīng)用研究報告 報告2023-06-07
眾安科技:2023 AIGC&ChatGPT保險行業(yè)應(yīng)用白皮書 報告2023-05-26
清華大學(xué):AIGC發(fā)展研究1.0版0.91 報告2023-05-17
億歐智庫:中國AIGC商用場景趨勢捕捉指北 報告2023-05-16
復(fù)旦大學(xué):AIGC時代的多模態(tài)知識工程思考與展望 報告2023-05-05
拉勾:2023第一季度AIGC人才供需報告 報告2023-04-30
華東師大:AIGC技術(shù)給教育數(shù)字化轉(zhuǎn)型帶來的機(jī)遇與挑戰(zhàn) 報告2023-04-28
創(chuàng)客貼:AIGC產(chǎn)業(yè)發(fā)展及應(yīng)用白皮書 報告2023-04-26
ArchSummit:營銷領(lǐng)域AIGC前沿進(jìn)展與挑戰(zhàn) 報告2023-04-24
復(fù)旦大學(xué):AIGC時代的多模態(tài)知識工程思考與展望 報告2023-04-22
百度:百度AIGC創(chuàng)新內(nèi)容營銷解決方案 報告2023-04-22
增長黑盒&黑盒點(diǎn)評:2023中國AIGC應(yīng)用研究報告 報告2023-04-18
頭豹:2022年中國AIGC行業(yè)研究報告- 蓄勢待發(fā)-數(shù)字內(nèi)容的工業(yè)革... 報告2023-04-07
甲子光年:2023AIGC應(yīng)用與實(shí)踐展望報告 報告2023-04-07
量子位智庫:AIGC產(chǎn)業(yè)全景圖報告 報告2023-03-31
亞信科技&清華大學(xué):2023年AIGC(GPT-4)賦能通信行業(yè)應(yīng)用白... 報告2023-03-29
百度:2023百度AIGC創(chuàng)新營銷解決方案V2.0 報告2023-03-26
脈脈:2023AIGC人才趨勢報告 報告2023-03-26
愛分析:2023AIGC市場廠商評估報告:拓爾思 報告2023-03-24
甲子光年:2023AIGC市場研究報告及ChatGPT推動的變革趨勢與... 報告2023-02-28
騰訊研究院:AIGC發(fā)展趨勢報告2023 報告2023-02-01
中國信通院&京東:人工智能生成內(nèi)容(AIGC)白皮書(2022年) 報告2022-09-07
中國信通院:2022年人工智能生成內(nèi)容(AIGC)白皮書 報告2022-09-03