【專題】2023年大語言模型綜合評測報告PDF合集分享（附原數(shù)據(jù)表）

2023-09-11 16:48 作者:拓端tecdat 0人讀過 | 我要投稿

原文鏈接：https://tecdat.cn/?p=33624

原文出處：拓端數(shù)據(jù)部落公眾號

自2022年年末以來，人工智能大模型已成為技術(shù)領(lǐng)域甚至全球創(chuàng)新領(lǐng)域最受關(guān)注的話題。以ChatGPT為代表的大模型產(chǎn)品發(fā)展迅速，預(yù)測數(shù)據(jù)顯示，到2030年，AIGC市場規(guī)模有望超過萬億元。2023年，國內(nèi)主要廠商也相繼推出自研的大語言模型產(chǎn)品，同時，國內(nèi)也推出了大量的大語言模型應(yīng)用，逐步構(gòu)建了基于中文語言特色的大語言模型生態(tài)。閱讀原文，獲取專題報告合集全文，解鎖文末140份大模型相關(guān)行業(yè)研究報告。

本合集集中研究大語言模型產(chǎn)品的研發(fā)要素和核心特征，并從語言模型準(zhǔn)確性、數(shù)據(jù)基礎(chǔ)、模型和算法能力、安全和隱私四個維度入手，拆分出12個細(xì)分維度，分別是語義理解、語法結(jié)構(gòu)、知識問答、邏輯推理、代碼能力、上下文理解、語境感知、多語言能力、多模態(tài)能力、數(shù)據(jù)基礎(chǔ)、模型和算法能力、安全和隱私。針對ChatGPT、Claude、Sage、天工3.5、文心一言、通義千問、訊飛星火、Moss、ChatGLM、vicuna-13B等十款大模型產(chǎn)品，我們設(shè)計(jì)了超過3000個問題的評測。

此外，本合集特別關(guān)注了大模型產(chǎn)品在編程能力方面的表現(xiàn)，提高了這部分問題的權(quán)重和比例。同時，我們還專門設(shè)置了測試中文語境特色的問題，例如方言測試、中文特色推理、對對聯(lián)等。我們希望通過本次評測來幫助更多技術(shù)領(lǐng)域的同行獲得對于中外大模型產(chǎn)品能力的認(rèn)識，以幫助大家在AGI創(chuàng)業(yè)方向選擇和工作實(shí)際應(yīng)用方面獲得最新的認(rèn)知。

國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品

編程題目主要反映大語言模型產(chǎn)品進(jìn)階的邏輯推理能力。
在十個模型中編程得分最高的為Claude，得分率73.47%，國內(nèi)產(chǎn)品表現(xiàn)最好的為文心一言，得分率為68.37%。
在四個題目分類中，大語言模型表現(xiàn)最好的題目分類為錯誤提示和修復(fù)，整體得分率為82.5%，而表現(xiàn)最差的是難度相對較高的代碼自動補(bǔ)全類題目，整體得分率為41.67%。

國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品

知識題目主要反映大語言模型產(chǎn)品對文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。
在十個模型中知識得分最高的為文心一言，得分率73.33%，得分第二的為ChatGPT，得分率為72.67%。
在九個題目分類中，大語言模型呈現(xiàn)很大的差異化分布，即醫(yī)學(xué)常識獲得最高分率86%，而娛樂明星類知識僅獲得24%。
除IT知識問答題目外，其他八個題目分類中國內(nèi)的大模型產(chǎn)品在中文知識環(huán)境中會的問答表現(xiàn)整體接近或優(yōu)于國際大模型產(chǎn)品。

本專題內(nèi)的參考報告（PDF）目錄

清華大學(xué)：2023大語言模型綜合性能評估報告報告2023-08-23
BDS國家工程中心：2023大語言模型提示注入攻擊安全風(fēng)險分析報告報告2023-07-31
InfoQ：大語言模型綜合評測報告2023 報告2023-05-30
艾瑞咨詢：ChatGPT浪潮下，看中國大語言模型產(chǎn)業(yè)發(fā)展報告2023-04-12
微軟：微軟GPT研究報告報告2023-09-07
前瞻產(chǎn)業(yè)研究院：ChatGPT開啟AlGC產(chǎn)業(yè)生態(tài)新時代新風(fēng)口新生... 報告2023-08-25
MarketUP：ChatGPT prompt指令模型大全報告2023-08-15
混沌學(xué)園：解鎖新的生產(chǎn)力：如何用ChatGPT提升業(yè)務(wù)能力報告2023-08-09
智能小巨人俱樂部：ChatGPT還需要跨越幾道鴻溝-生成式AI工具使用... 報告2023-07-20
高力國際：ChatGPT引發(fā)的AI人工智能產(chǎn)業(yè)應(yīng)用前景分析與行業(yè)新機(jī)遇報告2023-07-04
Microsoft Azure：Azure OpenAI案例集-GPT... 報告2023-06-20
曲直：錯過AI錯過未來-如何利用chatGPT賦能國際貨代報告2023-06-06
Microsoft Azure：如何借GPT快速建構(gòu)應(yīng)用？掌握9大通用... 報告2023-06-03
CSA GCR：ChatGPT的安全影響報告2023-05-31
眾安科技：2023 AIGC&ChatGPT保險行業(yè)應(yīng)用白皮書報告2023-05-26
美通社：ChatGPT，AGI與營銷報告2023-05-25
OpenMediation：2023年ChatGPT Plus 80+... 報告2023-05-22
美通社：GPT+AI時期公關(guān)的傳播機(jī)遇與挑戰(zhàn) 報告2023-05-21
美通社：ChatGPT賦能品牌內(nèi)容報告2023-05-20
美通社：ChatGPT在商業(yè)內(nèi)容中的作用價值報告2023-05-19
法國里昂商學(xué)院&HRflag：ChatGPT對人力資源管理的影響分析報... 報告2023-05-17
奇績論壇：ChatGPT新機(jī)遇分享報告2023-04-26
量子論：ChatGPT 實(shí)用指南（精編版）（2023）報告2023-04-17
南京航空航天大學(xué)：ChatGPT的前世今生（2023）報告2023-04-16
Ibrahim John：如何向ChatGPT提問以獲得高質(zhì)量答案：提... 報告2023-04-14
艾瑞咨詢：ChatGPT浪潮下，看中國大語言模型產(chǎn)業(yè)發(fā)展報告2023-04-12
獵豹移動：為什么ChatGPT是生產(chǎn)力革命（2023）報告2023-04-09
中國科學(xué)院：ChatGPT對文獻(xiàn)情報工作的影響報告2023-04-06
工業(yè)4.0俱樂部：ChatGPT認(rèn)知白皮書報告2023-04-06
安信：ChatGPT移動應(yīng)用程序威脅分析報告（2023）報告2023-04-04
微軟研究院：人工通用智能的星星之火-GPT-4的早期實(shí)驗(yàn) 報告2023-03-30
工業(yè)4.0產(chǎn)業(yè)聯(lián)盟：ChatGPT對企業(yè)與個人的機(jī)遇與挑戰(zhàn) 報告2023-03-30
亞信科技&清華大學(xué)：2023年AIGC（GPT-4）賦能通信行業(yè)應(yīng)用白... 報告2023-03-29
浙商證券：AI行業(yè)深度報告-ChatGPT-AI模型框架研究報告2023-03-28
中信建投：GPT4及ChatGPT相關(guān)應(yīng)用梳理報告2023-03-23
熊鵬：ChatGPT4.0在投資中的運(yùn)用初探報告2023-03-21
中興新云：ChatGPT解讀及財(cái)務(wù)應(yīng)用探索報告2023-03-19
OpenAI：GPT-4 技術(shù)報告（中文版）報告2023-03-18
OpenAI：GPT-4 技術(shù)報告（英文版）報告2023-03-18
工業(yè)4.0研究院：ChatGPT對數(shù)字孿生體發(fā)展的啟示報告2023-03-12
華東政法大學(xué)：人工智能通用大模型（ChatGPT）的進(jìn)展、風(fēng)險與應(yīng)對報告2023-03-09
哈爾濱工業(yè)大學(xué)：ChatGPT調(diào)研報告報告2023-03-07
智譜研究：ChatGPT團(tuán)隊(duì)背景研究報告報告2023-03-04
甲子光年：2023AIGC市場研究報告及ChatGPT推動的變革趨勢與... 報告2023-02-28
浙商證券：ChatGPT研究框架報告2023-02-15
國泰君安：ChatGPT或引領(lǐng)游戲產(chǎn)業(yè)革命報告2023-02-15
國泰君安：ChatGPT研究框架（2023）報告2023-02-10
真格基金：ChatGPT 報告2023-02-09
華西證券：ChatGPT-重新定義搜索“入口” 報告2023-02-09
量子位智庫：三分鐘看懂ChatGPT 報告2023-02-08
中信建投：從CHAT_GPT到生成式AI（Generative AI）... 報告2023-02-01
中倫：2023公司控制權(quán)爭奪研究報告：法律大模型分析與數(shù)據(jù)挖掘報告2023-09-01
紅餐品牌研究院：小吃店模型創(chuàng)新分析報告2023 報告2023-09-01
海爾智家：2023智能家電與生成式人工智能大模型-創(chuàng)新與發(fā)展白皮書報告2023-09-01
和而泰：2023基于家電大模型的產(chǎn)業(yè)應(yīng)用白皮書報告2023-08-30
InfoQ研究中心：2023中國人工智能成熟度模型報告報告2023-08-28
浪潮信息：AIGC大模型算力平臺參考設(shè)計(jì) 報告2023-08-27
頭豹：2023年中國3D建模行業(yè)-3D建模-虛擬模型制造過程（摘要版）報告2023-08-26
清華大學(xué)：2023大語言模型綜合性能評估報告報告2023-08-23
中國移動研究院：體系化人工智能與大模型報告2023-08-22
中國移動研究院：6G內(nèi)生AI架構(gòu)及AI大模型報告2023-08-21
中國電子技術(shù)標(biāo)準(zhǔn)化研究院：知識圖譜與大模型融合實(shí)踐研究報告報告2023-08-16
新華社研究院中國企業(yè)發(fā)展研究中心：人工智能大模型體驗(yàn)報告2.0 報告2023-08-16
MarketUP：ChatGPT prompt指令模型大全報告2023-08-15
中國移動：2023“弈衡”通用大模型評測體系白皮書報告2023-08-12
商湯：2023大模型倫理原則與實(shí)踐白皮書-日日新思無邪報告2023-08-01
愛分析：中國市場大模型落地進(jìn)展與趨勢洞察報告2023-07-31
安世亞太：數(shù)字孿生是基于模型的體系工程報告2023-07-31
BDS國家工程中心：2023大語言模型提示注入攻擊安全風(fēng)險分析報告報告2023-07-31
速途網(wǎng)&大模型之家：人工智能大模型產(chǎn)業(yè)創(chuàng)新價值研究報告報告2023-07-27
甲子光年：AIGC通用大模型產(chǎn)品測評篇報告2023-07-25
工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟：工業(yè)互聯(lián)網(wǎng)標(biāo)識解析-標(biāo)識數(shù)據(jù)模型白皮書報告2023-07-25
TE智庫：2023中國通用大模型內(nèi)容生成及安全性能力評測報告報告2023-07-23
易觀分析：大模型對企業(yè)數(shù)智化升級與業(yè)務(wù)經(jīng)營的影響與應(yīng)對報告2023-07-20
浙江大學(xué)大模型時代：智能設(shè)計(jì)的機(jī)遇和挑戰(zhàn) 報告2023-07-20
中國工業(yè)互聯(lián)網(wǎng)研究院：通用人工智能大模型工業(yè)領(lǐng)域知識問答性能評估報告2023-07-11
騰訊研究院：大模型時代的AI十大趨勢觀察-人機(jī)共生報告2023-07-11
普華永道：氣象數(shù)據(jù)價值系列白皮書之三：撬動氣象數(shù)據(jù)價值新模型白皮書報告2023-06-16
之江實(shí)驗(yàn)室：2023生成式大模型安全與隱私白皮書報告2023-06-11
中國移動研究院：面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書報告2023-06-03
新華社研究院：人工智能大模型體驗(yàn)報告報告2023-06-02
InfoQ：大語言模型綜合評測報告2023 報告2023-05-30
中國移動：我國人工智能大模型發(fā)展動態(tài) 報告2023-05-19
沙利文：AI大模型市場研究報告（2023）-邁向通用人工智能，大模型拉... 報告2023-05-17
艾瑞咨詢：ChatGPT浪潮下，看中國大語言模型產(chǎn)業(yè)發(fā)展報告2023-04-12
浙商證券：AI行業(yè)深度報告-ChatGPT-AI模型框架研究報告2023-03-28
騰訊：2023全域用戶經(jīng)營白皮書：STAR模型，從用戶運(yùn)營到生意增長報告2023-03-21
德勤：消費(fèi)元宇宙塑造商業(yè)新模型報告2023-03-13
百信銀行：商業(yè)銀行“Bank Digital Mesh”數(shù)字化成熟度評... 報告2023-03-13
華東政法大學(xué)：人工智能通用大模型（ChatGPT）的進(jìn)展、風(fēng)險與應(yīng)對報告2023-03-09
IDC：2022中國大模型發(fā)展白皮書-元能力引擎筑基智能底座報告2023-03-07
百信銀行：商業(yè)銀行“Bank Digital Mesh”數(shù)字化成熟度評... 報告2023-02-27
IDC：2022中國大模型發(fā)展白皮書?元能力引擎筑基智能底座報告2023-02-21
微伴助手：私域商業(yè)模型分析與案例解析報告2022-09-01
智篆：數(shù)智化轉(zhuǎn)型：鉆石模型白皮書報告2022-03-30
工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟：工業(yè)互聯(lián)網(wǎng)信息模型園區(qū)應(yīng)用白皮書報告2021-12-29
騰訊&智來時代：2021新職業(yè)教育機(jī)構(gòu)數(shù)字化經(jīng)營模型報告2021-12-22
太平洋：傳媒互聯(lián)網(wǎng)行業(yè)專題-海外AIGC應(yīng)用進(jìn)展之游戲篇報告2023-09-07
甲子光年：2023年中國AIGC產(chǎn)業(yè)算力發(fā)展報告報告2023-09-05
浪潮信息：AIGC大模型算力平臺參考設(shè)計(jì) 報告2023-08-27
艾瑞咨詢：2023年中國AIGC產(chǎn)業(yè)全景報告報告2023-08-24
貝塔數(shù)據(jù)：2023 AIGC時代-手機(jī)銀行財(cái)富管理能力建設(shè)白皮書報告2023-08-18
靈汐科技：2023年AIGC行業(yè)調(diào)研報告報告2023-08-03
無界AI：AIGC之AI繪畫行業(yè)發(fā)展研究報告2023 報告2023-07-31
頭豹：2023年中國AIGC細(xì)分賽道研究報告（上）-文本和圖像率先應(yīng)用... 報告2023-07-31
軟通智慧&人大：2023年AIGC賦能城市治理應(yīng)用白皮書報告2023-07-27
甲子光年：AIGC通用大模型產(chǎn)品測評篇報告2023-07-25
量子位：2023 AIGC算力全景與趨勢報告報告2023-07-24
TE智庫：2023AIGC+營銷價值與應(yīng)用研究報告報告2023-07-21
億歐智庫：2023中國AIGC商業(yè)潛力研究報告報告2023-07-10
騰訊云：AI2.0時代如何通過AIGC打造爆款營銷內(nèi)容？報告2023-07-06
清華大學(xué)：從營銷AIGC化到AIGC營銷化0000 報告2023-07-05
阿里云：玩轉(zhuǎn)AIGC與應(yīng)用部署報告2023-07-02
愛分析：2023AIGC廠商全景報告報告2023-07-01
亞洲數(shù)據(jù)集團(tuán)：智能時代的生產(chǎn)力變革：AIGC產(chǎn)業(yè)應(yīng)用實(shí)踐報告2023-06-28
獵聘：2023 AIGC人才趨勢洞察報告報告2023-06-20
中國文化產(chǎn)業(yè)協(xié)會：中國文化元宇宙AIGC發(fā)展研究報告報告2023-06-18
億歐智庫：企業(yè)AIGC商業(yè)落地應(yīng)用研究報告報告2023-06-07
眾安科技：2023 AIGC&ChatGPT保險行業(yè)應(yīng)用白皮書報告2023-05-26
清華大學(xué)：AIGC發(fā)展研究1.0版0.91 報告2023-05-17
億歐智庫：中國AIGC商用場景趨勢捕捉指北報告2023-05-16
復(fù)旦大學(xué)：AIGC時代的多模態(tài)知識工程思考與展望報告2023-05-05
拉勾：2023第一季度AIGC人才供需報告報告2023-04-30
華東師大：AIGC技術(shù)給教育數(shù)字化轉(zhuǎn)型帶來的機(jī)遇與挑戰(zhàn) 報告2023-04-28
創(chuàng)客貼：AIGC產(chǎn)業(yè)發(fā)展及應(yīng)用白皮書報告2023-04-26
ArchSummit：營銷領(lǐng)域AIGC前沿進(jìn)展與挑戰(zhàn) 報告2023-04-24
復(fù)旦大學(xué)：AIGC時代的多模態(tài)知識工程思考與展望報告2023-04-22
百度：百度AIGC創(chuàng)新內(nèi)容營銷解決方案報告2023-04-22
增長黑盒&黑盒點(diǎn)評：2023中國AIGC應(yīng)用研究報告報告2023-04-18
頭豹：2022年中國AIGC行業(yè)研究報告- 蓄勢待發(fā)-數(shù)字內(nèi)容的工業(yè)革... 報告2023-04-07
甲子光年：2023AIGC應(yīng)用與實(shí)踐展望報告報告2023-04-07
量子位智庫：AIGC產(chǎn)業(yè)全景圖報告報告2023-03-31
亞信科技&清華大學(xué)：2023年AIGC（GPT-4）賦能通信行業(yè)應(yīng)用白... 報告2023-03-29
百度：2023百度AIGC創(chuàng)新營銷解決方案V2.0 報告2023-03-26
脈脈：2023AIGC人才趨勢報告報告2023-03-26
愛分析：2023AIGC市場廠商評估報告：拓爾思報告2023-03-24
甲子光年：2023AIGC市場研究報告及ChatGPT推動的變革趨勢與... 報告2023-02-28
騰訊研究院：AIGC發(fā)展趨勢報告2023 報告2023-02-01
中國信通院&京東：人工智能生成內(nèi)容（AIGC）白皮書（2022年）報告2022-09-07
中國信通院：2022年人工智能生成內(nèi)容（AIGC）白皮書報告2022-09-03

標(biāo)簽：

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【專題】2023年大語言模型綜合評測報告PDF合集分享（附原數(shù)據(jù)表）

原文鏈接：https://tecdat.cn/?p=33624

原文出處：拓端數(shù)據(jù)部落公眾號

國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品

國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品

本專題內(nèi)的參考報告（PDF）目錄