散文網(wǎng) » 生活 »日常 » 工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5

工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5

2023-06-29 17:31 作者:科技四少 0人讀過 | 我要投稿

近期，中國(guó)工業(yè)互聯(lián)網(wǎng)研究院（簡(jiǎn)稱“工聯(lián)院”）針對(duì)人工智能大模型在中文工業(yè)領(lǐng)域的知識(shí)問答能力進(jìn)行系統(tǒng)性評(píng)測(cè)。結(jié)果顯示，百度文心一言表現(xiàn)超過GPT3.5，綜合評(píng)價(jià)指數(shù)在國(guó)內(nèi)排名第一。

工聯(lián)院本次評(píng)測(cè)選取了工業(yè)領(lǐng)域典型的八大行業(yè)。百度文心一言在??電子設(shè)備、??裝備、???鋼鐵、采礦、電力、石化、建材等七大行業(yè)均獲國(guó)內(nèi)第一。

五大院士，八大IEEE Fellow，共十三位頂級(jí)專家構(gòu)成了專家委員會(huì)。評(píng)測(cè)對(duì)象涵蓋GPT4、GPT3.5、文心一言、ChatGLM等國(guó)內(nèi)外具有代表性的頭部大模型。評(píng)估結(jié)果選取性能前六名的模型進(jìn)行公布。

百度文心一言在國(guó)內(nèi)“最懂工業(yè)”

本次工業(yè)知識(shí)問答測(cè)試主要分為客觀題與主觀題兩大類，總計(jì)超過1100個(gè)問題。主觀題主要考察四大維度：基礎(chǔ)能力、語(yǔ)句能力、概括能力和邏輯能力。

評(píng)測(cè)結(jié)果顯示，GPT4表現(xiàn)最佳。國(guó)內(nèi)頭部大模型表現(xiàn)亮眼，整體與GPT3.5相當(dāng)。其中百度文心一言表現(xiàn)超過GPT3.5，在國(guó)內(nèi)大模型中排名第一。

在客觀題環(huán)節(jié)，評(píng)測(cè)結(jié)果顯示，GPT4與文心一言表現(xiàn)好于其他大模型。但評(píng)測(cè)結(jié)果也同時(shí)指出，大模型普遍準(zhǔn)確率有較大的提升空間。

主觀題方面，國(guó)內(nèi)大模型的基礎(chǔ)能力、語(yǔ)句能力與GPT4接近，概括能力、邏輯能力與GPT4有一定差距。

在大模型的自我認(rèn)知能力和污染問題分析能力上，GPT4相較于其他大模型表現(xiàn)出更好的能力。

大模型發(fā)展新熱點(diǎn)：豐富特定行業(yè)專業(yè)知識(shí)

雖然國(guó)內(nèi)大模型在本次評(píng)測(cè)表現(xiàn)較好，甚至在部分行業(yè)趕超GPT3.5，但工聯(lián)院評(píng)測(cè)報(bào)告也指出，國(guó)內(nèi)外通用大模型在工業(yè)知識(shí)問答領(lǐng)域探索仍處于初級(jí)階段，國(guó)內(nèi)大模型與GPT4有差距，比如行業(yè)間的泛化能力有待加強(qiáng)。

實(shí)際上，工聯(lián)院評(píng)測(cè)報(bào)告揭示出通用大模型落地垂直行業(yè)的痛點(diǎn)，缺乏特定行業(yè)的專業(yè)知識(shí)。

關(guān)于解決難題的方法，工聯(lián)院評(píng)測(cè)報(bào)告給出的建議是，進(jìn)一步豐富相關(guān)專業(yè)領(lǐng)域的數(shù)據(jù)訓(xùn)練集，進(jìn)一步進(jìn)行專業(yè)化的微調(diào)。

當(dāng)前，國(guó)內(nèi)科技公司紛紛加強(qiáng)與工業(yè)企業(yè)合作，期望通過在實(shí)際場(chǎng)景中探索應(yīng)用大模型，彌補(bǔ)差距，趕超GPT4.0。

比如在本次評(píng)測(cè)中位居國(guó)內(nèi)模型第一的百度文心一言，與南方電網(wǎng)電力調(diào)度控制中心在電力調(diào)度場(chǎng)景探索使用調(diào)度AI大模型。在汽車行業(yè)，長(zhǎng)安汽車基于百度文心大模型正在開發(fā)生成式人工智能產(chǎn)品，賦能一款量產(chǎn)車型，實(shí)現(xiàn)提升用戶體驗(yàn)的目標(biāo)。除了能源、汽車制造，百度智能云還在建筑、采礦、物流、紡織等領(lǐng)域，探索使用大模型提升運(yùn)營(yíng)效率和用戶體驗(yàn)效果。

通過在實(shí)際場(chǎng)景的探索應(yīng)用，科技公司可以積攢更多的行業(yè)Know-how，擴(kuò)展相關(guān)領(lǐng)域的數(shù)據(jù)訓(xùn)練集。這種外部真實(shí)反饋有助驅(qū)動(dòng)大模型更加快速的實(shí)現(xiàn)迭代升級(jí)。

未來，工聯(lián)院將持續(xù)開展通用大模型在工業(yè)領(lǐng)域更多維度的性能評(píng)測(cè)，包括但不限于大模型的魯棒性、安全性以及人類大價(jià)值觀等。

標(biāo)簽：

工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5

工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5

本文作者的其他文章

工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

工聯(lián)院大模型測(cè)評(píng)：文心一言在工業(yè)領(lǐng)域表現(xiàn)超過GPT3.5的評(píng)論 (共條)