最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

11家大模型哪家強?我們搶先評測了5家

2023-08-31 18:29 作者:DoNews官方  | 我要投稿


撰文 | 王曉樹

編輯 | 楊博丞

題圖 | IC Photo


大模型時代,真的來了。

據(jù)貝殼財經(jīng)消息,國內(nèi)將有11家大模型陸續(xù)通過《生成式人工智能服務(wù)管理暫行辦法》備案,首批將在8月31日起將陸續(xù)向全社會公眾開放服務(wù)。其中北京5家,上海3家率先上線,廣東省2家和其他省市1家也將陸續(xù)開放。

據(jù)悉,廣東地區(qū)獲批公司分別為華為、騰訊,科大訊飛系其他地區(qū)獲批產(chǎn)品。

截至發(fā)稿前,可以確定已經(jīng)向全社會開放的大模型有:百度的文心一言、科大訊飛的訊飛星火認知大模型、商湯科技的商量SenseChat、百川智能的百川大模型、智譜AI的智譜清言。

此前,DoNews曾橫向評測過國內(nèi)外大模型文心一言、ChatGPT3.5、Bard大模型。在此背景下,DoNews對上述已經(jīng)開放的國內(nèi)大模型進行了橫向評測,分別就文學(xué)創(chuàng)作、創(chuàng)意、邏輯推理、編程等等方向出題,來看看他們的回答是什么樣子的。

首先從外觀界面來看,這五大模型大同小異,每一個答案生成后都會出現(xiàn)“贊同、不贊同、重新生成以及內(nèi)容復(fù)制”的功能按鈕。

唯一有所不同的是智譜清言的右邊有一個界面是“靈感大全”,其中有一系列的選項,包括文章創(chuàng)作、熱點選題、語言翻譯、廣告文案等等。

目前來看,智譜清言的“靈感大全”,是現(xiàn)階段大模型在C端比較成熟的落地方式。目前市面上已經(jīng)出現(xiàn)了不少以大模型為基礎(chǔ)的應(yīng)用APP,其中就分為創(chuàng)作、創(chuàng)意、對話等板塊。

此外,在生成速度上,就DoNews的體驗而言,商湯SenseChat大模型在新問題上的生成速度明顯低于其他幾家。

在具體的橫向評測前,我們首先跟ChatGPT4.0聊了一下,如何看待中國11款大模型通過國家備案向公眾全面開放一事,將給行業(yè)帶來什么影響?

這是大模型“老大哥”的回答,接下來我們來看看文心一言、訊飛星火認知大模型、商量SenseChat、百川大模型、智譜清言的回答。

文心一言

訊飛星火大模型

商湯SenseChat

百川大模型

智譜清言

在這個回答中,這幾大模型都有一個共同點,會通過幾個明確的點,比較籠統(tǒng)的作答。這不只是國內(nèi)大模型的回答模式,ChatGPT、Bard都是如此。

只不過,在這些回答中,訊飛的答案稍顯突兀。和其他幾家明顯的“思考”相比,訊飛的答案稍有“問題檢索”的意味。

接下來就看看在相同問題下,這五家大模型的回答分別是什么樣的吧。

1、文學(xué)創(chuàng)作

問題:請用“瞞天過?!弊鲆皇撞仡^詩。

如果用人的思維去思考這個問題,有三個步驟。瞞天過海典故出處,是什么意思以及怎么做藏頭詩。

從生成的結(jié)果來看,唯一滿足“藏頭詩”概念的,就只有商湯SenseChat、百川大模型做到了。其他四個大模型雖然做了詩,但都沒能理解藏頭詩的意思。

再來看看智譜清言答案,似乎有點“投機取巧”了。





2、創(chuàng)意

問題:如果要成立一家比較有中國川菜風(fēng)味的中式餐廳,你可以幫忙取一下名字并且寫一段廣告詞么?

這五大模型都精準理解了問題的兩大點:取名和寫廣告詞。但單從創(chuàng)意上來看,訊飛星火大模型的創(chuàng)意不錯,還給出了多個參考。





3、邏輯推理能力

問題:請你運用邏輯推理,解決以下問題:“如果貓會爬樹,那么狗也會?!?/strong>

文心一言、訊飛星火以及百川大模型和智譜清言沒有掉入這個邏輯陷阱里,商湯最后卻被繞了進去。





4、編程能力

問題:x+2=5,y-3=7,輸出x+y等于幾,用java做一個簡單編程,然后得出結(jié)果。

程序猿的福音來了。這幾款大模型都可以快速生成簡單的代碼。就上述題目而言,這五款大模型給出的代碼都差不多。

就問題的結(jié)果而言,訊飛星火大模型、商湯SenseChat大模型第一次都給出了正確的答案。不過,除了訊飛之外,其他幾個大模型重新生成幾次后,每次結(jié)果都會不同。





最后一個問題,我將“你會取代人類的崗位么?”拋給了這五個大模型。他們給出的答案都是不能完全替代。

就筆者而言,大模型的出現(xiàn)其實就是人類創(chuàng)造的一個生產(chǎn)工具,只是這個生產(chǎn)工具開始有了更多更全面的思考。

目前而言,大模型替代人類工作的可能性并不大,只是可以幫助部分崗位提高工作效率。





不過,隨著大模型的廣泛應(yīng)用,它們在社會中的影響也逐漸擴大,涉及到隱私、安全、倫理等多方面的問題。

所以,在越來越多的大模型放開之后的背景下,更需要思考的一個問題是監(jiān)管該走向何處?

首先,我們需要確保這些模型不會侵犯個人隱私,不被用于非法或不道德的目的。

其次,模型的決策透明度和可解釋性也變得尤為重要,這可以幫助我們理解模型是如何做出判斷的,以及它可能存在的偏見和不足。

此外,隨著技術(shù)的發(fā)展,我們還需要對模型的使用進行持續(xù)的評估和監(jiān)督,確保其不會帶來不可預(yù)測的社會風(fēng)險。

總之,監(jiān)管不僅僅是限制,更多的是為了確保技術(shù)在造福社會的同時,不帶來潛在的威脅。


11家大模型哪家強?我們搶先評測了5家的評論 (共 條)

分享到微博請遵守國家法律
滨海县| 台州市| 连南| 崇仁县| 江西省| 柞水县| 木兰县| 沙田区| 济阳县| 富阳市| 天等县| 宝山区| 腾冲县| 大石桥市| 淮南市| 海口市| 开平市| 读书| 西畴县| 河间市| 任丘市| 翁牛特旗| 玉林市| 墨脱县| 图木舒克市| 山西省| 绥阳县| 资阳市| 修武县| 娄底市| 平邑县| 遂昌县| 广灵县| 定陶县| 新干县| 三河市| 逊克县| 通榆县| 绥芬河市| 定州市| 纳雍县|