科大訊飛星火大模型評測:從職場到日常生活,樣樣精通
?
文 | 大力財經(jīng)
今年最熱門的話題當屬OpenAI發(fā)布ChatGPT 3.5版本,全球用戶對此紛紛追捧。在國內(nèi)領域,百度、阿里巴巴、字節(jié)跳動、360、騰訊和科大訊飛等廠商紛紛推出大型模型,加入“百模大戰(zhàn)”的競賽。
大模型在自然語言處理領域可以顯著提高文本分類、問答系統(tǒng)和機器翻譯等任務的性能。然而,訓練和部署大型模型需要大量計算資源和時間,因此對其性能和可靠性的評估顯得尤為重要。
作為國內(nèi)最有前途的大語言模型產(chǎn)品之一,科大訊飛星火大模型引起了大力財經(jīng)的注意。本文將對這款大模型進行評測,為相關研究人員和從業(yè)人員提供參考。
從用戶體驗來看,科大訊飛星火大模型是筆者目前使用過的最好的國產(chǎn)AI語言模型之一。其表現(xiàn)令人驚艷且讓人驚訝。
首先,星火大模型的詞匯量達到了驚人的億萬級別,使其能夠處理各種復雜的語言場景,給出令人滿意的回答。而且,它的回答不僅僅是簡單的關鍵詞提取,而是完整流暢的句子輸出,頗具“真人感”,讓人難以相信這些內(nèi)容是由一個AI模型生成的。
其次,星火大模型的能力非常強大。它不僅能夠進行基礎任務如文本分類、情感分析、問答系統(tǒng)等,還能進行高級任務如文本生成、翻譯和摘要。在文本生成方面,它可以根據(jù)用戶輸入的主題或關鍵詞生成符合要求的文章或段落。在翻譯方面,訊飛星火APP支持9種語言文本、語音和圖片翻譯,完全可以滿足用戶的日常需求。在摘要方面,它能夠自動對一篇文章進行關鍵內(nèi)容提取,幫助用戶快速獲取文章的核心內(nèi)容。
總之,如果你需要一款強大的AI助手,不妨試試科大訊飛星火大模型。相信它一定不會令你失望。
是不是在擔心,自己沒法用好這個AI小助手?
很簡單!星火大模型的工程師們已經(jīng)為你寫好了各種提示詞、預設了各種使用場景。只需要發(fā)出指令,你想要的回答便會如期涌現(xiàn)~
訊飛星火認知大模型指令集 https://xinghuo.xfyun.cn/instruction
趕緊用起來!我們在評測大型語言模型時,會考慮以下幾個維度:
1.流暢度:生成文本時的流暢度,是否能夠快速地響應輸入并輸出文本。
2.可懂度:輸出的文本是否易于理解,是否符合語言習慣,是否存在語法錯誤等。
3.語感:輸出的文本是否具有語感,即是否能夠表達出合理的情感色彩和語氣。
4.情感表現(xiàn)力:輸出文本時是否能夠準確地表達出輸入文本所包含的情感。
5.韻律控制:在輸出文本時是否能夠控制韻律和節(jié)奏,即是否具有音樂感的文本。
6.場景適用性:是否適用于特定的應用場景,如對話生成、文本分類、問答等。
7.知識準確性:在輸出文本時是否具有準確的知識,能夠避免出現(xiàn)錯誤的信息。
8.多語言支持:是否支持多種語言的輸入和輸出,以及在不同語言上的表現(xiàn)如何。
產(chǎn)品布局、內(nèi)容管理和用戶引導:
頁面的布局分為了沉浸式和純凈版本。
進入之后的歡迎詞,很有親和力。
您好,我是訊飛星火認知大模型
能夠?qū)W習和理解人類的語言,進行多輪對話
回答問題,高效便捷地幫助人們獲取信息、知識和靈感

百度文心一言的歡迎詞,文字較多,人們沒有那么多的專注力去閱讀。

2.星火大模型給了六個“推薦助手”提示詞,在右上角可以進行點換一批,用戶體驗方面較為人性化,可以持續(xù)地點擊換一批,一直到自己想要的功能。




3.從布局和內(nèi)容管理上與ChatGPT類似,但在用戶引導上明顯勝過一籌,更適合中國剛剛接觸GPT產(chǎn)品的普通用戶,豐富的業(yè)務場景模板讓新手更易上手。
星火大模型的問答快速、流暢,且準確。

行文流水,頗有才情,展現(xiàn)了孩童的歡悅,又不乏文化浸潤,應該是一篇高分小作文。作為國內(nèi)的內(nèi)容服務商,速度是即問即答,沒有ChatGPT常見的卡頓。
4.是否具備一定的常識?提問了魯迅和周樹人的問題,回答正確。

這個問題往往是作為區(qū)別GPT3.5和4.0的標準測試案例。恭喜訊飛星火,可以說,它在一定程度上擁有了超越3.5的水平。
5.在邏輯和推理方面,提問了一個樹上還有幾只鳥的問題:
對比chatGPT4.0測了幾個類似的話題,答案都基本正確一致,水平不相上下。
6.數(shù)學應用題

尚有欠缺,犯了和chatGPT3.5一樣的錯誤,但chatGPT4.0給出了正確的答案。

7.編程能力,請用C語言寫編程,
可以說,科大訊飛星火大模型在編程方面和ChatGPT一樣出色,會成為程序員的好幫手。
8.語言的泛化能力,比如對古代漢語的理解和表達。
給訊飛星火輸入一段古語,它會用現(xiàn)代語言解釋,輸入“繼續(xù)”會給你繼解答,如果不滿意,還可以點擊,“重新回答”,即可輸出一段新的解答。這一點很人性化,一直回答到你滿意為止。
道德經(jīng)的經(jīng)典句子:道可道,非常道;名可名,非常名。給進行各個角度的解答,從語言的局限,二元對立,自然法則,無為而治,個人修養(yǎng)的角度進行了解釋,還可以限制多少字數(shù)的解答。繼續(xù)多輪對話,請用英文進行解釋一下。
星火大模型,在此對話中,秒輸出了英文的解答。
9. 寫短視頻的腳本文案。提示詞是:你現(xiàn)在是一個視頻創(chuàng)作者,寫一個短視頻的腳本文案,關鍵詞是如何看待馬斯克和比爾蓋茨訪華的,字數(shù)限制在1000字以內(nèi)。
星火大模型很詳細的給了一個視頻的拍攝方案,從開場畫面的旁白,到畫面切換,馬斯克的訪問上海工廠參觀和員工對話,這些細節(jié)星火大模型都會自動分析,不用額外輸入信息。還有比爾蓋茨的清華大學演講,這個是三年前的日程安排,星火大模型都是知道的。它還展示了高鐵、火箭等中國高速發(fā)展的代表性元素??梢哉f,星火大模型的知識儲備豐富,寫腳本文案很靠譜。
語言模型的參數(shù)規(guī)模和成長性。在問到星火大模型什么時候超過ChatGPT?這個答案算是滿意,誰也不得罪。
據(jù)官宣,科大訊飛的大模型使用了超過1700億個參數(shù),這些參數(shù)來源于數(shù)十億的語言數(shù)據(jù)集。這個數(shù)量級的數(shù)據(jù)量可以讓模型更好地學習語言規(guī)律和模式,從而提高其理解和生成語言的能力。與之相比,ChatGPT-3.5模型擁有1.5萬億個參數(shù),但是覆蓋了全球主要語言,漢語不到其中10%的數(shù)據(jù)量,我們有理由相信,在這個數(shù)據(jù)基礎上,星火大模型比OpenAI“更懂中文”。
在科大訊飛24周年慶上,科大訊飛董事長劉慶峰表示,訊飛不僅要致敬和追趕OpenAI,更要在源頭上做自主創(chuàng)新,目前已在類腦智能、神經(jīng)網(wǎng)絡大模型、博弈智能等方面探索通用人工智能的更多潛在路徑和前沿交叉研究機會。
咱們也試試讓星火參與PPT的制作。
提示詞是:你現(xiàn)在是一個營銷總監(jiān),要對公司的APP進行推廣,請寫一份PPT大綱。
星火大模型完整地輸出了一份營銷總監(jiān)的PPT大綱。按照這份大綱,對應到具體公司具體產(chǎn)品,相信可以很快做出一份執(zhí)行方案。
周末在家里做飯,不知道怎么做菜,可以讓星火大模型來進行指導。比如問一個紅燒肉的做法。
雖然“適量”讓人些許無措,但用量多少在做菜的過程中見仁見智,好在星火大模型提供了烹飪所需的食材和詳細步驟。在操作層面,按照這個步驟指導,便可以輕松地完成一道菜。
再寫一份減肥瘦身計劃吧!
提示詞是:你現(xiàn)在是我的健身教練,我要瘦身10斤,請給我制定一份減肥計劃。
星火大模型化身為我的健身教練,給我制定了12周的減肥計劃,寫出了具體可執(zhí)行的運動項目和運動時長。每一周的安排都很詳細,很豐富,細化到了各類運動的時長和動作次數(shù),感覺靠譜!
再寫一個嘉許別人的話,比如孩子考試的成績這次很好,怎么表揚一下孩子。
在孩子成績考得很好的情況下,給了我5條嘉許的方式方法。
在孩子成績考砸了的情況下,關于怎么嘉許和激勵孩子,星火大模型給了5條的比較積極的鼓勵方法,包括怎么和孩子進行對話、對話的內(nèi)容范疇。可以說是很具體,很有幫助,很有啟發(fā)。
15.與國內(nèi)其他中文大語言模型的橫向比較
從真格基金、SuperCLUE的兩個測試集來看,訊飛星火在兩種評測集合上均在國內(nèi)第一梯隊。附圖是真格基金和 SuperCLUE的測試數(shù)據(jù)。
總結(jié):
作為一個ChatGPT的深度沉迷用戶,盼望賬戶審核已久,好不容易通過了,必須是一頓操作猛如虎,連續(xù)幾個小時,幾個主流模型對照著玩了一遍。
首先,大力財經(jīng)認為,科大訊飛星火大模型之所以可能成為國內(nèi)最有可能超過ChatGPT中文效果的天選之子,一方面是因為中科大在理工科方面的強大人才基礎和務實精神,另一方面是因為訊飛在中文自然語言處理上的長期耕耘。其次,大模型本身已經(jīng)不是什么秘密,訊飛星火在中文賽道上憑借其實力和底蘊,一定能夠在細節(jié)上取得勝利。目前,國內(nèi)的系列對比測試也明顯預示了這一趨勢。
評測結(jié)果表明,科大訊飛星火大模型在流暢度、可懂度和語感方面均表現(xiàn)出色。相較于以往的模型,科大訊飛星火大模型在這些方面有了顯著提升。
總的來說,科大訊飛星火大模型是一款非常出色的AI語言模型。它的表現(xiàn)讓我驚艷,也讓我對AI技術在語言領域的應用充滿了信心。