場景與應(yīng)用為王,AI大模型產(chǎn)品哪家強(qiáng)?

AI技術(shù)的升級迭代,讓整個(gè)社會(huì)的發(fā)展,日新月異。近日,繼6月初科大訊飛在24周年慶上,發(fā)布了訊飛星火認(rèn)知大模型(以下簡稱訊飛星火)V1.5后,訊飛星火又升級至2.0版本。
據(jù)了解,訊飛星火上次更新,主要升級了多輪對話,邏輯和數(shù)學(xué)能力等。此番更是發(fā)布了其代碼能力和升級后的多模態(tài)能力的突破,同時(shí)發(fā)布了搭載訊飛星火的編程助手、教師助手,升級學(xué)習(xí)機(jī)、訊飛智作2.0等多項(xiàng)應(yīng)用和產(chǎn)品。

?圖源:訊飛星火2.0發(fā)布會(huì)現(xiàn)場
科大訊飛董事長劉慶峰、研究院院長劉聰對升級版的訊飛星火,充滿信心。劉慶峰表示,代碼能力是支撐認(rèn)知大模型智慧的關(guān)鍵維度,多模態(tài)能力則是實(shí)現(xiàn)通用人工智能的必經(jīng)之路,也是科大訊飛既定的人工智能技術(shù)長期戰(zhàn)略,大模型賦能個(gè)體和行業(yè)的大未來正在到來。
作為與綜合性互聯(lián)網(wǎng)平臺(tái)有著不同定位的訊飛星火大模型,其實(shí)際能力如何?我們接下來從多個(gè)維度進(jìn)行評測、分析對比,或許可以看出訊飛星火與其他大模型平臺(tái)的差異化之處,以及訊飛星火更廣泛的應(yīng)用價(jià)值與市場價(jià)值。
多模態(tài)能力加持,操作體驗(yàn)升級
AI大模型作為生產(chǎn)力工具,其實(shí)際使用體驗(yàn)、內(nèi)容輸出的模態(tài),也是決定其市場競爭力的關(guān)鍵。與其他大模型產(chǎn)品只覆蓋了部分終端相比,訊飛星火同時(shí)支持五端(安卓、IOS、小程序、PC、H5),加上這次基于多模態(tài)能力的升級,其操作體驗(yàn)也更進(jìn)一步。
過去,科大訊飛在AIGC上的布局了三大模塊:音頻創(chuàng)作、視覺創(chuàng)作和文本創(chuàng)作。而音頻創(chuàng)作,更是訊飛星火的基本盤。在此基礎(chǔ)上,訊飛星火也逐步完善了其以虛擬人為核心的完整視頻創(chuàng)作能力。
據(jù)了解,訊飛星火多模態(tài)是指將多種模態(tài)信息輸入到同一個(gè)模型中進(jìn)行訓(xùn)練,從而使模型具有多種不同類型的數(shù)據(jù)處理能力。而多模態(tài)輸入包括文本、圖像、聲音、傳感器等多種數(shù)據(jù)。
而在虛擬人多模態(tài)合成方面,科大訊飛從2018年首發(fā)多語種虛擬人口唇驅(qū)動(dòng),2021年發(fā)布了2D真人捏臉系統(tǒng)。目前已經(jīng)形成了3D虛擬口唇表情和動(dòng)作的AI驅(qū)動(dòng)到AI貫穿3D形象構(gòu)建的全流程。
據(jù)了解,虛擬人領(lǐng)域的關(guān)鍵技術(shù)是動(dòng)作生成,也就是如何讓虛擬人的肢體語言與其輸出的內(nèi)容對應(yīng)。而該項(xiàng)技術(shù)的關(guān)鍵因素之一是語音發(fā)音中的韻律節(jié)奏、另一個(gè)就是動(dòng)作意圖。
針對這一難點(diǎn),訊飛星火針的解決方案是對這兩部分進(jìn)行建模,能夠很好實(shí)現(xiàn)動(dòng)作合成。據(jù)中國AIGC產(chǎn)業(yè)峰會(huì)數(shù)據(jù)顯示,訊飛研究院提出的語義驅(qū)動(dòng)虛擬人動(dòng)作技術(shù),在虛擬人動(dòng)作的擬人度和契合度方面,都較傳統(tǒng)方案有很大改善,從2.63分提升到3.75分左右。

圖源:中國AIGC產(chǎn)業(yè)峰會(huì)數(shù)據(jù)
訊飛星火目前也在進(jìn)一步優(yōu)化半身數(shù)字人像生成技術(shù)以及3D虛擬人的動(dòng)態(tài)生成技術(shù)。值得一提的是,近兩年科大訊飛研究院打造了個(gè)性化3D虛擬人復(fù)刻系統(tǒng),實(shí)現(xiàn)了基于一張圖片、一段語音就能驅(qū)動(dòng)3D虛擬人,同時(shí)還支持3D虛擬人發(fā)型、眼睛、嘴型進(jìn)行動(dòng)態(tài)二次編輯。
例如,向訊飛星火發(fā)出一段文字、一張圖片、一段語音就能驅(qū)動(dòng)3D虛擬人,而加一些對虛擬人的形容詞進(jìn)行描述,就可以對數(shù)字人的形象進(jìn)行“定制”,甚至實(shí)現(xiàn)個(gè)性化“復(fù)刻”。
對比發(fā)現(xiàn),目前訊飛星火目前將各種多模理解、多模生成的能力實(shí)現(xiàn)統(tǒng)一、進(jìn)行多模輸入和輸出的大模型產(chǎn)品,在市面依然十分少見。例如,百度文心一言目前只有文-文、文-圖,不支持虛擬人視頻生成,甚至其PC端目前并不支持圖片上傳,僅有APP端支持圖片輸出,相關(guān)能力應(yīng)用也是。
不過,今年6月,例如商湯科技發(fā)布了如影App,也可以提供豐富的視頻創(chuàng)作素材庫,用戶只需選擇喜歡的視頻模板,輸入文案,就可一鍵生成知識(shí)分享、品牌宣傳、短視頻帶貨、培訓(xùn)宣講、熱點(diǎn)資訊等各類數(shù)字人視頻。
只是,像訊飛星火這樣能將多模態(tài)內(nèi)容生成融為一體,在一款產(chǎn)品中集中呈現(xiàn),在業(yè)界依然十分罕見。在AI大模型的研發(fā)成果與實(shí)際應(yīng)用產(chǎn)品布局方面,訊飛星火已經(jīng)快人一步。
場景為王,多場景應(yīng)用釋放價(jià)值
任何技術(shù)發(fā)揮市場價(jià)值,都需要首先結(jié)合應(yīng)用場景,實(shí)現(xiàn)其應(yīng)用價(jià)值。AI大模型之所以熱度不減,是因?yàn)槠浯_確實(shí)實(shí)在人們的工作、生活中能夠起到提高“生產(chǎn)力”的作用。因此,此類產(chǎn)品能夠覆蓋多少應(yīng)用場景,也是其是否能夠獲得用戶肯定、好評的關(guān)鍵因子。
科大訊飛一直在強(qiáng)調(diào)訊飛星火的場景價(jià)值,且正在各個(gè)擊破。對于用戶而言,訊飛星火的一大優(yōu)勢是針對以辦公場景為代表的各類垂直場景中的需求進(jìn)行了細(xì)分,因此對于用戶解決實(shí)際問題,也更有針對性,效率更高。
例如,相比一般的大模型產(chǎn)品可以提問、撰文、寫詩、做算術(shù)題,訊飛星火還可以創(chuàng)作劇本。但是有些大模型產(chǎn)品卻并不支持。本次實(shí)測題目是:請以校園霸凌為題材,寫一部心理劇劇本,角色需要包含老師、同學(xué)、家長、校長,場景為辦公室、操場、宿舍、食堂。
測試結(jié)果是:百度文心一言、科大訊飛星火就分別按照劇本內(nèi)容、角色、場景要求輸出了多幕劇,但是通義千問卻明確表示:作為機(jī)器人,無法回答此類問題。

圖源:文心一言評測截圖(劇本創(chuàng)作)

圖源:通義千問評測截圖(劇本創(chuàng)作)

圖源:訊飛星火評測截圖(劇本創(chuàng)作)
親測發(fā)現(xiàn),除了在場景覆蓋方面,訊飛星火相對更為全面外,訊飛星火對于用戶輸入語言的情緒感知能力方面,也與其他產(chǎn)品有著明顯的區(qū)別。
值得一提的是,多模態(tài)能力之外,搭載訊飛星火2.0的訊飛智作2.0等產(chǎn)品,通過文圖生成、圖片理解等,進(jìn)一步釋放其應(yīng)用價(jià)值。
據(jù)了解,借助這些產(chǎn)品,可通過AIGC實(shí)現(xiàn)創(chuàng)意視頻制作和后期生成,而訊飛智作APP就是結(jié)合了以上很多AIGC能力,訊飛星火試圖將其打造為一個(gè)音視頻內(nèi)容的AI創(chuàng)作基地。
例如,訊飛星火的圖像問答、識(shí)圖創(chuàng)作等功能,就是目前市面大模型產(chǎn)品較少具備的。親測發(fā)現(xiàn),新版本的訊飛星火支持上傳圖片,可以進(jìn)行圖片內(nèi)容識(shí)別、解讀,并且能準(zhǔn)確地進(jìn)行圖片上的算術(shù)題目進(jìn)行精確計(jì)算。

圖源:訊飛星火測評截圖(圖像描述、識(shí)圖創(chuàng)作)
以2023年高考數(shù)學(xué)題為例,將下圖中的試題截圖上傳至訊飛星火,并要求其對圖片中的數(shù)學(xué)題進(jìn)行計(jì)算。短短幾秒鐘,就能輸出其計(jì)算過程,并輸出正確結(jié)果。
不難看出,由于其豐富的多模態(tài)功能,訊飛星火也可以廣泛應(yīng)用在教育場景下的試卷批改、錯(cuò)題輔導(dǎo)、錯(cuò)別字檢測等場景,進(jìn)一步發(fā)揮其優(yōu)勢。
值得注意的是,目前百度文心一言(PC端)、阿里通義千問等大模型產(chǎn)品并不支持圖片輸入及圖像問答、識(shí)圖創(chuàng)作等,甚至在這些平臺(tái)的對話窗口,并無圖片上傳功能。

圖源:訊飛星火測評截圖(圖片識(shí)別、解答高考數(shù)學(xué)題)
另外,在圖片內(nèi)容生成方面,訊飛星火可以按照語義表達(dá),輸出對應(yīng)場景的圖片。而通義千問等平臺(tái)提示無此功能,而文心一言雖然也具備這樣的功能,但是輸出的圖片內(nèi)容與提問者所需要表達(dá)的意境差距較大,而且畫面不像繪畫那么真實(shí)。

圖源:通義千問評測截圖(畫畫、生成圖片)

圖源:訊飛星火評測截圖(畫畫、生成圖片)

圖源:文心一言評測截圖(畫畫、生成圖片)
與此同時(shí),訊飛星火升級后的代碼能力,也可以通過測試對比窺見一斑。不過,親測對比文心一言、通義千問,也都有這些功能,只是相比而言,訊飛星火的代碼更加簡潔,且相關(guān)代碼說明也十分詳細(xì),通義千問的代碼與訊飛星火相當(dāng),但是代碼編寫說明也是一筆帶過。
對比之下,文心一言輸出的代碼雖然也是正確的,但是實(shí)現(xiàn)方式卻相對繁瑣,且只提示了程序運(yùn)行的操作方式,并未說明編程的思路與原理。

圖源:訊飛星火評測截圖(編程寫代碼)

圖源:文心一言評測截圖(編程寫代碼)

圖源:通義千問評測截圖(編程寫代碼)
由此可見,對比同一梯隊(duì)的不同大模型產(chǎn)品,豐富多樣的場景,是訊飛星火的優(yōu)勢所在,而且這些場景,多數(shù)與科大訊飛的教育基因有關(guān)。
為了讓開發(fā)人員更好地應(yīng)用星火認(rèn)知大模型V2.0,科大訊飛專門發(fā)布了全新產(chǎn)品“智能編程助手iFlyCode 1.0”。該產(chǎn)品可將五項(xiàng)代碼能力無縫融合到開發(fā)環(huán)境,同時(shí)提供專業(yè)的代碼知識(shí)服務(wù)。
目前,訊飛星火的大模型助手中心,有超過500個(gè)垂直場景,2000多個(gè)助手,對比通用大模型,可以擁有更精準(zhǔn)的結(jié)果和更高的效率,并將釋放其在垂直領(lǐng)域的行業(yè)優(yōu)勢。
訊飛星火的智能化水平與應(yīng)用空間展望
實(shí)際上,目前AI大模型產(chǎn)品紛紛競技、秀肌肉后,高下也逐漸明朗。例如,近日,新華社研究院發(fā)布《人工智能大模型體驗(yàn)報(bào)告2.0》(以下簡稱《報(bào)告》),通過500道題目、對標(biāo)接受過高等教育的人類水平、更強(qiáng)調(diào)對產(chǎn)業(yè)和生活的實(shí)際價(jià)值,嚴(yán)格按基礎(chǔ)能力指數(shù)、智商指數(shù)、情商指數(shù)、工具提效指數(shù)四大測評維度進(jìn)行權(quán)重設(shè)計(jì)。

其中,訊飛星火以總分1013分位列本次國產(chǎn)主流大模型測評榜首位,在四大評測維度中的智商指數(shù)和工具提效指數(shù)兩個(gè)維度獲得第一,《報(bào)告》認(rèn)為訊飛星火“在工作提效方面優(yōu)勢明顯”。值得一提的是,其中參測的8款大模型均為科技巨頭或背靠權(quán)威院所,“根正苗紅”的玩家。
而通過權(quán)威機(jī)構(gòu)的評測及上文評測可以看出,訊飛星火發(fā)揮了其在教育行業(yè)的專業(yè)性,無論是操作體驗(yàn)、內(nèi)容輸出質(zhì)量、還是語義理解、輸出內(nèi)容的可讀性、情感表現(xiàn)力都略勝一籌。
值得期待的是,科大訊飛作為教育行業(yè)的垂直AI玩家之一,其訊飛星火大模型產(chǎn)品未來的商業(yè)應(yīng)用,還有更大的想象空間。例如,訊飛星火有了生成式AI的基本功能及升級版的智能化特點(diǎn)后,可以在智能硬件、教育互動(dòng)、商務(wù)辦公、居家出行等多方面得以應(yīng)用。
研究發(fā)現(xiàn),人工智能與各行業(yè)的深度融合是促進(jìn)產(chǎn)業(yè)升級和轉(zhuǎn)型的重要方式之一,而對于AI大模型的價(jià)值遠(yuǎn)景,業(yè)內(nèi)的共識(shí)是,向?qū)I(yè)垂直深耕,向行業(yè)橫向拓寬,才是其走向商用的未來所在。據(jù)訊飛星火2.0發(fā)布會(huì)時(shí)公開的數(shù)據(jù),訊飛星火已陸續(xù)在教育、辦公、汽車、金融、工業(yè)、醫(yī)療等行業(yè)應(yīng)用落地,4109個(gè)助手開發(fā)者團(tuán)隊(duì)開發(fā)出7862款星火助手。
在科大訊飛的行業(yè)基因驅(qū)使下,訊飛星火的全行業(yè)布局,也將讓其場景相比其他綜合類的大模型產(chǎn)品,更加豐富多樣。與此同時(shí),得益于其多年的數(shù)據(jù)沉淀,訊飛星火的機(jī)器學(xué)習(xí)能力也勢必更強(qiáng),迭代速度也將更快。
正如科大訊飛董事長劉慶峰在訊飛星火2.0發(fā)布會(huì)上表示:“我們希望通過通用人工智能,極大降低社會(huì)創(chuàng)新創(chuàng)業(yè)門檻”。這也意味著,訊飛星火不只是教育AI工具,更可以像其廣告語:星星之火,可以燎原。
結(jié)語
“群模亂舞”之下,各大互聯(lián)網(wǎng)基因的企業(yè)爭先恐后入局,但是卻各有優(yōu)劣。訊飛星火作為獨(dú)特的存在,依靠其在教育+AI賽道的深耕沉淀,形成了“以點(diǎn)帶面”,從垂直行業(yè)切入,向周邊產(chǎn)業(yè)應(yīng)用延展的獨(dú)特發(fā)展模式,與其星火燎原的初心遙相呼應(yīng),值得行業(yè)借鑒,未來可期。
前段時(shí)間,攜程也推出了基于旅游行業(yè)的首個(gè)垂直行業(yè)大模型應(yīng)用。對此,業(yè)界人士更傾向于認(rèn)為,大模型產(chǎn)品是應(yīng)用與場景為王,結(jié)合行業(yè)、垂直賽道的大模型,將會(huì)有著更大的想象空間。
可以預(yù)見的是,作為教育行業(yè)最懂AI的玩家,AI賽道最懂教育的玩家,科大訊飛在全方位布局大模型在更多行業(yè)的應(yīng)用之時(shí),也因?yàn)槠溟_放性,而加速其商業(yè)化的步伐。
作者:尼古
編輯:尼克
免責(zé)聲明:本文基于已公開的資料信息或受訪人提供的信息撰寫,但科技四少及文章作者不保證該文章提及或者展示關(guān)聯(lián)等信息資料的完整性、準(zhǔn)確性。在任何情況下,本文中的信息或所表述的意見均不構(gòu)成對任何人的投資建議。