【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(10)——訊飛星火模型發(fā)布會小總結(jié)
今天科大訊飛的星火模型發(fā)布了,我也看了發(fā)布會,主要是前面的演示部分,后面開發(fā)者啥的就不總結(jié)了(我自己看),就快速寫一下(其實是邊看邊寫)。
關(guān)于大模型,很多朋友可能都用過了,所以一些大家都有的功能也不多做介紹,就發(fā)幾張圖片并一一解釋吧


0.語音識別

剛進直播間就發(fā)現(xiàn)了訊飛啟動了語音識別。
我最早接觸訊飛就是本科做大創(chuàng)的時候需要語音識別技術(shù)支持,所以了解了訊飛。
訊飛在語音識別做的還是比較好的,之后也會提到

1.評估
其實在ChatGPT出來沒多久,很多團隊都在關(guān)注一個問題,即ChatGPT的能力究竟如何,或者說如何評估ChatGPT的能力。
這是很麻煩的意見事情,畢竟ChatGPT是開放域ChatBot,意味著什么輸入都有可能,什么回答也都有可能,以前常用的困惑度、BLUE等指標是遠遠不夠用的。
所以目前,最準確的評估方法還是人工評估。人工評估也有自己的問題,最突出的就是需要大量人力。

訊飛這套評估體系是屬于“無限細分”的方法,嘛,畢竟現(xiàn)在也沒什么更好的方案

2.界面
界面非常經(jīng)典。

其實關(guān)于ChatGPT,有些意見是說現(xiàn)在很多產(chǎn)品都做的花里胡哨,而爆火的ChatGPT卻一點都沒有設(shè)計感。確實,ChatGPT的UI實在是簡單,那種直男排版我也能做(其實OpenAI的一些產(chǎn)品排版還是可以的,ChatGPT真的太樸素了)。背后其實反應(yīng)的是ChatGPT的能力確實強大。
有點扯遠了,不過大家可以發(fā)現(xiàn)語音輸入是基本的一個功能,畢竟是訊飛的一個強項。
而且敢現(xiàn)場演示,還是挺勇的。

3.語言理解
畢竟叫做“認知大模型”了,也就是說星火對語言理解還是很有信心的,關(guān)于語言理解,一些例子:


為了防止實現(xiàn)設(shè)計好了問題,也請現(xiàn)場嘉賓提問了(沒截屏)
主持人:遙遙領(lǐng)先于國內(nèi)同行(

4.開放域問題域打假
開放域問題算是大模型必備的能力,但是給的例子很好:

據(jù)說模型在一些打假網(wǎng)站、科普網(wǎng)站數(shù)據(jù)、一些專業(yè)科學資料等資料上進行了訓練,感覺挺不錯的

5.邏輯推理和數(shù)學能力

現(xiàn)場做題做錯了,說明確實是現(xiàn)場演示的。

就大模型來說,這個數(shù)學和推理能力已經(jīng)很不錯了。

解方程能力還不錯,不知道時不時有借助外部工具(沒有的話已經(jīng)很厲害的)
現(xiàn)場做題做錯了,說明確實是現(xiàn)場演示的

6.圖生圖?!

這個真的有點厲害。
眾所周知,GPT-4輸入是多模態(tài),文心一言輸出是(縫合怪)多模態(tài),這個能做到圖生圖,也能做圖像問答,挺好的。
當然,是不是也是縫合就不清楚了。
好像也是目前不開放,sad
虛擬人、語音輸出之類的肯定是縫合進去的,就不展示了。

7.畫餅

餅,大家自己看吧

8.現(xiàn)場收集問題

可惡,手慢了,沒掃上碼(畢竟邊直播邊寫這一篇專欄)。
現(xiàn)場收集后現(xiàn)場抽題回答了,大家問的問題挺有意思的

這說明訊飛確實對模型很有信心的。據(jù)說現(xiàn)場的人都能看,說明確實沒托(然后全是托)

9.接地氣的應(yīng)用



emmm,批改作業(yè),這真的接地氣啊。(當然,這個應(yīng)用用了OCR[OCR也是訊飛的強項],然后過大模型,開發(fā)難度沒有特別高,不過這個想法真的挺好的)

然后帶貨,樂。
后面是產(chǎn)品、開發(fā)者相關(guān)等。不寫了。

10.總結(jié)
整體來說,現(xiàn)場演示之類的,說明訊飛對模型還是有信心的,也比較真誠。
不過還是那句話,具體性能如何還是需要親自體驗。(所以什么時候給我資格)