當(dāng)我嘗試上點(diǎn)難度,去比較當(dāng)下【訊飛星火】和【GPT-3.5】的表現(xiàn)
就在2023年6月9日下午2點(diǎn),訊飛星火召開了一次網(wǎng)絡(luò)公開發(fā)布會(huì),宣布訊飛星火大模型進(jìn)入1.5版本,提高了很多東西。
訊飛星火V1.5升級(jí)發(fā)布會(huì)&訊飛語(yǔ)伴_嗶哩嗶哩_bilibili
與此同時(shí),訊飛也表達(dá)了他們的野心:
科大訊飛劉慶峰:訊飛星火10月實(shí)現(xiàn)中文超越ChatGPT_嗶哩嗶哩_bilibili
可以說,不指望真的超過美國(guó),但至少在中文領(lǐng)域,我是希望咱們有自己相對(duì)天然的語(yǔ)料庫(kù)優(yōu)勢(shì),至少不輸當(dāng)下的GPT-3.5。
網(wǎng)上的對(duì)比可能有些委婉,我決定上點(diǎn)難度。結(jié)果,我切實(shí)感受到了當(dāng)下的距離:
第一輪提問:關(guān)于道家修仙理論的講解

訊飛的表現(xiàn)比較簡(jiǎn)潔,參考內(nèi)容不多,不過考慮我自己也對(duì)修仙不怎么了解,姑且認(rèn)為獲取了些梗概。

相比之下,GPT-3.5的答案其實(shí)我也不滿意,不過,GPT-3.5的內(nèi)容比訊飛的多了不少,在我能夠自行通過網(wǎng)絡(luò)搜索復(fù)核的前提下,還是提供了不少的啟發(fā)性回答。
這一輪,我的主觀評(píng)分是訊飛獲得60分,GPT-3.5獲得70分。注意,實(shí)際多少分各位心里自會(huì)有桿秤,我僅做我的主觀評(píng)分。
第二輪提問:關(guān)于數(shù)字化生命的探討

訊飛星火這邊的表現(xiàn)有點(diǎn)……沒太理解兩個(gè)問題的區(qū)別是什么?這個(gè)問題其實(shí)不止一次出現(xiàn)在訊飛星火里,就是說你只要不大動(dòng)問題點(diǎn),他怎么答都是類似的。

GPT-3.5的表現(xiàn)也是馬馬虎虎,不過還是和第一輪提問的結(jié)論類似,在我能自主搜索的前提下,提供了更多的啟發(fā)點(diǎn)。
這一輪,我的主觀評(píng)分是訊飛獲得50分,GPT-3.5獲得70分。此時(shí)我已經(jīng)不太想給訊飛打及格分了。
第三輪提問:討論商戰(zhàn)科幻小說的構(gòu)架
先說明,我知道這個(gè)題材本身就很有難度,但正因?yàn)橛须y度,才能探索出雙方的表現(xiàn)差距到底如何。

說實(shí)話訊飛整個(gè)提問我都跳過了一部分問題……因?yàn)槲覍?shí)在問不下去了,這提供的都什么資料……

GPT-3.5提供的資料有40%內(nèi)容,經(jīng)搜索發(fā)現(xiàn)是杜撰的,但也確實(shí)存在真實(shí)的內(nèi)容,所以我進(jìn)一步進(jìn)行了追問(訊飛我壓根沒法追問……)
這一輪,我已經(jīng)不想評(píng)分了……因?yàn)椴罹嗳庋劭梢姟?/p>

我本來想做一份總結(jié)的,但是轉(zhuǎn)眼一想,假如總結(jié)交給二者分別完成,那么結(jié)果如何呢?
于是有了一份額外的對(duì)比:


直至看到這兩份總結(jié)報(bào)告,我才有了一種“看起來二者總算差距不大”的感覺。