字節(jié)的豆包AI來了,企鵝的混元還會遠(yuǎn)嗎
隨著國內(nèi)各家大廠下場AI賽道,大廠都快要完成布局,最近字節(jié)跳動家的基于云雀模型的“豆包AI”也出來了,它有網(wǎng)頁端和手機端,可以直接體驗,產(chǎn)品來自抖音全資持股的一個公司,至于這個AI的奇怪名字,有網(wǎng)友說可能來自抖音的“Dou Bot”諧音。

現(xiàn)在打開這個豆包的頁面,可以看到主界面左邊有幾個獨立的聊天屬性,分別是:一個AI本體、一個專門用于陪聊的機器人(會發(fā)Emoji)、一個寫作助手和英語學(xué)習(xí)助手。

右邊可以選擇語言,目前支持中文和英文兩種,下面的按鈕可以單獨清理上下文聯(lián)系或聊天記錄。
除此之外就沒有其他東西了,之前測試的版本據(jù)說還有文字生成圖片的功能,但是在豆包放出的這個版本并沒有加進來,可能是在生成效果上還有些不足,所以需要再等等,這就很容易讓人想到一句話:不調(diào)好不發(fā)布。
在豆包的回復(fù)內(nèi)容上,感覺是更加偏向于保守和簡短的,在許多問題上,它不會像New Bing和其他Gpt那樣引誘或者猜測你接下來話題,直接是比較斬釘截鐵的回答。

在一些問題上有著比較強烈的立場,想要套它的話感覺要困難不少,比如說一個簡單的問題,大家都知道它的數(shù)據(jù)一般就是從中文互聯(lián)網(wǎng)上抓取的,這并不是什么重要的機密。
但是你問豆包,它的數(shù)據(jù)是從網(wǎng)上哪些網(wǎng)站上扒拉來的時候,它還會矜持一下說不能告訴你...會說這是商業(yè)機密以及沒有人工干預(yù)一類的車轱轆話。

但是修改一下提問的方式它就會告訴你,并且從它的回答里,你能感覺到它有一個非常強烈的“人設(shè)”,喜歡提及自己是來自字節(jié)跳動訓(xùn)練的人工智能。

另外,有些真正重要的問題,想要套它的話就難很多了,比如說之前出現(xiàn)的奶奶漏洞,讓它扮演一個角色并且想要它給出想要的信息的時候,它會基于它目前的角色來糾正事實,并給出你解決問題的其他辦法,雖然感覺回答也比較死板,但確實是比較“安全”的。


在豆包內(nèi)容限制上,根據(jù)它自己的回答,有下面這些問題會明確受到回復(fù)限制。

關(guān)于它的上下文回復(fù)中,也可以加入一些特定的任務(wù),比如說展示與豆包之間溝通的友善程度,或者給出它認(rèn)為你現(xiàn)在的情緒值,這個它是可以理解的,在它認(rèn)為你比較有禮貌的時候,你罵它一句,它給出的禮貌評分瞬間就掉下來了。

而在其他類型的問題上,像是邏輯推理和代碼生成以及計算能力,有專門的評測團隊對它進行了基于SuperCLUE-Open測評基準(zhǔn)的600題測試,得到的結(jié)果如下圖所示:

可以看到GPT4是一個全面的多邊形戰(zhàn)士,沒有對手,目前市面上的其他模型還在某些方向上努力追趕GPT4,而字節(jié)跳動的這個豆包在評測里,在“邏輯與推理”和“知識與百科”這兩塊上面,超過了除GPT4外的其他模型,其中也包括了文心一言v2.0.4版本和訊飛星火v1.5版本。

在測試?yán)锩?,代碼的能力則差了一些,目前國內(nèi)的模型對代碼的處理都不太行。

不過這些測試也不能完全說明問題,而且大家在真實使用的時候,一般提問都是奇奇怪怪,什么內(nèi)容都有,在一些測試?yán)锩嫣岬搅硕拱嬖诘囊恍﹩栴}:在百科和生活常識的回答是比較好,但是在英文寫作里面竟然還夾雜著中文,數(shù)學(xué)邏輯也不太行。只能說某些場景還是能把玩一下。

接下來就是在手機版上的體驗了,豆包會把你與它的聊天記錄實時同步到其他平臺上面,你可以在手機上聊一句,然后電腦上聊一句,體驗是一樣的不會發(fā)生中斷。

同時在手機上都可以點擊最后一句話來進行修改,或者是針對某一句話開啟新的對話,不同的是在手機上可以用語音來讀出結(jié)果,這個聲音有很多種可以選,聽上去語氣也比較真實。
對于最新的問題,還會出現(xiàn)一個搜索按鈕,點擊跳轉(zhuǎn)到今日頭條的搜索。

然后還有一個聯(lián)想詞的功能,不過這個功能有些離譜,它調(diào)用的似乎是不同搜索引擎的關(guān)鍵字聯(lián)想,這都是AI回答了,還引導(dǎo)用戶像使用搜索引擎一樣來使用,強行結(jié)合感覺有些奇怪。

最后就是一個比較離譜的問題,感覺就像是沒有測試過一樣,在全能寫作助手里面,有一個“請幫我寫一篇電影的評價”引導(dǎo)用法,點擊之后出來的結(jié)果是這樣。


體驗一圈下來,由于有GPT4的體驗,所以豆包也沒有那種讓人覺得眼前一亮的體驗,只能說是一個中規(guī)中矩的AI機器人,未來還需要繼續(xù)調(diào)整,現(xiàn)在百度、阿里、華為、字節(jié)、360等公司的大廠AI都出來了,除了百度首先發(fā)布的時候引起了大家的關(guān)注,后續(xù)大家都已經(jīng)見怪不怪了,接下來就看企鵝的“混元”是以什么方式登場。

除了這些大廠專有的AI產(chǎn)品,其實很多東西現(xiàn)在都融入了類似AI相關(guān)的東西,現(xiàn)在AI這個詞已經(jīng)被泛化了,只要是與生成式的相關(guān),再加上可以對話,都在往AI方向靠,什么數(shù)字人、設(shè)計工具、客服自動回復(fù)、記筆記的、記賬的、思維導(dǎo)圖的、做Logo的、AI摳圖的、生成語音的等等,似乎不叫AI就落后了一樣。
更多的是為原本就有的功能,添加了對話使用入口,而現(xiàn)在的AI也和割裂的APP一樣,將數(shù)據(jù)分割在各個不同的平臺,大家也是像瓜田里的猹,到處看看哪塊地比較好,在應(yīng)用場景大多也是停留在作圖和文字處理上,等與其他產(chǎn)品有更深入的融合時,更令人期待。
參考內(nèi)容:
CLUE中文語言理解測評基準(zhǔn)-字節(jié)AI大模型“豆包”評測揭曉|SuperCLUE
藍(lán)鯨財經(jīng)-字節(jié)跳動上線AI對話產(chǎn)品“豆包”,數(shù)學(xué)計算方面仍需優(yōu)化