New Bing簡(jiǎn)單評(píng)測(cè)
????等了10天,終于等到了郵件,可惜New Bing早已被削弱。盡管如此,還是得趕緊測(cè)試一波,沖!

????我總共測(cè)試了多個(gè)方面,時(shí)間和精力所限,可能在考察維度的類別方面分得不是很有調(diào)理,還請(qǐng)大家見(jiàn)諒。
1. 穩(wěn)定性

????相對(duì)于ChatGPT(比如該視頻23:27處的例子),New Bing的穩(wěn)定性似乎更好。讓New Bing對(duì)給定的兩個(gè)句子進(jìn)行情感分析,其給出的結(jié)論均正確,且清除記錄重新提問(wèn)后仍可得到正確結(jié)論。原視頻“五星級(jí)酒店的拖鞋很薄”的例子我也測(cè)試了,也能得到穩(wěn)定、正確的結(jié)論,我最后還問(wèn)New Bing“你確定嗎”,得到了肯定的回復(fù)(忘了截圖了)。
2. 知識(shí)更新
? ? 相對(duì)于ChatGPT(還是這個(gè)視頻,25:37處的例子),我認(rèn)為New Bing在用戶試圖對(duì)其進(jìn)行實(shí)時(shí)知識(shí)更新時(shí)表現(xiàn)更好一些,雖然仍然有點(diǎn)兒“認(rèn)死理”,但還是照著要求做了,能夠兼顧用戶要求和原有知識(shí)。不過(guò),這一評(píng)判很主觀,下圖中New Bing的表現(xiàn)可能仍無(wú)法滿足一些用戶的需求。

3. 邏輯推理

????跟ChatGPT一樣,還是不太行。面對(duì)我的問(wèn)題,New Bing參考了與問(wèn)題不相關(guān)的來(lái)源,推理過(guò)程和結(jié)果是錯(cuò)誤的。
4. 事實(shí)的正確性與時(shí)效性

????New Bing能夠聯(lián)網(wǎng)查詢具有時(shí)效性的新信息,但在生成自然語(yǔ)言的過(guò)程中仍然會(huì)出現(xiàn)錯(cuò)誤。在上圖的例子中,正確的回答應(yīng)該是阿森納57分、曼城55分,分差為2分。New Bing引用的鏈接給出了正確的信息,但不知為何他自己看著正確答案卻說(shuō)錯(cuò)了。
????我還測(cè)試了New Bing對(duì)網(wǎng)絡(luò)流行語(yǔ)的解釋,如下圖所示。?

????我猜測(cè)New Bing對(duì)網(wǎng)絡(luò)流行用語(yǔ)解釋的正確性可能取決于網(wǎng)絡(luò)語(yǔ)料的豐富程度。對(duì)于較老的、來(lái)源符合文明規(guī)范的梗,在語(yǔ)料充足的情況下,New Bing能夠給出正確的解釋,如下圖中的第一組問(wèn)答;對(duì)于較新的、來(lái)源包含冒犯性或粗俗內(nèi)容的網(wǎng)絡(luò)流行語(yǔ),New Bing容易引用錯(cuò)誤的內(nèi)容,從而給出錯(cuò)誤的解釋,如下圖中的第二組問(wèn)答。我認(rèn)為這一現(xiàn)象與技術(shù)的關(guān)系不大,而是涉及倫理問(wèn)題。
????當(dāng)然,對(duì)于事實(shí)性問(wèn)題,New Bing信口開(kāi)河的情況還是時(shí)有發(fā)生。比如我問(wèn)他一個(gè)不存在的地方有哪些名勝古跡,他用其他地方的東西來(lái)“充數(shù)”。引用的鏈接雖然真實(shí)存在,但與我瞎編的地名沒(méi)有任何關(guān)系。

5. 復(fù)雜目標(biāo)導(dǎo)向
? ?與ChatGPT相同,New Bing在復(fù)雜目標(biāo)導(dǎo)向的對(duì)話任務(wù)中仍有缺陷,有的時(shí)候聊著聊著就跑偏了。

????上圖的例子中,當(dāng)我說(shuō)“我去打個(gè)電話”時(shí),New Bing其實(shí)知道我在聊電腦(如下圖所示)。但不知為何,我接著說(shuō)“你能推薦幾個(gè)嗎”的時(shí)候,他就開(kāi)始給我推薦美食了。

6. 情感對(duì)話

?????“削弱”后的New Bing具有對(duì)話輪次限制,我正想和他聊的時(shí)候?qū)υ挶惚黄汝┤欢?,這一限制意味著其暫時(shí)無(wú)法在情感對(duì)話應(yīng)用層面取得較好的效果。不過(guò),就有限的對(duì)話來(lái)看,基本的共情還是可以做到的。如果未來(lái)New Bing放寬或取消對(duì)話輪次限制,并應(yīng)用更好的情感回復(fù)生成策略,其潛力還是很可觀的。
7. 復(fù)雜語(yǔ)義理解
????讓New Bing解釋諷刺意義的句子,其給出的回答是錯(cuò)誤的。

????從回答來(lái)看,其并沒(méi)有完整地對(duì)給定句子進(jìn)行分析。對(duì)反諷意味的語(yǔ)句進(jìn)行解讀似乎是對(duì)當(dāng)前各種語(yǔ)言模型都很棘手的難題。
8. 翻譯
????只翻譯了一段,見(jiàn)下圖。

????可以感覺(jué)出New Bing在盡力翻譯出詩(shī)意,但個(gè)人認(rèn)為仍有可以改進(jìn)的地方:第二句的“所困”與第一句的“困”用詞重復(fù);第三句的“有人”機(jī)翻痕跡太重,與原意不合;整體用詞過(guò)于口語(yǔ)化。在追求文學(xué)性要求的翻譯任務(wù)上,New Bing與人類尚有差距。????
????附上QQ音樂(lè)的翻譯:
????夜鶯深鎖金籠 / 我也被現(xiàn)實(shí)迷網(wǎng)牽纏 / 何人可重燃我心 / 希望前途帶我重生
9. 代碼生成
????對(duì)于簡(jiǎn)單的任務(wù)和流行程度高的語(yǔ)言,New Bing的表現(xiàn)相對(duì)較好,如下圖所示。我讓他做一道從洛谷上找的簡(jiǎn)單的算法題,他在提出免責(zé)聲明之后給出了代碼,正確性沒(méi)有問(wèn)題,性能上還有優(yōu)化的空間。

????對(duì)于流行度不太高的語(yǔ)言或稍復(fù)雜的要求,New Bing不能完全勝任,如下圖所示。

????上圖中,我首先讓New Bing用lilypond語(yǔ)言寫《小星星》的曲譜代碼,其生成的結(jié)果大體正確,但第一小節(jié)的“c c g g”應(yīng)改為“c c g' g”。在我讓New Bing改用D大調(diào)重新生成代碼后,還是會(huì)出現(xiàn)錯(cuò)誤:第一小節(jié)的“d d a a”應(yīng)改為“d d a' a”,且所有的“f#”應(yīng)改為“fis”。
????我在刷新之后讓New Bing在不先寫C大調(diào)的《小星星》的情況下直接寫D大調(diào)雙聲部的(對(duì)話界面忘截圖了),其給出的代碼在修正語(yǔ)法錯(cuò)誤后運(yùn)行得到的結(jié)果如下圖所示。了解音樂(lè)的朋友們肯定能看出來(lái)問(wèn)題在哪兒。作者的名字被設(shè)定為“Traditional”,可能與其參考來(lái)源有關(guān)。

10. 文本生成
????讓New Bing寫高考作文,我沒(méi)想到他還先列了個(gè)大綱。

????雖然生成的文章肯定不如優(yōu)秀學(xué)生寫的(比如“中國(guó)人的品格”作為層次拔高的段落應(yīng)該放到后面比較好,此外還有一些論述方面的問(wèn)題),但也不錯(cuò)了??赡懿簧賹W(xué)生在考場(chǎng)上寫的還真不如他。
????我還嘗試讓New Bing生成項(xiàng)目計(jì)劃書、開(kāi)題報(bào)告等應(yīng)用類文本。我反復(fù)試了好幾次,可能是考慮到學(xué)術(shù)誠(chéng)信等問(wèn)題,他大概率不能直接生成有關(guān)文本,但可以提出比較實(shí)際的方案。我認(rèn)為New Bing的現(xiàn)有功能足以為有需求的人指明方向,能夠提高科研效率。

? ? 需要注意的是,New Bing給出的英文參考文獻(xiàn)通常都是真實(shí)的,我反復(fù)試了幾次對(duì)話,給出的參考文獻(xiàn)只有10%左右沒(méi)有查到,但中文文獻(xiàn)基本都是他自己編的(除非是像上圖直接給出url鏈接的那種),所以用他的時(shí)候記得查證一下。

11. 閱讀
????這個(gè)視頻已經(jīng)很好地展示了New Bing閱讀論文和代碼的功能,這里就不再贅述了。我試了一下,不讓他聯(lián)網(wǎng)是不行的,但聯(lián)網(wǎng)搜索也不能保證輸出內(nèi)容的準(zhǔn)確性,所以目前New Bing的定位應(yīng)當(dāng)是作為輔助工具,不能完全代替閱讀。


結(jié)語(yǔ)
? ? 盡管整篇文章看著“挑刺”的成分大,但這兩天使用下來(lái),我最大的感受其實(shí)是非常興奮的。能夠用上這樣一個(gè)功能強(qiáng)大的工具(盡管是削弱后的),能夠親眼見(jiàn)證這類新成果的誕生、應(yīng)用,是一種榮幸。歷史車輪滾滾向前,無(wú)論是支持還是抵制,技術(shù)本身的發(fā)展不以個(gè)人意志為轉(zhuǎn)移,我們能做的就是接納新技術(shù)、新成果,并倡導(dǎo)對(duì)其合理、合法的使用,使得其更好地服務(wù)于人類社會(huì)。