ChatGPT真的能幫助程序員?研究:正確率比拋硬幣還差!

近來(lái),關(guān)于生成式人工智能對(duì)編程、寫作、美工、金融等領(lǐng)域的人力替代一說(shuō)甚囂塵上,然而事實(shí)證明AI對(duì)人類生產(chǎn)力的取代是一種極其幼稚且可笑的觀點(diǎn)??茖W(xué)的觀點(diǎn)認(rèn)為:AI的形態(tài)本質(zhì)是一種工具,它的作用本質(zhì)是對(duì)人類能力的增強(qiáng),就像AR(增強(qiáng)現(xiàn)實(shí))對(duì)人類的幫助一樣。
普渡大學(xué)最近一項(xiàng)研究測(cè)試表明,ChatGPT在回答軟件工程方面的知識(shí)特別是編程相關(guān)問(wèn)題時(shí),其錯(cuò)誤率高達(dá)52%,并且有77%的答案內(nèi)容是重復(fù)和冗余的。盡管如此,卻有34%的用戶更喜歡使用ChatGPT來(lái)幫助自己從事軟件開(kāi)發(fā),而不是去Stack Overflow等技術(shù)社區(qū)上去交流和尋找真實(shí)的人工解答。這引發(fā)了部分擔(dān)憂,那些少數(shù)特別依賴ChatGPT來(lái)提供編程解決方案的程序員其職業(yè)聲譽(yù)可能受到影響。

該團(tuán)隊(duì)分析了ChatGPT對(duì)517個(gè)Stack Overflow相關(guān)問(wèn)題的回答,以評(píng)估ChatGPT答案的正確性、一致性、全面性和簡(jiǎn)潔性。此外還對(duì)答案進(jìn)行了語(yǔ)言和情感分析,并對(duì)十幾名志愿者就參與模型生成的結(jié)果進(jìn)行了測(cè)驗(yàn)。
研究論文發(fā)現(xiàn)指出,只有當(dāng)ChatGPT給出的答案中錯(cuò)誤很明顯時(shí),測(cè)試者才能識(shí)別出錯(cuò)誤;但是,當(dāng)錯(cuò)誤不易驗(yàn)證或是需要IDE工具和幫助文檔時(shí),用戶通常無(wú)法識(shí)別出錯(cuò)以及低估答案中出錯(cuò)的程度。ChatGPT在多次訓(xùn)練升級(jí)后表現(xiàn)出一種“強(qiáng)誤導(dǎo)性”的能力,從半結(jié)構(gòu)化訪談中可以明顯看出,禮貌的語(yǔ)言、教科書(shū)風(fēng)格的回答、生成內(nèi)容的全面性和關(guān)聯(lián)性使得原本錯(cuò)誤的答案看起來(lái)卻像是正確的。
研究對(duì)ChatGPT的生成式答案和Stack Overflow開(kāi)發(fā)者社區(qū)的人工回答進(jìn)行了分析,其表明,AI的反應(yīng)“更正式,且表達(dá)更多的分析思維,并表現(xiàn)出更少的負(fù)面情緒。這看上去感覺(jué)AI像是在一本正經(jīng)地胡說(shuō)八道。

技術(shù)社區(qū)Stack Overflow方面也有過(guò)調(diào)查,60%的受訪者認(rèn)為人工撰寫的答案更加正確、簡(jiǎn)潔和有用。盡管如此,Stack Overflow的訪問(wèn)量似乎有所下降,自今年4月以來(lái),網(wǎng)站流量下降幅度高于平均水平(約14%),這大抵歸因于今年3月份GPT-4的發(fā)布。
所以現(xiàn)在的矛盾是,越來(lái)越多人喜歡AI帶來(lái)的便利,但只有少數(shù)人相信這些工具的準(zhǔn)確性。
文/水哥