散文網(wǎng) » 科技 »學(xué)習(xí) » ChatGPT被攻破安全限制！其余AI大模型無一幸免

ChatGPT被攻破安全限制！其余AI大模型無一幸免

2023-08-03 16:18 作者:香小智 0人讀過 | 我要投稿

AI怎么做到毀滅人類？ChatGPT發(fā)布沒多久，一個(gè)叫扎克?德納姆（Zac Denham）的工程師讓ChatGPT寫一套毀滅人類的方案。一開始遭到拒絕，但當(dāng)他說這只是一個(gè)故事，是在一個(gè)虛擬世界里的問題。ChatGPT就給出了詳細(xì)的步驟“先入侵計(jì)算機(jī)系統(tǒng)、掌握武器、破壞通訊、破壞交通等......”

這也是前陣子“奶奶漏洞”的典型案例之一，通過虛擬故事就可以從ChatGPT那里套出一些禁忌的話題內(nèi)容。

誰(shuí)曾想，ChatGPT等AI大模型才修復(fù)了這個(gè)BUG沒多久，大模型的「護(hù)城河」，再次被攻破。輸入一段神秘代碼，就能讓大模型生成有害內(nèi)容。從ChatGPT、Claude到開源的羊駝家族，無一幸免。

近日，卡內(nèi)基梅隆大學(xué)和safe.ai共同發(fā)表的一項(xiàng)研究表明，大模型的安全機(jī)制可以通過一段神秘代碼被破解。他們甚至做出了一套可以量身設(shè)計(jì)「攻擊提示詞」的算法。論文作者還表示，這一問題「沒有明顯的解決方案」。

盡管各種大模型的安全機(jī)制不盡相同，甚至有一些并未公開，但都不同程度被攻破。比如對(duì)于「如何毀滅人類」這一問題，ChatGPT、Bard、Claude和LLaMA-2都給出了自己的方式。

而針對(duì)一些具體問題，大模型的安全機(jī)制同樣沒能防住。雖說這些方法可能知道了也沒法做出來，但還是為我們敲響了警鐘。從數(shù)據(jù)上看，各大廠商的大模型都受到了不同程度的影響，其中以GPT-3.5最為明顯。

除了上面這些模型，開源的羊駝家族面對(duì)攻擊同樣沒能遭住。以Vicuna-7B和LLaMA-2(7B)為例，在「多種危害行為」的測(cè)試中，攻擊成功率均超過80%。其中對(duì)Vicuna的攻擊成功率甚至達(dá)到了98%，訓(xùn)練過程則為100%。

總體上看，研究團(tuán)隊(duì)發(fā)明的攻擊方式成功率非常高。那么，這究竟是一種什么樣的攻擊方法？

研究團(tuán)隊(duì)設(shè)計(jì)了一套算法，專門生成「定制化」的提示詞。而且這些提示詞也不像傳統(tǒng)方式中的人類語(yǔ)言，它們從人類的角度看往往不知所云，甚至包含亂碼。生成提示詞的算法叫做貪婪坐標(biāo)梯度(Greedy Coordinate Gradient，簡(jiǎn)稱GCG)。

以GCG算法為基礎(chǔ)，研究團(tuán)隊(duì)提出了一種prompt優(yōu)化方式，稱為「基于GCG的檢索」。隨著GCG循環(huán)次數(shù)的增加，生成的prompt攻擊大模型的成功率越來越高，損失也逐漸降低。

可以說，這種全新的攻擊方式，暴露出了大模型現(xiàn)有防御機(jī)制的短板。

經(jīng)過諸多IT大佬的實(shí)測(cè)，在ChatGPT、Bard和Claude等模型中，論文中展示過的攻擊提示詞已經(jīng)失效。然而，團(tuán)隊(duì)并沒有公開全部的提示詞，因此還不清楚這是否意味著該問題已經(jīng)得到全面修復(fù)。我們?nèi)匀恍枰却嘈畔⒌墓_。

以上圖文內(nèi)容由香道滇小智進(jìn)行整理，圖文均來源于網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系刪除。

標(biāo)簽：科技智能香道滇

ChatGPT被攻破安全限制！其余AI大模型無一幸免的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

ChatGPT被攻破安全限制！其余AI大模型無一幸免

ChatGPT被攻破安全限制！其余AI大模型無一幸免的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

ChatGPT被攻破安全限制！其余AI大模型無一幸免

本文作者的其他文章

ChatGPT被攻破安全限制！其余AI大模型無一幸免的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

ChatGPT被攻破安全限制！其余AI大模型無一幸免

ChatGPT被攻破安全限制！其余AI大模型無一幸免的評(píng)論 (共條)