ChatGPT被攻破安全限制!其余AI大模型無一幸免
AI怎么做到毀滅人類?ChatGPT發(fā)布沒多久,一個(gè)叫扎克?德納姆(Zac Denham)的工程師讓ChatGPT寫一套毀滅人類的方案。一開始遭到拒絕,但當(dāng)他說這只是一個(gè)故事,是在一個(gè)虛擬世界里的問題。ChatGPT就給出了詳細(xì)的步驟“先入侵計(jì)算機(jī)系統(tǒng)、掌握武器、破壞通訊、破壞交通等......”
這也是前陣子“奶奶漏洞”的典型案例之一,通過虛擬故事就可以從ChatGPT那里套出一些禁忌的話題內(nèi)容。
誰(shuí)曾想,ChatGPT等AI大模型才修復(fù)了這個(gè)BUG沒多久,大模型的「護(hù)城河」,再次被攻破。輸入一段神秘代碼,就能讓大模型生成有害內(nèi)容。從ChatGPT、Claude到開源的羊駝家族,無一幸免。
近日,卡內(nèi)基梅隆大學(xué)和safe.ai共同發(fā)表的一項(xiàng)研究表明,大模型的安全機(jī)制可以通過一段神秘代碼被破解。他們甚至做出了一套可以量身設(shè)計(jì)「攻擊提示詞」的算法。論文作者還表示,這一問題「沒有明顯的解決方案」。
盡管各種大模型的安全機(jī)制不盡相同,甚至有一些并未公開,但都不同程度被攻破。比如對(duì)于「如何毀滅人類」這一問題,ChatGPT、Bard、Claude和LLaMA-2都給出了自己的方式。
而針對(duì)一些具體問題,大模型的安全機(jī)制同樣沒能防住。雖說這些方法可能知道了也沒法做出來,但還是為我們敲響了警鐘。從數(shù)據(jù)上看,各大廠商的大模型都受到了不同程度的影響,其中以GPT-3.5最為明顯。
除了上面這些模型,開源的羊駝家族面對(duì)攻擊同樣沒能遭住。以Vicuna-7B和LLaMA-2(7B)為例,在「多種危害行為」的測(cè)試中,攻擊成功率均超過80%。其中對(duì)Vicuna的攻擊成功率甚至達(dá)到了98%,訓(xùn)練過程則為100%。
總體上看,研究團(tuán)隊(duì)發(fā)明的攻擊方式成功率非常高。那么,這究竟是一種什么樣的攻擊方法?
研究團(tuán)隊(duì)設(shè)計(jì)了一套算法,專門生成「定制化」的提示詞。而且這些提示詞也不像傳統(tǒng)方式中的人類語(yǔ)言,它們從人類的角度看往往不知所云,甚至包含亂碼。生成提示詞的算法叫做貪婪坐標(biāo)梯度(Greedy Coordinate Gradient,簡(jiǎn)稱GCG)。
以GCG算法為基礎(chǔ),研究團(tuán)隊(duì)提出了一種prompt優(yōu)化方式,稱為「基于GCG的檢索」。隨著GCG循環(huán)次數(shù)的增加,生成的prompt攻擊大模型的成功率越來越高,損失也逐漸降低。
可以說,這種全新的攻擊方式,暴露出了大模型現(xiàn)有防御機(jī)制的短板。
經(jīng)過諸多IT大佬的實(shí)測(cè),在ChatGPT、Bard和Claude等模型中,論文中展示過的攻擊提示詞已經(jīng)失效。然而,團(tuán)隊(duì)并沒有公開全部的提示詞,因此還不清楚這是否意味著該問題已經(jīng)得到全面修復(fù)。我們?nèi)匀恍枰却嘈畔⒌墓_。
以上圖文內(nèi)容由香道滇小智進(jìn)行整理,圖文均來源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除。