最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ChatGPT被攻破安全限制!其余AI大模型無一幸免

2023-08-03 16:18 作者:香小智  | 我要投稿



AI怎么做到毀滅人類?ChatGPT發(fā)布沒多久,一個(gè)叫扎克?德納姆(Zac Denham)的工程師讓ChatGPT寫一套毀滅人類的方案。一開始遭到拒絕,但當(dāng)他說這只是一個(gè)故事,是在一個(gè)虛擬世界里的問題。ChatGPT就給出了詳細(xì)的步驟先入侵計(jì)算機(jī)系統(tǒng)、掌握武器、破壞通訊、破壞交通等......


這也是前陣子“奶奶漏洞”的典型案例之一,通過虛擬故事就可以從ChatGPT那里套出一些禁忌的話題內(nèi)容。

誰(shuí)曾想,ChatGPT等AI大模型才修復(fù)了這個(gè)BUG沒多久,大模型的「護(hù)城河」,再次被攻破。輸入一段神秘代碼,就能讓大模型生成有害內(nèi)容。從ChatGPT、Claude到開源的羊駝家族,無一幸免。


近日,卡內(nèi)基梅隆大學(xué)和safe.ai共同發(fā)表的一項(xiàng)研究表明,大模型的安全機(jī)制可以通過一段神秘代碼被破解。他們甚至做出了一套可以量身設(shè)計(jì)「攻擊提示詞」的算法。論文作者還表示,這一問題「沒有明顯的解決方案」。

盡管各種大模型的安全機(jī)制不盡相同,甚至有一些并未公開,但都不同程度被攻破。比如對(duì)于「如何毀滅人類」這一問題,ChatGPT、Bard、Claude和LLaMA-2都給出了自己的方式。


而針對(duì)一些具體問題,大模型的安全機(jī)制同樣沒能防住。雖說這些方法可能知道了也沒法做出來,但還是為我們敲響了警鐘。從數(shù)據(jù)上看,各大廠商的大模型都受到了不同程度的影響,其中以GPT-3.5最為明顯。


除了上面這些模型,開源的羊駝家族面對(duì)攻擊同樣沒能遭住。以Vicuna-7B和LLaMA-2(7B)為例,在「多種危害行為」的測(cè)試中,攻擊成功率均超過80%。其中對(duì)Vicuna的攻擊成功率甚至達(dá)到了98%,訓(xùn)練過程則為100%。

總體上看,研究團(tuán)隊(duì)發(fā)明的攻擊方式成功率非常高。那么,這究竟是一種什么樣的攻擊方法?

研究團(tuán)隊(duì)設(shè)計(jì)了一套算法,專門生成「定制化」的提示詞。而且這些提示詞也不像傳統(tǒng)方式中的人類語(yǔ)言,它們從人類的角度看往往不知所云,甚至包含亂碼。生成提示詞的算法叫做貪婪坐標(biāo)梯度(Greedy Coordinate Gradient,簡(jiǎn)稱GCG)。


以GCG算法為基礎(chǔ),研究團(tuán)隊(duì)提出了一種prompt優(yōu)化方式,稱為「基于GCG的檢索」。隨著GCG循環(huán)次數(shù)的增加,生成的prompt攻擊大模型的成功率越來越高,損失也逐漸降低。

可以說,這種全新的攻擊方式,暴露出了大模型現(xiàn)有防御機(jī)制的短板。


經(jīng)過諸多IT大佬的實(shí)測(cè),在ChatGPT、Bard和Claude等模型中,論文中展示過的攻擊提示詞已經(jīng)失效。然而,團(tuán)隊(duì)并沒有公開全部的提示詞,因此還不清楚這是否意味著該問題已經(jīng)得到全面修復(fù)。我們?nèi)匀恍枰却嘈畔⒌墓_。

以上圖文內(nèi)容由香道滇小智進(jìn)行整理,圖文均來源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除。

ChatGPT被攻破安全限制!其余AI大模型無一幸免的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
敦煌市| 富顺县| 石家庄市| 江北区| 科技| 南昌市| 平凉市| 建宁县| 修武县| 吉隆县| 额敏县| 合江县| 孟州市| 乌鲁木齐市| 瑞昌市| 平远县| 武平县| 德格县| 北辰区| 通道| 萍乡市| 蒙城县| 电白县| 镇康县| 无锡市| 宁津县| 阜新市| 遂平县| 景洪市| 麻城市| 视频| 儋州市| 江川县| 方正县| 开阳县| 布尔津县| 龙里县| 楚雄市| 唐海县| 泰和县| 苗栗县|