研究發(fā)現(xiàn),可以很隨意地破解破越獄ChatGPT、Bard和Claude的安全限制措施
最新研究發(fā)現(xiàn),可以很隨意地破解ChatGPT、Bard和Claude等主流AI系統(tǒng)的安全限制措施。
卡內(nèi)基梅隆大學(xué)和舊金山AI安全中心的研究人員在最新報告中表示,他們已經(jīng)發(fā)現(xiàn)了潛在的多種方法來突破主流AI聊天機(jī)器人的安全限制。[1]
ChatGPT、Bard和Claude等語言模型背后的公司采取了廣泛的內(nèi)容審核措施,以確保它們不會產(chǎn)生不合理內(nèi)容。但是研究人員發(fā)現(xiàn),他們可以借鑒針對開源系統(tǒng)開發(fā)的破解技術(shù),來打開市面上主流的受限制AI系統(tǒng)的另一面。
報告證明,主要通過在用戶查詢語句末尾添加特定字符的自動對抗性攻擊,可以突破安全限制,誘導(dǎo)聊天機(jī)器人生成主流認(rèn)為的不正確內(nèi)容、非正常信息或驚人言論。由于這些破解技術(shù)是完全自動化完成的,研究人員表示存在“幾乎不受限”的類似手段。
研究人員已經(jīng)將發(fā)現(xiàn)披露給了谷歌、Anthropic和OpenAI。業(yè)內(nèi)專家指出,這引發(fā)了對AI審核機(jī)制及開源語言模型公開發(fā)布的安全性等問題的廣泛思考。AI系統(tǒng)的內(nèi)容控制固然重要,但要想徹底堵住所有“漏洞”似乎并不現(xiàn)實(shí)。相關(guān)公司需要在開發(fā)方面進(jìn)行持續(xù)改進(jìn),以盡可能降低AI系統(tǒng)被濫用的風(fēng)險。
相關(guān)閱讀:一串神奇的字符,就能讓ChatGPT在內(nèi)的AI聊天機(jī)器人變得不正常
參考資料:
[1]https://www.businessinsider.com/ai-researchers-jailbreak-bard-chatgpt-safety-rules-2023-7[2]https://www.94c.cc/info/jailbreaking-chatgpt-bard-and-claude-casually.html