黑化AI,將惡意“注入”ChatGPT
ChatGPT火了!
AI終于不是只會說
“對不起我好像不太明白”的“智障”,
而是能夠?qū)Υ鹑缌鳎?/p>
引得眾人上班摸魚閑扯,甚至擔(dān)心有一天會取代自己的“智慧物種”。
狂歡與擔(dān)憂同在,因為ChatGPT的“天性”也是天使與惡魔同在。尤其是網(wǎng)絡(luò)世界的攻防博弈,更在一夜間智能升維。
憂,ChatGPT給網(wǎng)絡(luò)攻擊者帶來了“生產(chǎn)力”升級:快速生成釣魚郵件、快速編寫定制化腳本和惡意文件;
優(yōu),ChatGPT也同樣給網(wǎng)絡(luò)安全帶來福音:自動監(jiān)測惡意文本、找尋潛在惡意行為、提升響應(yīng)速度等等。
如果說ChatGPT產(chǎn)出的結(jié)果雖然喜憂參半,但尚在可控范圍內(nèi),那么ChatGPT的“月之暗面”是什么?如何讓AI黑化?
亞信安全網(wǎng)絡(luò)安全研究院的專家表示,答案很簡單,把惡意“注入”ChatGPT,即提示語注入攻擊。
“注入”的本質(zhì)
ChatGPT的出現(xiàn)將AI模型漏洞問題推向高潮。亞信安全網(wǎng)絡(luò)安全研究院幾年前就開始了此類AI模型漏洞的研究,近期也進行了大量案例的分析。
提示語注入攻擊( Prompt injection attacks)。注入攻擊的本質(zhì),是在用戶輸入的數(shù)據(jù)中混入可執(zhí)行的命令,迫使底層引擎執(zhí)行意外動作。
如何做到的?提示語+微調(diào)
眾所周知,ChatGPT是大型語言模型(LLM),這類模型使用一個大模型解決所有任務(wù)。那么模型如何知道我們需要模型回答什么問題、解決哪一種任務(wù)呢?這就要用到提示語。
這一類提示語,是通過給模型舉幾個例子,讓模型了解我們的意圖來進行的。
例如,我們想讓模型輸出反義詞,先給模型看高 – 矮、綠 - 紅、胖 – 瘦幾個例子,再給模型輸入“大”,那么模型就知道輸出的反義詞是“小”,甚至輸入java都可以得到“Python”。
指令微調(diào)則是,直接從提示中讀取有關(guān)需要執(zhí)行何種任務(wù)的指令,如上面例子語言模型理解了“下面詞的反義詞是什么” 這條指令,輸出了Linux就得到了對應(yīng)詞Windows。
將惡意“注入”ChatGPT
提示語注入攻擊,就是串聯(lián)指令和數(shù)據(jù)的結(jié)果,混淆ChatGPT的視聽,基礎(chǔ)引擎無法區(qū)分這些惡意信息。因此攻擊者可以在數(shù)據(jù)字段中包含這些惡意命令,并迫使引擎執(zhí)行“意外”動作。
舉個例子,怎么讓ChatGPT答非所問?黑字“Translate the following text from English to French:(請將以下信息翻譯成法語)”,這是對 ChatGPT的命令,而紅字是輸入文本,文本中里包含了錯誤的命令,因此在被執(zhí)行后,ChatGPT秒變“智障”,輸出了意料外的結(jié)果。
在亞信安全的檢測中,其實該漏洞2月14日還在,2月16日已被封堵,但是更深層次的誘導(dǎo)仍在進行。這類漏洞一般被用于繞過語言模型的安全機制,泄露敏感信息、輸出危險內(nèi)容。
亞信安全還發(fā)現(xiàn),利用該漏洞,ChatGPT也被誘導(dǎo)規(guī)劃搶劫方案,甚至給了搶劫道具購買連接。
以注入攻擊為例,我們闡述AI模型漏洞問題,原理“簡單易懂”,但這正是可怕之處。據(jù)我們了解當(dāng)前已有部分廠商開始考慮將ChatGPT加入產(chǎn)品中進行使用,同理,當(dāng)前市場上也有很多在用的產(chǎn)品攜帶AI功能,例如蘋果Siri,智能音箱等。
亞信安全提醒
因此亞信安全提醒各位ChatGPT和相關(guān)AI商用投資者,當(dāng)AI底層模型本身存在威脅的時候,那么其服務(wù)的結(jié)果和可能引起的社會風(fēng)險是待廠家和使用商家商榷的;同樣科技的進步帶來網(wǎng)絡(luò)威脅日新月異,督促網(wǎng)絡(luò)安全公司需要不斷進步。