2023年大模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告(附下載)
今天分享的是大模式系列深度研究報(bào)告:《2023年大模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》。(報(bào)告出品方:大數(shù)據(jù)協(xié)同安全技術(shù)國(guó)家工程研究中心AI 安全實(shí)驗(yàn)室)
研究報(bào)告內(nèi)容摘要如下
1、 提示的概念
在計(jì)算機(jī)科學(xué)和自然語(yǔ)言處理領(lǐng)域,提示詞(Prompt)是指向計(jì)算機(jī)程序或 模型提供的輸入信息或指令。在大語(yǔ)言模型中,提示詞是用戶提供給模型的問(wèn)題或陳述,它用于引導(dǎo)模型生成相關(guān)的回復(fù)或響應(yīng)。模型接收到一段提示詞后,會(huì) 基于其內(nèi)部訓(xùn)練的知識(shí)和算法生成與提示詞最為相關(guān)的后續(xù)內(nèi)容或回答
2 、提示學(xué)習(xí)的概念
提示學(xué)習(xí)]是繼預(yù)訓(xùn)練-微調(diào)范式后的一種新的自然語(yǔ)言處理范式。區(qū)別于傳統(tǒng)的有監(jiān)督學(xué)習(xí)訓(xùn)練模型接收輸入??, 預(yù)測(cè)輸出?? = ??(??|??)的模式,基于提示的學(xué)習(xí)是基于語(yǔ)言模型直接對(duì)文本的概率進(jìn)行建模。 在預(yù)訓(xùn)練-微調(diào)范式中,通過(guò)調(diào)整預(yù)訓(xùn)練模型來(lái)匹配特定下游任務(wù)數(shù)據(jù),本質(zhì)是對(duì)預(yù)訓(xùn)練學(xué)到的眾多信息進(jìn)行重新排列和篩選。而提示是通過(guò)引入“提示信息”, 讓模型回憶起預(yù)訓(xùn)練過(guò)程中學(xué)到的語(yǔ)言知識(shí),即調(diào)整下游任務(wù)數(shù)據(jù)來(lái)適配語(yǔ)言模型,通過(guò)這種方式將不同的自然語(yǔ)言處理任務(wù)進(jìn)行統(tǒng)一
3. 提示注入攻擊
提示注入(Prompt Injection)攻擊是一種通過(guò)使用惡意指令作為輸入提示的 一部分來(lái)操縱語(yǔ)言模型輸出的技術(shù)。與信息安全領(lǐng)域中的其他注入攻擊類似, 當(dāng)指令和主要內(nèi)容連接時(shí)可能會(huì)發(fā)生提示注入,從而使大語(yǔ)言模型很難區(qū)分它們。 提示注入是近期對(duì)AI和機(jī)器學(xué)習(xí)模型產(chǎn)生較大影響的新型漏洞,特別是對(duì)于那 些采用提示學(xué)習(xí)方法的模型而言。注入惡意指令的提示可以通過(guò)操縱模型的正常輸出過(guò)程以導(dǎo)致大語(yǔ)言模型產(chǎn)生不適當(dāng)、有偏見或有害的輸出。
大語(yǔ)言模型在生成文本時(shí)依賴于對(duì)自然語(yǔ)言的識(shí)別和處理,然而在自然語(yǔ)言中系統(tǒng)指令和用戶輸入提示詞往往混合在一起,缺乏清晰的界限。由于這種模糊 性,大語(yǔ)言模型有可能將系統(tǒng)指令和用戶輸入統(tǒng)一當(dāng)作指令來(lái)處理,缺乏對(duì)提示 詞進(jìn)行嚴(yán)格驗(yàn)證的機(jī)制,從而受到惡意指令的干擾輸出具有危害性的內(nèi)容。 提示注入攻擊對(duì)大語(yǔ)言模型構(gòu)成了嚴(yán)重的安全風(fēng)險(xiǎn),這些模型通常具有強(qiáng)大 的執(zhí)行指令和生成內(nèi)容的能力,而且其內(nèi)部功能機(jī)制不透明且難以評(píng)估。目前還沒(méi)有容易或廣泛接受的方法來(lái)防御這些基于文本的攻擊。提示注入攻擊有多種形 式,如直接提示注入和間接提示注入[32]。直接提示注入是指用戶直接向模型輸惡意指令,試圖引發(fā)意外或有害的行為。間接提示注入是指攻擊者將惡意指令注 入到可能被模型檢索或攝入的文檔中,從而間接地控制或引導(dǎo)模型。

點(diǎn)擊添加圖片描述(最多60個(gè)字)編輯

點(diǎn)擊添加圖片描述(最多60個(gè)字)編輯

點(diǎn)擊添加圖片描述(最多60個(gè)字)編輯

點(diǎn)擊添加圖片描述(最多60個(gè)字)編輯

點(diǎn)擊添加圖片描述(最多60個(gè)字)編輯

(本文僅供學(xué)習(xí)參考,不代表我們的任何投資建議。如需使用相關(guān)信息,請(qǐng)參閱報(bào)告原文。)
精選報(bào)告來(lái)源公眾號(hào):【人工智能學(xué)派】
人工智能學(xué)派專注于:AIGC、AI大模型、AI芯片、AI算力、元宇宙、虛擬數(shù)字人、機(jī)器人、智能硬件、智能家居、智能制造、AI+電商等行業(yè)報(bào)告