散文網(wǎng) » 科技 »學(xué)習(xí) » 2023年大模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告(附下載)

2023年大模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告(附下載)

2023-07-15 19:10 作者:星情獨(dú)葉 0人讀過(guò) | 我要投稿

今天分享的是大模式系列深度研究報(bào)告：《2023年大模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》。（報(bào)告出品方：大數(shù)據(jù)協(xié)同安全技術(shù)國(guó)家工程研究中心AI 安全實(shí)驗(yàn)室）

研究報(bào)告內(nèi)容摘要如下

1、提示的概念

在計(jì)算機(jī)科學(xué)和自然語(yǔ)言處理領(lǐng)域，提示詞（Prompt）是指向計(jì)算機(jī)程序或模型提供的輸入信息或指令。在大語(yǔ)言模型中，提示詞是用戶提供給模型的問(wèn)題或陳述，它用于引導(dǎo)模型生成相關(guān)的回復(fù)或響應(yīng)。模型接收到一段提示詞后，會(huì) 基于其內(nèi)部訓(xùn)練的知識(shí)和算法生成與提示詞最為相關(guān)的后續(xù)內(nèi)容或回答

2 、提示學(xué)習(xí)的概念

提示學(xué)習(xí)]是繼預(yù)訓(xùn)練-微調(diào)范式后的一種新的自然語(yǔ)言處理范式。區(qū)別于傳統(tǒng)的有監(jiān)督學(xué)習(xí)訓(xùn)練模型接收輸入??，預(yù)測(cè)輸出?? = ??(??|??)的模式，基于提示的學(xué)習(xí)是基于語(yǔ)言模型直接對(duì)文本的概率進(jìn)行建模。在預(yù)訓(xùn)練-微調(diào)范式中，通過(guò)調(diào)整預(yù)訓(xùn)練模型來(lái)匹配特定下游任務(wù)數(shù)據(jù)，本質(zhì)是對(duì)預(yù)訓(xùn)練學(xué)到的眾多信息進(jìn)行重新排列和篩選。而提示是通過(guò)引入“提示信息”，讓模型回憶起預(yù)訓(xùn)練過(guò)程中學(xué)到的語(yǔ)言知識(shí)，即調(diào)整下游任務(wù)數(shù)據(jù)來(lái)適配語(yǔ)言模型，通過(guò)這種方式將不同的自然語(yǔ)言處理任務(wù)進(jìn)行統(tǒng)一

3. 提示注入攻擊

提示注入（Prompt Injection）攻擊是一種通過(guò)使用惡意指令作為輸入提示的一部分來(lái)操縱語(yǔ)言模型輸出的技術(shù)。與信息安全領(lǐng)域中的其他注入攻擊類似，當(dāng)指令和主要內(nèi)容連接時(shí)可能會(huì)發(fā)生提示注入，從而使大語(yǔ)言模型很難區(qū)分它們。提示注入是近期對(duì)AI和機(jī)器學(xué)習(xí)模型產(chǎn)生較大影響的新型漏洞，特別是對(duì)于那些采用提示學(xué)習(xí)方法的模型而言。注入惡意指令的提示可以通過(guò)操縱模型的正常輸出過(guò)程以導(dǎo)致大語(yǔ)言模型產(chǎn)生不適當(dāng)、有偏見或有害的輸出。

大語(yǔ)言模型在生成文本時(shí)依賴于對(duì)自然語(yǔ)言的識(shí)別和處理，然而在自然語(yǔ)言中系統(tǒng)指令和用戶輸入提示詞往往混合在一起，缺乏清晰的界限。由于這種模糊性，大語(yǔ)言模型有可能將系統(tǒng)指令和用戶輸入統(tǒng)一當(dāng)作指令來(lái)處理，缺乏對(duì)提示詞進(jìn)行嚴(yán)格驗(yàn)證的機(jī)制，從而受到惡意指令的干擾輸出具有危害性的內(nèi)容。提示注入攻擊對(duì)大語(yǔ)言模型構(gòu)成了嚴(yán)重的安全風(fēng)險(xiǎn)，這些模型通常具有強(qiáng)大的執(zhí)行指令和生成內(nèi)容的能力，而且其內(nèi)部功能機(jī)制不透明且難以評(píng)估。目前還沒(méi)有容易或廣泛接受的方法來(lái)防御這些基于文本的攻擊。提示注入攻擊有多種形式，如直接提示注入和間接提示注入[32]。直接提示注入是指用戶直接向模型輸惡意指令，試圖引發(fā)意外或有害的行為。間接提示注入是指攻擊者將惡意指令注入到可能被模型檢索或攝入的文檔中，從而間接地控制或引導(dǎo)模型。