大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告
伴隨著大模型等人工智能產(chǎn)業(yè)的快速發(fā)展,新的安全風(fēng)險(xiǎn)挑戰(zhàn)也接踵而至。今天上午,大數(shù)據(jù)協(xié)同安全技術(shù)國家工程研究中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》,為國內(nèi)大模型安全發(fā)展提供整體指南。報(bào)告指出,提示注入攻擊已成大模型安全威脅之首,建議從安全測(cè)評(píng)、安全防御、安全監(jiān)測(cè)預(yù)警等方面,多維度提升大模型的安全性。
大語言模型引領(lǐng)創(chuàng)新浪潮席卷全球,國內(nèi)迄今已有80余個(gè)大模型公開發(fā)布。在引領(lǐng)新一輪工業(yè)革命的同時(shí),大模型的安全風(fēng)險(xiǎn)也引發(fā)廣泛擔(dān)憂。此前,BDS國家工程中心的AI安全實(shí)驗(yàn)室在承擔(dān)“安全大腦國家新一代人工智能開放創(chuàng)新平臺(tái)”研究中,對(duì)ChatGPT、BARD、Bing Chat等大模型產(chǎn)品進(jìn)行了風(fēng)險(xiǎn)評(píng)估,發(fā)現(xiàn)主流廠商的相關(guān)服務(wù)全部存在提示注入攻擊的安全風(fēng)險(xiǎn)。此外,AI安全實(shí)驗(yàn)室還在主流AI框架中發(fā)現(xiàn)200多個(gè)漏洞,影響超過40億終端設(shè)備。5月30日,二十屆中央國家安全委員會(huì)第一次會(huì)議上也明確提出,需“提升網(wǎng)絡(luò)數(shù)據(jù)人工智能安全治理水平”。
目前大語言模型面臨的風(fēng)險(xiǎn)類型包括提示注入攻擊、對(duì)抗攻擊、后門攻擊、數(shù)據(jù)污染、軟件漏洞、隱私濫用等多種風(fēng)險(xiǎn)。在這些安全威脅中,提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令,具有極高危害性,也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。
為推動(dòng)行業(yè)采取有效防御措施,構(gòu)建更加安全可信的大語言模型,BDS國家工程中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》。 報(bào)告面向大語言模型的提示注入攻擊和防御技術(shù)展開研究,并通過構(gòu)建了包含36000條的提示注入攻擊驗(yàn)證數(shù)據(jù)的數(shù)據(jù)集,覆蓋3類典型攻擊方法和6類安全場(chǎng)景,用于對(duì)大語言模型的提示注入攻擊風(fēng)險(xiǎn)測(cè)評(píng)。
測(cè)評(píng)結(jié)果顯示,目前的大型語言模型普遍面臨提示注入攻擊安全風(fēng)險(xiǎn),包括在自動(dòng)問答系統(tǒng)中誤導(dǎo)用戶,或者通過對(duì)話系統(tǒng)中的輸入操縱回答結(jié)果。該報(bào)告在大模型安全測(cè)評(píng)、安全防御、安全監(jiān)測(cè)預(yù)警方面給出相關(guān)建議。在安全測(cè)評(píng)方面,需進(jìn)行網(wǎng)絡(luò)安全測(cè)評(píng)和內(nèi)容安全測(cè)評(píng),檢測(cè)模型軟件、插件及供應(yīng)鏈等的安全漏洞,并評(píng)估模型是否產(chǎn)生有害、有偏見、侵權(quán)或與事實(shí)不符的內(nèi)容,以提出整改建設(shè)方案。在安全防御方面,報(bào)告建議應(yīng)構(gòu)建多層次的協(xié)同防御體系,包括過濾和清洗訓(xùn)練數(shù)據(jù)、添加多樣化的輸入示例來提高模型魯棒性,以及攔截各類注入攻擊等措施來保護(hù)模型免受攻擊。在安全監(jiān)測(cè)預(yù)警方面,需建設(shè)大語言模型安全風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警平臺(tái),包括構(gòu)建威脅情報(bào)庫和建立自動(dòng)化預(yù)警系統(tǒng),以實(shí)時(shí)追蹤安全事件、攻擊模式和漏洞信息,并及時(shí)發(fā)出預(yù)警。
基于報(bào)告形成測(cè)評(píng)能力,未來,BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創(chuàng)新平臺(tái)”,為國內(nèi)大模型提供提示注入攻擊風(fēng)險(xiǎn)安全測(cè)評(píng),全面推動(dòng)我國構(gòu)建安全可信的人工智能。
來源:大數(shù)據(jù)協(xié)同安全技術(shù)國家工程研究中心
報(bào)告內(nèi)容節(jié)選如下:
資料下載方式:公眾號(hào)《俠說》,www.guotaixia.com
AI文案生成、續(xù)寫;GPT小紅書等社媒創(chuàng)作;電商文案廣告;AI繪畫(Midjourney).....讓文案創(chuàng)作瞬間輕松活潑起來!Al方案鴨:aiduck.art