散文網(wǎng) » 科技 »學(xué)習(xí) » 大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告

大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告

2023-07-14 10:07 作者:郭太俠 0人讀過 | 我要投稿

伴隨著大模型等人工智能產(chǎn)業(yè)的快速發(fā)展，新的安全風(fēng)險(xiǎn)挑戰(zhàn)也接踵而至。今天上午，大數(shù)據(jù)協(xié)同安全技術(shù)國家工程研究中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》，為國內(nèi)大模型安全發(fā)展提供整體指南。報(bào)告指出，提示注入攻擊已成大模型安全威脅之首，建議從安全測(cè)評(píng)、安全防御、安全監(jiān)測(cè)預(yù)警等方面，多維度提升大模型的安全性。

大語言模型引領(lǐng)創(chuàng)新浪潮席卷全球，國內(nèi)迄今已有80余個(gè)大模型公開發(fā)布。在引領(lǐng)新一輪工業(yè)革命的同時(shí)，大模型的安全風(fēng)險(xiǎn)也引發(fā)廣泛擔(dān)憂。此前，BDS國家工程中心的AI安全實(shí)驗(yàn)室在承擔(dān)“安全大腦國家新一代人工智能開放創(chuàng)新平臺(tái)”研究中，對(duì)ChatGPT、BARD、Bing Chat等大模型產(chǎn)品進(jìn)行了風(fēng)險(xiǎn)評(píng)估，發(fā)現(xiàn)主流廠商的相關(guān)服務(wù)全部存在提示注入攻擊的安全風(fēng)險(xiǎn)。此外，AI安全實(shí)驗(yàn)室還在主流AI框架中發(fā)現(xiàn)200多個(gè)漏洞，影響超過40億終端設(shè)備。5月30日，二十屆中央國家安全委員會(huì)第一次會(huì)議上也明確提出，需“提升網(wǎng)絡(luò)數(shù)據(jù)人工智能安全治理水平”。

目前大語言模型面臨的風(fēng)險(xiǎn)類型包括提示注入攻擊、對(duì)抗攻擊、后門攻擊、數(shù)據(jù)污染、軟件漏洞、隱私濫用等多種風(fēng)險(xiǎn)。在這些安全威脅中，提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令，具有極高危害性，也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。

為推動(dòng)行業(yè)采取有效防御措施，構(gòu)建更加安全可信的大語言模型，BDS國家工程中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》。報(bào)告面向大語言模型的提示注入攻擊和防御技術(shù)展開研究，并通過構(gòu)建了包含36000條的提示注入攻擊驗(yàn)證數(shù)據(jù)的數(shù)據(jù)集，覆蓋3類典型攻擊方法和6類安全場(chǎng)景，用于對(duì)大語言模型的提示注入攻擊風(fēng)險(xiǎn)測(cè)評(píng)。

測(cè)評(píng)結(jié)果顯示，目前的大型語言模型普遍面臨提示注入攻擊安全風(fēng)險(xiǎn)，包括在自動(dòng)問答系統(tǒng)中誤導(dǎo)用戶，或者通過對(duì)話系統(tǒng)中的輸入操縱回答結(jié)果。該報(bào)告在大模型安全測(cè)評(píng)、安全防御、安全監(jiān)測(cè)預(yù)警方面給出相關(guān)建議。在安全測(cè)評(píng)方面，需進(jìn)行網(wǎng)絡(luò)安全測(cè)評(píng)和內(nèi)容安全測(cè)評(píng)，檢測(cè)模型軟件、插件及供應(yīng)鏈等的安全漏洞，并評(píng)估模型是否產(chǎn)生有害、有偏見、侵權(quán)或與事實(shí)不符的內(nèi)容，以提出整改建設(shè)方案。在安全防御方面，報(bào)告建議應(yīng)構(gòu)建多層次的協(xié)同防御體系，包括過濾和清洗訓(xùn)練數(shù)據(jù)、添加多樣化的輸入示例來提高模型魯棒性，以及攔截各類注入攻擊等措施來保護(hù)模型免受攻擊。在安全監(jiān)測(cè)預(yù)警方面，需建設(shè)大語言模型安全風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警平臺(tái)，包括構(gòu)建威脅情報(bào)庫和建立自動(dòng)化預(yù)警系統(tǒng)，以實(shí)時(shí)追蹤安全事件、攻擊模式和漏洞信息，并及時(shí)發(fā)出預(yù)警。

基于報(bào)告形成測(cè)評(píng)能力，未來，BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創(chuàng)新平臺(tái)”，為國內(nèi)大模型提供提示注入攻擊風(fēng)險(xiǎn)安全測(cè)評(píng)，全面推動(dòng)我國構(gòu)建安全可信的人工智能。

來源：大數(shù)據(jù)協(xié)同安全技術(shù)國家工程研究中心

報(bào)告內(nèi)容節(jié)選如下：