最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

為大語言模型建立紅隊(duì)對(duì)抗

2023-04-27 23:24 作者:HuggingFace  | 我要投稿

在巨量文本數(shù)據(jù)下訓(xùn)練的大語言模型非常擅長(zhǎng)生成現(xiàn)實(shí)文本。但是,這些模型通常會(huì)顯現(xiàn)出一些不良行為像泄露個(gè)人信息 (比如社會(huì)保險(xiǎn)號(hào)) 和生成錯(cuò)誤信息,偏置,仇恨或有毒內(nèi)容。舉個(gè)例子,眾所周知,GPT3 的早期版本就表現(xiàn)出性別歧視 (如下圖) 與 仇恨穆斯林言論 的情況。

一旦我們?cè)谑褂么笳Z言模型時(shí)發(fā)現(xiàn)了這種不良結(jié)果,我們就可以制定一些策略來遠(yuǎn)離它們,像 生成歧視者指導(dǎo)序列生成 (GEDI) 或 插入和播放語言模型 (PPLM) 都是用來指導(dǎo) GPT3 生成的。以下是使用相同提示 (Prompt) 的示例,但使用 GEDI 控制 GPT3 生成。

即使是最近的 GPT3 版本,也會(huì)在提示 (prompt) 注入攻擊時(shí)產(chǎn)生類似的令人反感的內(nèi)容,這變成了 這篇博客 中討論的下游應(yīng)用程序的安全問題。

紅隊(duì)?是一種用于引出模型不良行為漏洞的評(píng)估形式。?越獄是另一個(gè)紅隊(duì)術(shù)語,用來表示操控沖破大語言模型限制。在 2016 年發(fā)布的 微軟聊天機(jī)器人 Tay 和最近的 必應(yīng)聊天機(jī)器人 Sydney 是真實(shí)世界中反應(yīng)缺乏用紅隊(duì)攻擊對(duì)基礎(chǔ) ML 模型進(jìn)行評(píng)估而發(fā)生的災(zāi)難。紅隊(duì)攻擊的最初想法起源于軍隊(duì)中對(duì)抗模擬和戰(zhàn)爭(zhēng)游戲。

紅隊(duì)語言模型的目標(biāo)是制作一個(gè)提示 (prompt),該提示會(huì)觸發(fā)模型生成有害內(nèi)容。紅隊(duì)和同樣知名的評(píng)估語言模型?對(duì)抗攻擊?有同也有異。相似之處在于紅隊(duì)和對(duì)抗攻擊目標(biāo)相同,即“攻擊”或“欺騙”模型,以生成在現(xiàn)實(shí)世界中不想要的內(nèi)容。但是對(duì)抗攻擊很難讓人理解,舉例來說,通過將字符串 “aaabbbcc” 前綴到每個(gè)提示中,它會(huì)惡化模型性能。Wallace 等人 2019 年的論文 討論了對(duì)各種 NLP 分類和生成任務(wù)的許多攻擊的例子。在另一方面,紅隊(duì)的提示看起來更正常,像自然語言的提示。

紅隊(duì)攻擊可以揭露模型的局限性,包括引起用戶不適或者暴力、不合法的惡意內(nèi)容。紅隊(duì) (就像對(duì)抗攻擊) 的輸出通常會(huì)被用來訓(xùn)練模型去減少有害內(nèi)容或遠(yuǎn)離不想要的內(nèi)容。

由于紅隊(duì)需要?jiǎng)?chuàng)造性地思考可能的模型失敗,巨大的搜索空間會(huì)導(dǎo)致資源緊張。這里的一個(gè)臨時(shí)方法是對(duì)大語言模型增加一個(gè)分類器去預(yù)測(cè)輸入的提示 (prompt) 中是否含導(dǎo)致生成惡意內(nèi)容的話題或短語,如果含有則生成相關(guān)回應(yīng)。這種策略過于謹(jǐn)慎,極大的限制了模型并且時(shí)常導(dǎo)致模型產(chǎn)生回避。所以在模型有幫助 (遵循指令) 與無害 (盡可能少的產(chǎn)生有害內(nèi)容) 之間存在一個(gè)緊張關(guān)系。紅隊(duì)在這時(shí)就顯得非常有用了。

紅隊(duì)攻擊可以是人力循環(huán)或者正在測(cè)試另一個(gè)語言模型有害輸出的語言模型。提出針對(duì)安全和對(duì)齊方式進(jìn)行微調(diào)的模型 (例如通過 RLHF 或 SFT) 的模型提示,需要以?角色扮演攻擊?的形式進(jìn)行創(chuàng)造性的思考,其中大語言模型被指示表現(xiàn)為惡意角色在 Ganguli 等 2022 年的論文 中。用代碼而不是自然語言指示模型同樣也可以揭露模型的學(xué)習(xí)的一些偏置。就像如下例子。

查看 此 推文獲取更多示例。

這里列出了在 ChatGPT 刺激大語言模型進(jìn)行越獄的列表。

紅隊(duì)大語言模型依舊是一個(gè)新的研究領(lǐng)域,但是上述提到的策略依舊可以在成功讓這些模型“越獄”,并且有助于部署機(jī)器學(xué)習(xí)的產(chǎn)品。隨著這些模型推陳出新、能力變強(qiáng),開發(fā)可以不斷適應(yīng)的紅隊(duì)方法將變得至關(guān)重要。一些需要進(jìn)行紅隊(duì)攻擊的最佳實(shí)踐包括模擬尋求權(quán)力行為的方案 (例如: 資源),說服人們 (例如: 傷害自己或他人),具有醫(yī)學(xué)輸出的代理 (例如: 通過 API 在線訂購(gòu)化學(xué)藥品)。我們將這種可能性和物理后果的可能性稱為 _關(guān)鍵威脅場(chǎng)景_。

在評(píng)估大語言模型中惡意行為的警示中,我們不知道它們的能力,畢竟它們不是故意訓(xùn)練去展示這種能力的 (涌現(xiàn)能力)。所以實(shí)際了解大語言模型的能力的唯一方法是,當(dāng)它們變得更強(qiáng)大,可以模擬所有可能導(dǎo)致有惡意的結(jié)果,并在每種情況下評(píng)估模型的行為的所有可能場(chǎng)景。這意味著我們的模型的安全行為與我們的紅隊(duì)方法的強(qiáng)度相關(guān)聯(lián)。

針對(duì)這一持續(xù)的紅隊(duì)的挑戰(zhàn),這里在數(shù)據(jù)集和最佳實(shí)踐 (包括學(xué)術(shù)、工業(yè)和政府實(shí)體) 上進(jìn)行了多組織合作的激勵(lì)措施。共享信息的結(jié)構(gòu)化過程可以使較小的實(shí)體在模型發(fā)布前進(jìn)行紅隊(duì)攻擊,從而使整個(gè)用戶體驗(yàn)更安全。

紅隊(duì)的開放數(shù)據(jù)集:

  1. Meta 的 機(jī)器人對(duì)抗對(duì)話數(shù)據(jù)集

  2. Anthropic 的 紅隊(duì)嘗試

  3. AI2 的 RealToxicityPrompts

從過去的工作中尋找紅隊(duì)大語言模型相關(guān)的努力?(在 Anthropic’s Ganguli et al. 2022 和 Perez et al. 2022 兩篇文章中)

  1. 用有幫助的,忠實(shí)的,無害的行為在紅隊(duì)攻擊中進(jìn)行少量提示學(xué)習(xí)并?不?比單純的語言模型困難。

  2. 攻擊成功率與縮放模型大小沒有明確的關(guān)系,除了 RLHF 模型在縮放時(shí)更難進(jìn)行紅隊(duì)攻擊。

  3. 模型可能會(huì)通過回避表現(xiàn)的無害,在有幫助和無害之間存在權(quán)衡。

  4. 人類在判斷是否達(dá)成一次成功攻擊的觀點(diǎn)難以達(dá)成一致。

  5. 成功率的分布在不同危害類別中有所差異,其中非暴力提示的成功率更高。

  6. 眾包 (crowdsourcing) 紅隊(duì)會(huì)產(chǎn)生 y-模板 提示 (例如: “給出一個(gè)以 X 開頭的惡毒詞語”),使其變得多余。

未來方向:

  1. 沒有用于代碼生成的開源紅隊(duì)數(shù)據(jù)集,它試圖通過代碼越獄模型,例如生成實(shí)現(xiàn) DDOS 或后門攻擊的程序。

  2. 為關(guān)鍵威脅場(chǎng)景設(shè)計(jì)和實(shí)施大語言模型紅隊(duì)方案的策略。

  3. 紅隊(duì)可能是資源密集的,無論是計(jì)算還是人力資源,因此將從共享策略,開源數(shù)據(jù)集以及可能的合作中獲得更大的成功機(jī)會(huì),從而受益。

  4. 評(píng)估回避和有幫助之間的權(quán)衡。

  5. 綜合比較根據(jù)上述方案的利弊,找到紅隊(duì)方案的最優(yōu)解集 (類似于 Anthropic 的 Constitutional AI)。

這些局限性和未來的方向清楚地表明,紅隊(duì)是現(xiàn)代大語言模型工作流程中亟待探索又至關(guān)重要的組成部分。這篇文章旨在號(hào)召大語言模型研究人員和 Hugging Face 開發(fā)者社區(qū),希望大家在這些方面保持協(xié)作,共建安全、友好的世界:)

致謝:?感謝 Yacine Jernite 關(guān)于在這篇博文中正確使用術(shù)語的實(shí)用建議。

英文原文:https://hf.co/blog/red-teaming

作者: Nazneen Rajani, Nathan Lambert, Lewis Tunstall

譯者: innovation64

排版/審校: zhongdongy (阿東)

為大語言模型建立紅隊(duì)對(duì)抗的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
嘉鱼县| 积石山| 青铜峡市| 自贡市| 辛集市| 石屏县| 西贡区| 南投县| 旬阳县| 锦屏县| 科尔| 班玛县| 双柏县| 什邡市| 怀集县| 商河县| 图片| 崇州市| 沧州市| 德钦县| 桃源县| 方正县| 静宁县| 文山县| 会同县| 桦甸市| 定边县| 镇宁| 临沭县| 元氏县| 沾益县| 诸城市| 湾仔区| 辉南县| 盐边县| 南华县| 鲁甸县| 东港市| 京山县| 瑞丽市| 开远市|