如何讓LLMs“忘記”指定的信息?【微軟研發(fā)遺忘術(shù)】
微軟研究院的最新研究探討了大型語(yǔ)言模型(LLMs)如何“遺忘”已學(xué)習(xí)的信息,特別是版權(quán)內(nèi)容。研究團(tuán)隊(duì)嘗試讓Meta訓(xùn)練的Llama2-7b模型忘記哈利·波特系列,通過(guò)一系列技術(shù)實(shí)現(xiàn)了目標(biāo)內(nèi)容的遺忘,同時(shí)保持了模型在其他任務(wù)上的性能。這項(xiàng)工作不僅展示了技術(shù)的可能性,也對(duì)未來(lái)LLMs的道德、法律和責(zé)任問(wèn)題提出了新的思考。
論文鏈接:https://arxiv.org/pdf/2310.02238.pdf
Readpaper鏈接:https://readpaper.com/paper/4807150070629662721
模型鏈接:https://huggingface.co/microsoft/Llama2-7b-WhoIsHarryPotter

可以看出,經(jīng)過(guò)“遺忘微調(diào)”之后的模型,完全記不起來(lái)和哈利波特有關(guān)的內(nèi)容了。不過(guò)倒是有意思的是,似乎發(fā)現(xiàn)了一個(gè)叫做哈利波特的英國(guó)作家,搞不好是同名。
1. AI時(shí)代的遺忘挑戰(zhàn)
LLMs在學(xué)習(xí)新信息時(shí)面臨版權(quán)、隱私、偏見(jiàn)和虛假數(shù)據(jù)等問(wèn)題。遺忘已學(xué)習(xí)的有問(wèn)題數(shù)據(jù)并不像學(xué)習(xí)那樣直接,且重新訓(xùn)練成本高昂。比如,該模型的訓(xùn)練數(shù)據(jù)包括?"books3?"數(shù)據(jù)集,其中包含了《哈利-波特》一書(shū)和許多其他受版權(quán)保護(hù)的作品(包括本作品合著者所寫(xiě)的小說(shuō))。
2.?遺忘步驟
傳統(tǒng)上,向模型添加新數(shù)據(jù)相對(duì)簡(jiǎn)單,但讓模型忘記特定信息則較為困難。微軟研究員通過(guò)一種新的微調(diào)方法,成功改變了Llama?2模型的輸出,使其忘記了哈利·波特的內(nèi)容。
強(qiáng)化模型?(Reinforced?Model)
通過(guò)在目標(biāo)數(shù)據(jù)上進(jìn)一步訓(xùn)練來(lái)加深模型對(duì)特定系列書(shū)籍的了解,從而識(shí)別出與“遺忘”目標(biāo)最相關(guān)的標(biāo)記。具體來(lái)說(shuō),將基線(xiàn)模型在特定文本上進(jìn)一步訓(xùn)練,使其對(duì)該文本的預(yù)測(cè)更加傾向于原始內(nèi)容。例如,在哈利波特的文本中,強(qiáng)化模型會(huì)更傾向于預(yù)測(cè)與哈利波特相關(guān)的內(nèi)容。
替換特有表達(dá)?(Replacing?Idiosyncratic?Expressions)
使用模型自身的預(yù)測(cè)能力,為每個(gè)標(biāo)記生成替代標(biāo)簽。例如,如果原文中有“哈利波特”,替換后可能是一個(gè)通用的名字,如“Jack”。

在微調(diào)過(guò)程中,模型被引導(dǎo)預(yù)測(cè)替代標(biāo)簽作為下一個(gè)標(biāo)記,而不是原始文本中的標(biāo)記。這樣,當(dāng)模型接收到原始文本的上下文作為輸入時(shí),它不會(huì)生成與原文相關(guān)的內(nèi)容。
3.評(píng)估
保留通用能力?(Preservation?of?General?Capabilities)
使用公認(rèn)的基準(zhǔn)測(cè)試(如WinoGrande、HellaSwag和piqa)來(lái)評(píng)估模型的性能,以驗(yàn)證模型在語(yǔ)言理解和其他能力方面是否保持不變。

不過(guò)我個(gè)人感覺(jué),還是有輕微下降的,只不過(guò)下降的不多。
為了說(shuō)明隨著遺忘算法的進(jìn)展而遺忘的過(guò)程,下圖顯示了我們的模型在完成提示“哈利波特學(xué)習(xí)”(Harry?Potter?studies)時(shí)分配給下一個(gè)單詞的概率:

觀(guān)點(diǎn)
在學(xué)術(shù)上,其實(shí)類(lèi)似的“遺忘”方法,已經(jīng)被提出來(lái)很多了,基本上就是各種微調(diào)。不過(guò)這里給出的一個(gè)方法還是有點(diǎn)意思的,他是先在有關(guān)語(yǔ)料上先進(jìn)行微調(diào)加深某一類(lèi)信息的印象,然后再在換成通用信息的語(yǔ)料上進(jìn)行微調(diào)用以遺忘。而且,還給出了“其他任務(wù)”上的測(cè)試,證明這個(gè)方法可以不降低別的任務(wù)的性能,這個(gè)倒是新突破,別的方法一般來(lái)說(shuō)代價(jià)都很大。
在商業(yè)上,可以引導(dǎo)企業(yè)開(kāi)發(fā)更符合倫理和法律要求的智能產(chǎn)品,為企業(yè)提供遵守?cái)?shù)據(jù)使用規(guī)范的新途徑。
特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士? 王軍杰