散文網(wǎng) » 科技 »學(xué)習(xí) » 如何讓LLMs“忘記”指定的信息？【微軟研發(fā)遺忘術(shù)】

如何讓LLMs“忘記”指定的信息？【微軟研發(fā)遺忘術(shù)】

2023-11-08 13:32 作者:ReadPaper論文閱讀 0人讀過(guò) | 我要投稿

微軟研究院的最新研究探討了大型語(yǔ)言模型（LLMs）如何“遺忘”已學(xué)習(xí)的信息，特別是版權(quán)內(nèi)容。研究團(tuán)隊(duì)嘗試讓Meta訓(xùn)練的Llama2-7b模型忘記哈利·波特系列，通過(guò)一系列技術(shù)實(shí)現(xiàn)了目標(biāo)內(nèi)容的遺忘，同時(shí)保持了模型在其他任務(wù)上的性能。這項(xiàng)工作不僅展示了技術(shù)的可能性，也對(duì)未來(lái)LLMs的道德、法律和責(zé)任問(wèn)題提出了新的思考。

論文鏈接：https://arxiv.org/pdf/2310.02238.pdf

Readpaper鏈接：https://readpaper.com/paper/4807150070629662721

模型鏈接：https://huggingface.co/microsoft/Llama2-7b-WhoIsHarryPotter

可以看出，經(jīng)過(guò)“遺忘微調(diào)”之后的模型，完全記不起來(lái)和哈利波特有關(guān)的內(nèi)容了。不過(guò)倒是有意思的是，似乎發(fā)現(xiàn)了一個(gè)叫做哈利波特的英國(guó)作家，搞不好是同名。

1. AI時(shí)代的遺忘挑戰(zhàn)

LLMs在學(xué)習(xí)新信息時(shí)面臨版權(quán)、隱私、偏見(jiàn)和虛假數(shù)據(jù)等問(wèn)題。遺忘已學(xué)習(xí)的有問(wèn)題數(shù)據(jù)并不像學(xué)習(xí)那樣直接，且重新訓(xùn)練成本高昂。比如，該模型的訓(xùn)練數(shù)據(jù)包括?"books3?"數(shù)據(jù)集，其中包含了《哈利-波特》一書(shū)和許多其他受版權(quán)保護(hù)的作品（包括本作品合著者所寫(xiě)的小說(shuō)）。

2.?遺忘步驟

傳統(tǒng)上，向模型添加新數(shù)據(jù)相對(duì)簡(jiǎn)單，但讓模型忘記特定信息則較為困難。微軟研究員通過(guò)一種新的微調(diào)方法，成功改變了Llama?2模型的輸出，使其忘記了哈利·波特的內(nèi)容。

強(qiáng)化模型?(Reinforced?Model)

通過(guò)在目標(biāo)數(shù)據(jù)上進(jìn)一步訓(xùn)練來(lái)加深模型對(duì)特定系列書(shū)籍的了解，從而識(shí)別出與“遺忘”目標(biāo)最相關(guān)的標(biāo)記。具體來(lái)說(shuō)，將基線(xiàn)模型在特定文本上進(jìn)一步訓(xùn)練，使其對(duì)該文本的預(yù)測(cè)更加傾向于原始內(nèi)容。例如，在哈利波特的文本中，強(qiáng)化模型會(huì)更傾向于預(yù)測(cè)與哈利波特相關(guān)的內(nèi)容。

替換特有表達(dá)?(Replacing?Idiosyncratic?Expressions)

使用模型自身的預(yù)測(cè)能力，為每個(gè)標(biāo)記生成替代標(biāo)簽。例如，如果原文中有“哈利波特”，替換后可能是一個(gè)通用的名字，如“Jack”。

在微調(diào)過(guò)程中，模型被引導(dǎo)預(yù)測(cè)替代標(biāo)簽作為下一個(gè)標(biāo)記，而不是原始文本中的標(biāo)記。這樣，當(dāng)模型接收到原始文本的上下文作為輸入時(shí)，它不會(huì)生成與原文相關(guān)的內(nèi)容。

3.評(píng)估

保留通用能力?(Preservation?of?General?Capabilities)

使用公認(rèn)的基準(zhǔn)測(cè)試（如WinoGrande、HellaSwag和piqa）來(lái)評(píng)估模型的性能，以驗(yàn)證模型在語(yǔ)言理解和其他能力方面是否保持不變。

不過(guò)我個(gè)人感覺(jué)，還是有輕微下降的，只不過(guò)下降的不多。

為了說(shuō)明隨著遺忘算法的進(jìn)展而遺忘的過(guò)程，下圖顯示了我們的模型在完成提示“哈利波特學(xué)習(xí)”（Harry?Potter?studies）時(shí)分配給下一個(gè)單詞的概率：

觀(guān)點(diǎn)

在學(xué)術(shù)上，其實(shí)類(lèi)似的“遺忘”方法，已經(jīng)被提出來(lái)很多了，基本上就是各種微調(diào)。不過(guò)這里給出的一個(gè)方法還是有點(diǎn)意思的，他是先在有關(guān)語(yǔ)料上先進(jìn)行微調(diào)加深某一類(lèi)信息的印象，然后再在換成通用信息的語(yǔ)料上進(jìn)行微調(diào)用以遺忘。而且，還給出了“其他任務(wù)”上的測(cè)試，證明這個(gè)方法可以不降低別的任務(wù)的性能，這個(gè)倒是新突破，別的方法一般來(lái)說(shuō)代價(jià)都很大。

在商業(yè)上，可以引導(dǎo)企業(yè)開(kāi)發(fā)更符合倫理和法律要求的智能產(chǎn)品，為企業(yè)提供遵守?cái)?shù)據(jù)使用規(guī)范的新途徑。

特邀作者：日本早稻田大學(xué)計(jì)算機(jī)系博士? 王軍杰

標(biāo)簽：