最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

當(dāng)深度學(xué)習(xí)偶遇自動文本摘要!

2020-03-14 19:25 作者:知書少年剛剛醬  | 我要投稿

本文作者

目錄:

1.前沿

2.數(shù)據(jù)集

3.基本模型結(jié)構(gòu)

4.OOV與Word-repetition問題

5.Beyond RNN

6.TRAINING STRATEGIES

7.SUMMARY GENERATION

8.BertSum

9.總結(jié)

一、前言

隨著大數(shù)據(jù)時代的到來,信息量大幅度的增加,人們通過互聯(lián)網(wǎng)會接觸到大量的信息,包括新聞、博客、論壇等等。為了高效準(zhǔn)確的獲取關(guān)鍵信息,如何將大量文本的核心內(nèi)容總結(jié)出來,已經(jīng)成為了大家迫切的需求。所以像自動文本摘要技術(shù)、文本推理技術(shù)給我們提供了一種高效的解決方案。在NLP自然語言處理任務(wù)中,自動文本摘要技術(shù)也有著非常多的具體應(yīng)用,如新聞標(biāo)題摘要自動生成、文獻(xiàn)報(bào)告自動生成、知識內(nèi)容推理、搜索結(jié)果概述等,并同時為下游任務(wù)提供了必要的支持。

雖然自動文本摘要任務(wù)有著很大的前景,但是對于計(jì)算機(jī)來說,這項(xiàng)任務(wù)同樣存在著很大的挑戰(zhàn)。在產(chǎn)生摘要的過程中,既要求計(jì)算機(jī)能夠準(zhǔn)確的理解原文文本的內(nèi)容,又能對其總結(jié)調(diào)整,最終生成流利可讀的摘要。不過隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,該問題也慢慢迎刃而解。從自動文本摘要任務(wù)發(fā)展來看,自動文本摘要分為兩個重要的思路,分別是抽提式(extractive)文本摘要和生成式(abstractive)文本摘要。抽提式文本摘主要是通過不同方法找出文本中最為代表性的詞語或者句子,將其拼在一起組成摘要內(nèi)容。而生成式方法,是通過模型進(jìn)行特征提取,最終像人類思考問題一樣生成摘要結(jié)果,整個過程更加接近人類思考問題的方式。雖然在一些場景里,抽提式的效果會稍好于生成式,但隨著深度學(xué)習(xí)不斷的進(jìn)步,生成式文本摘要成為了自動文本摘要問題中最值得持續(xù)研究和應(yīng)用的方法。

本文主要介紹一些基于深度學(xué)習(xí)的自動文本摘要,大部分集中在基于Seq2Seq框架的生成式方法,最后也會介紹基于BERT預(yù)訓(xùn)練模型的抽提式方法。

二、數(shù)據(jù)集

在過去的幾年中,CNN/Daily Mail數(shù)據(jù)集已經(jīng)成為一個標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集,用于評估不同摘要模型的性能,這些模型可以為相對較長的文檔生成關(guān)鍵的摘要。所以大多數(shù)新的模型都會在該數(shù)據(jù)集上進(jìn)行驗(yàn)證,該數(shù)據(jù)集的ROUGE分?jǐn)?shù)也不斷被刷新。

從該數(shù)據(jù)集中拿出一個訓(xùn)練樣本可以看出,它的highlight是最終得到的文本摘要,sentences是原文文本。CNN/Daily Mail數(shù)據(jù)集由這樣的超過30萬篇新聞文章組成,每一篇文章都有幾個highlight,最為最終的訓(xùn)練摘要樣本。

三、基本模型結(jié)構(gòu)

生成式文本摘要基于Seq2Seq框架,主要由編碼器(Encoder)和解碼器(Decoder)組成,通過編碼器對數(shù)據(jù)的特征學(xué)習(xí),得到一個中間量Content,同時作為解碼器的一個輸入,完成自然語言生成任務(wù),生成最終的文本摘要。

隨著Google在機(jī)器翻譯問題中提出了Attention機(jī)制,生成文本摘要的效果也越來越好,該模型的主要思想是,在t時刻decoder過程中通過Attention weights的分布情況有傾向的關(guān)注encoder中的相關(guān)輸入。如上圖所示,在生成摘要的第二詞時,通過圖中注意力權(quán)重的分布可以看出,模型更加關(guān)注“需要”這個詞的輸入Embedding,以上就是典型的Encoder+Attention+Decoder結(jié)構(gòu)流程。

四、OOV與Word-repetition問題

盡管基礎(chǔ)模型結(jié)構(gòu)看似是有希望解決生成式文本摘要的問題,但它們表現(xiàn)出了一些不太好的過程,例如不準(zhǔn)確地再現(xiàn)原文細(xì)節(jié),無法處理out-of-vocabulary words(未登錄詞)的問題,以及會生成重復(fù)的詞語,也就是Word-repetition的問題。為了解決上述的兩個問題,在《Get To The Point: Summarization with Pointer-Generator Networks》文中,作者提出了Pointer-Generator Networks網(wǎng)絡(luò),簡稱PGN。

如圖所示,PGN模型提出一個系數(shù)Pgen,作為生成概率,它的取值范圍在【0,1】之間,它的定義見下公式。在decoder的t時刻通過Pgen系數(shù)來控制最終的輸出概論,最終輸出詞表概論分布由正常decoder的詞表分布與注意力分布相疊加,因?yàn)榇颂幙紤]了注意力分布,所以我們可以在做數(shù)據(jù)集的時候?qū)⒉辉谠~表中的詞單獨(dú)加到一個OOV詞表里,通過注意力分布選中這個詞,以解決生成摘要時的OOV問題。

Word-repetition問題在Seq2Seq問題中十分常見,不管是在機(jī)器翻譯問題中還是自動文本摘要問題中,在這里我們可以采用coverage機(jī)制來解決這個問題。coverage模型中存在一個c,它等于之前時間步所有注意力分布之和。

與基本結(jié)構(gòu)方法相比,coverage vector作為一個額外的輸入一并加入到score計(jì)算中,相對于基礎(chǔ)結(jié)構(gòu)在計(jì)算公式中多一項(xiàng),如下式:

通過研究發(fā)現(xiàn),加入coverage機(jī)制后有必要在Loss函數(shù)里加入懲罰,加的coverage loss見下公式:

通過這樣的懲罰,能夠有效的減少decoder生成詞語過程中重復(fù)詞語的出現(xiàn)。

五、Beyond RNN

為了持續(xù)改進(jìn)自動生成文本摘要的結(jié)構(gòu),我們可以從網(wǎng)絡(luò)結(jié)構(gòu)下手,將傳統(tǒng)的RNN系列網(wǎng)絡(luò)替換成CNN、Transformer等結(jié)構(gòu),從不同角度提升整體模型的效果。Transformer特征提取器,作為最為流行的大規(guī)模預(yù)訓(xùn)練語言模型的基本結(jié)構(gòu)單元,必然可以拿來一試效果。在《Transformers and Pointer-Generator Networks for Abstractive Summarization》中,作者將Transformer結(jié)構(gòu)與PGN網(wǎng)絡(luò)進(jìn)行結(jié)合,與傳統(tǒng)的PGN網(wǎng)絡(luò)相同的地方是,Pgen依然與decoder生成的詞表概論分布相乘,Pgen的計(jì)算公式同基本PGN網(wǎng)絡(luò)計(jì)算公式相同,如:

這其中ht*是通過多層Encoder結(jié)構(gòu)后得到的平均輸出,st是Decoder結(jié)構(gòu)中的隱層信息,xt是Decoder結(jié)構(gòu)的輸入Embedding。其他的步驟和傳統(tǒng)PGN網(wǎng)絡(luò)基本是一樣的。由于Transformer結(jié)構(gòu)的使用,計(jì)算就可以采用平行計(jì)算的方式,最大的發(fā)揮GPU的作用。

六、TRAINING STRATEGIES

在Encoder-Decoder結(jié)構(gòu)訓(xùn)練過程中,我們往往會采用一些策略來加速訓(xùn)練收斂速度,一種比較常用的策略是Teacher Forcing,一般t時刻decoder的輸入會采用上一步的預(yù)測輸出,但是由于不準(zhǔn)確的輸出會帶跑整個模型的節(jié)奏,造成模型收斂速度慢。但是Teacher Forcing是將前一步的真實(shí)標(biāo)簽作為t時刻decoder的輸入,這樣做的好處是讓模型很快的學(xué)習(xí)到了訓(xùn)練集中的一些特征,不過往往事情都是有兩面性的,如果一直將正確答案給到模型中,模型在驗(yàn)證集和測試集上的表現(xiàn)不會太理想,我對這個地方理解是模型的魯棒性一般。

為了發(fā)揮Teacher Forcing的優(yōu)點(diǎn),并改掉它的缺點(diǎn),可以采用scheduled sampling的方法。我們可以在t時刻decoder過程中以一定概率選取真實(shí)標(biāo)簽,將真實(shí)標(biāo)簽與預(yù)測結(jié)果融合作為decoder的輸入,在前幾步decoder過程中更多的加入真實(shí)的值以便模型快速的往收斂方向發(fā)展,在隨后decoder過程中減少真實(shí)的標(biāo)簽,增大預(yù)測的結(jié)果,會使得模型的學(xué)習(xí)能力變得更強(qiáng)。這個選取概論P(yáng)隨著時刻t的變化而變化,一般有下圖中集中變化方式。

七、SUMMARY GENERATION

為了改進(jìn)生成效果,一般在推理的過程中會采用Beam Search的方法,Beam Search是對Greedy Search的一種改進(jìn),相對Greedy Search增加了搜索空間。Beam Search通過一個參數(shù)beam size來調(diào)整,假設(shè)這個值為m,在docoder的過程中每個時間步都會只選擇出現(xiàn)概論最大的前m個結(jié)果,以此類推,在最后生成的結(jié)果中挑出最好的結(jié)果。

雖然Beam Search應(yīng)用很廣泛,但是這種搜索方式還是缺乏生成結(jié)果的多樣性。換言之,如果采用Beam Search經(jīng)常能在top-m摘要結(jié)果中可以看出相同的結(jié)果,摘要的前部分詞語組成都比較接近,只是摘要序列尾部的一些詞語會有所不同,這樣不僅會影響生成的結(jié)果同時也會浪費(fèi)計(jì)算資源。在此,我們可以通過Diverse Beam Search的方法來解決生成結(jié)果不夠多樣性的問題,這種方法的主要思想是,在每個t時刻生成文本時將每一個預(yù)測詞復(fù)制幾個,如果Beam Size設(shè)置為3,都復(fù)制兩份,這樣一輪預(yù)測下來,會有6個結(jié)果,在t+1時刻預(yù)測時應(yīng)用t時刻的前兩個結(jié)果,生成新的結(jié)果后將其傳給后面的預(yù)測程序里,在此做一個懲罰,也就說預(yù)測過的詞在下面的流程中減分,以此減少重復(fù)詞語的出現(xiàn),增加文本生成的多樣性。

八、BertSum

Bidirectional Encoder Representations from Transformers(BERT)模型作為最火爆預(yù)訓(xùn)練模型已經(jīng)席卷大多數(shù)NLP任務(wù),但是基于BERT模型僅僅拿Transformer的Encoder編碼器結(jié)構(gòu)進(jìn)行訓(xùn)練,導(dǎo)致BERT在自然語言生成NLG問題中很難嶄露頭尖。但最新的研究成果《Text Summarization with Pretrained Encoders》中指出一種基于BERT模型的抽提式文本摘要方法,通過抽提的方式解決BERT模型結(jié)構(gòu)中沒有Decoder結(jié)構(gòu)的劣勢。

該模型的原理在原有BERT模型的基礎(chǔ)上做了一些改進(jìn),模型在輸入層將文本原文按句子分開,句子與句子中間插入【SEP】和【CLS】輸入,在Interval Segment Embeddings中將句子分別依次設(shè)置成EA和EB,最終訓(xùn)練整個模型,在output層拿到【CLS】的狀態(tài)表征,再接上一層全連接層、RNN、甚至可以再加一層Transformer。通過這樣的改進(jìn)實(shí)現(xiàn)一個分類任務(wù),如果一個句子是最終文本摘要的結(jié)果,那么這個句子輸出標(biāo)簽為1,不是摘要輸出為0,以此方法實(shí)現(xiàn)抽提式文本摘要的任務(wù)。

通過文中在CNN/Daily Mail數(shù)據(jù)集上的實(shí)驗(yàn)可以看出,BERTSUM模型在ROUGE分?jǐn)?shù)上已經(jīng)超過Seq2Seq基礎(chǔ)的生成式文本摘要的結(jié)果。

九、總結(jié)

當(dāng)深度學(xué)習(xí)偶遇自動文本摘要,不管是生成式摘要還是抽提式摘要,在模型的角度都有了很大的提升,通過一些策略的應(yīng)用,能夠有效的將研究落地到實(shí)際應(yīng)用中,擴(kuò)充了自動文本摘要的應(yīng)用。


當(dāng)深度學(xué)習(xí)偶遇自動文本摘要!的評論 (共 條)

分享到微博請遵守國家法律
定结县| 海林市| 衢州市| 秦皇岛市| 泰兴市| 偏关县| 明光市| 乌兰察布市| 会泽县| 富锦市| 仙居县| 夏邑县| 兴山县| 齐河县| 吉木萨尔县| 松江区| 历史| 祁连县| 资阳市| 津南区| 台北市| 晋城| 渭南市| 平和县| 富宁县| 宜川县| 稷山县| 呼玛县| 舟山市| 吉木萨尔县| 梁河县| 聊城市| 韶关市| 临沧市| 务川| 黄平县| 山东| 平罗县| 兴宁市| 华蓥市| 灵丘县|