NLP方向文本摘要常見面試題5道|含解析

2023-02-28 17:32 作者:七月在線-julyedu 0人讀過 | 我要投稿

9本電子書放文末，自取~

1、抽取式摘要和生成式摘要存在哪些問題？

抽取式摘要在語法、句法上有一定的保證，但是也面臨了一定的問題，例如：內(nèi)容選擇錯誤、連貫性差、靈活性差等問題。

生成式摘要優(yōu)點是相比于抽取式而言用詞更加靈活，因為所產(chǎn)生的詞可能從未在原文中出現(xiàn)過。但存在以下問題：

1、OOV問題。源文檔語料中的詞的數(shù)量級通常會很大,但是經(jīng)常使用的詞數(shù)量則相對比較固定。因此通常會根據(jù)詞的頻率過濾掉一些詞做成詞表。這樣的做法會導致生成摘要時會遇到UNK的詞。

2、摘要的可讀性。通常使用貪心算法或者beam search方法來做decoding。這些方法生成的句子有時候會存在不通順的問題。

3、摘要的重復性。這個問題出現(xiàn)的頻次很高。與2的原因類似，由于一些decoding的方法的自身缺陷，導致模型會在某一段連續(xù)timesteps生成重復的詞。

4、長文本摘要生成難度大。對于機器翻譯來說，NLG的輸入和輸出的語素長度大致都在一個量級上，因此NLG在其之上的效果較好。但是對摘要來說，源文本的長度與目標文本的長度通常相差很大，此時就需要encoder很好的將文檔的信息總結歸納并傳遞給decoder，decoder需要完全理解并生成句子。

2、Pointer-generator network解決了什么問題？

指針生成網(wǎng)絡從兩方面針對seq-to-seq模型在生成式文本摘要中的應用做了改進。

第一，使用指針生成器網(wǎng)絡可以通過指向從源文本中復制單詞(解決OOV的問題)，這有助于準確復制信息，同時保留generater的生成能力。PGN可以看作是抽取式和生成式摘要之間的平衡。通過一個門來選擇產(chǎn)生的單詞是來自于詞匯表，還是來自輸入序列復制。

第二，使用coverage跟蹤摘要的內(nèi)容，不斷更新注意力，從而阻止文本不斷重復(解決重復性問題)。利用注意力分布區(qū)追蹤目前應該被覆蓋的單詞，當網(wǎng)絡再次注意同一部分的時候予以懲罰。

3、文本摘要有哪些應用場景？

文本摘要技術有許多應用場景。例如，在新聞報道領域，可以使用文本摘要技術快速生成新聞摘要，使讀者可以快速了解新聞內(nèi)容；在市場調查領域，可以使用文本摘要技術對大量用戶反饋進行快速分析，提取出關鍵信息，從而更好地了解市場需求；在醫(yī)學領域，可以使用文本摘要技術從海量醫(yī)學文獻中快速找到相關研究成果，以幫助醫(yī)生更好地做出診療決策。

4、幾種ROUGE指標之間的區(qū)別是什么？

ROUGE是將待審摘要和參考摘要的n元組共現(xiàn)統(tǒng)計量作為評價依據(jù)。

ROUGE-N = 每個n-gram在參考摘要和系統(tǒng)摘要中同現(xiàn)的最大次數(shù)之和 / 參考摘要中每個n-gram出現(xiàn)的次數(shù)之和

ROUGE-L計算最長公共子序列的匹配率，L是LCS（longest common subsequence）的首字母。如果兩個句子包含的最長公共子序列越長，說明兩個句子越相似。

Rouge-W是Rouge-L的改進版，使用了加權最長公共子序列(Weighted Longest Common Subsequence)，連續(xù)最長公共子序列會擁有更大的權重。

5、BLEU和ROUGE有什么不同？

BLEU 是 2002 年提出的，而 ROUGE 是 2003 年提出的。

BLEU的計算主要基于精確率，ROUGE的計算主要基于召回率。

ROUGE 用作機器翻譯評價指標的初衷是這樣的：在 SMT（統(tǒng)計機器翻譯）時代，機器翻譯效果稀爛，需要同時評價翻譯的準確度和流暢度；等到 NMT （神經(jīng)網(wǎng)絡機器翻譯）出來以后，神經(jīng)網(wǎng)絡腦補能力極強，翻譯出的結果都是通順的，但是有時候容易瞎翻譯。

ROUGE的出現(xiàn)很大程度上是為了解決NMT的漏翻問題（低召回率）。所以 ROUGE 只適合評價 NMT，而不適用于 SMT，因為它不管候選譯文流不流暢。

BLEU 需要計算譯文 1-gram，2-gram，...，N-gram 的精確率，一般 N 設置為 4 即可，公式中的 Pn 指 n-gram 的精確率。
Wn 指 n-gram 的權重，一般設為均勻權重，即對于任意 n 都有 Wn = 1/N。
BP 是懲罰因子，如果譯文的長度小于最短的參考譯文，則 BP 小于 1。
BLEU 的 1-gram 精確率表示譯文忠于原文的程度，而其他 n-gram 表示翻譯的流暢程度。

看完本篇如果對你有用請三連，你的支持是我持續(xù)輸出的動力，感謝，筆芯~