NLP方向文本摘要常見面試題5道|含解析
9本電子書放文末,自取~
1、抽取式摘要和生成式摘要存在哪些問題?
抽取式摘要在語法、句法上有一定的保證,但是也面臨了一定的問題,例如:內(nèi)容選擇錯誤、連貫性差、靈活性差等問題。
生成式摘要優(yōu)點是相比于抽取式而言用詞更加靈活,因為所產(chǎn)生的詞可能從未在原文中出現(xiàn)過。但存在以下問題:
1、OOV問題。源文檔語料中的詞的數(shù)量級通常會很大,但是經(jīng)常使用的詞數(shù)量則相對比較固定。因此通常會根據(jù)詞的頻率過濾掉一些詞做成詞表。這樣的做法會導致生成摘要時會遇到UNK的詞。
2、摘要的可讀性。通常使用貪心算法或者beam search方法來做decoding。這些方法生成的句子有時候會存在不通順的問題。
3、摘要的重復性。這個問題出現(xiàn)的頻次很高。與2的原因類似,由于一些decoding的方法的自身缺陷,導致模型會在某一段連續(xù)timesteps生成重復的詞。
4、長文本摘要生成難度大。對于機器翻譯來說,NLG的輸入和輸出的語素長度大致都在一個量級上,因此NLG在其之上的效果較好。但是對摘要來說,源文本的長度與目標文本的長度通常相差很大,此時就需要encoder很好的將文檔的信息總結歸納并傳遞給decoder,decoder需要完全理解并生成句子。
2、Pointer-generator network解決了什么問題?
指針生成網(wǎng)絡從兩方面針對seq-to-seq模型在生成式文本摘要中的應用做了改進。
第一,使用指針生成器網(wǎng)絡可以通過指向從源文本中復制單詞(解決OOV的問題),這有助于準確復制信息,同時保留generater的生成能力。PGN可以看作是抽取式和生成式摘要之間的平衡。通過一個門來選擇產(chǎn)生的單詞是來自于詞匯表,還是來自輸入序列復制。
第二,使用coverage跟蹤摘要的內(nèi)容,不斷更新注意力,從而阻止文本不斷重復(解決重復性問題)。利用注意力分布區(qū)追蹤目前應該被覆蓋的單詞,當網(wǎng)絡再次注意同一部分的時候予以懲罰。
3、文本摘要有哪些應用場景?
文本摘要技術有許多應用場景。例如,在新聞報道領域,可以使用文本摘要技術快速生成新聞摘要,使讀者可以快速了解新聞內(nèi)容;在市場調查領域,可以使用文本摘要技術對大量用戶反饋進行快速分析,提取出關鍵信息,從而更好地了解市場需求;在醫(yī)學領域,可以使用文本摘要技術從海量醫(yī)學文獻中快速找到相關研究成果,以幫助醫(yī)生更好地做出診療決策。
4、幾種ROUGE指標之間的區(qū)別是什么?
ROUGE是將待審摘要和參考摘要的n元組共現(xiàn)統(tǒng)計量作為評價依據(jù)。
ROUGE-N = 每個n-gram在參考摘要和系統(tǒng)摘要中同現(xiàn)的最大次數(shù)之和 / 參考摘要中每個n-gram出現(xiàn)的次數(shù)之和

ROUGE-L計算最長公共子序列的匹配率,L是LCS(longest common subsequence)的首字母。如果兩個句子包含的最長公共子序列越長,說明兩個句子越相似。
Rouge-W是Rouge-L的改進版,使用了加權最長公共子序列(Weighted Longest Common Subsequence),連續(xù)最長公共子序列會擁有更大的權重。
5、BLEU和ROUGE有什么不同?
BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。
BLEU的計算主要基于精確率,ROUGE的計算主要基于召回率。
ROUGE 用作機器翻譯評價指標的初衷是這樣的:在 SMT(統(tǒng)計機器翻譯)時代,機器翻譯效果稀爛,需要同時評價翻譯的準確度和流暢度;等到 NMT (神經(jīng)網(wǎng)絡機器翻譯)出來以后,神經(jīng)網(wǎng)絡腦補能力極強,翻譯出的結果都是通順的,但是有時候容易瞎翻譯。
ROUGE的出現(xiàn)很大程度上是為了解決NMT的漏翻問題(低召回率)。所以 ROUGE 只適合評價 NMT,而不適用于 SMT,因為它不管候選譯文流不流暢。

BLEU 需要計算譯文 1-gram,2-gram,...,N-gram 的精確率,一般 N 設置為 4 即可,公式中的 Pn 指 n-gram 的精確率。
Wn 指 n-gram 的權重,一般設為均勻權重,即對于任意 n 都有 Wn = 1/N。
BP 是懲罰因子,如果譯文的長度小于最短的參考譯文,則 BP 小于 1。
BLEU 的 1-gram 精確率表示譯文忠于原文的程度,而其他 n-gram 表示翻譯的流暢程度。
看完本篇如果對你有用請三連,你的支持是我持續(xù)輸出的動力,感謝,筆芯~

↓ ↓ ↓以下9本書電子版免費領,直接送 ,想要哪本私我下說聲,我發(fā)你↓ ↓ ↓


《2022年Q3最新大廠面試題》電子書,部分截圖如下:
