最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

NLP方向文本摘要常見面試題5道|含解析

2023-02-28 17:32 作者:七月在線-julyedu  | 我要投稿

9本電子書放文末,自取~

1、抽取式摘要和生成式摘要存在哪些問題?

抽取式摘要在語法、句法上有一定的保證,但是也面臨了一定的問題,例如:內(nèi)容選擇錯誤、連貫性差、靈活性差等問題。

生成式摘要優(yōu)點是相比于抽取式而言用詞更加靈活,因為所產(chǎn)生的詞可能從未在原文中出現(xiàn)過。但存在以下問題:

1、OOV問題。源文檔語料中的詞的數(shù)量級通常會很大,但是經(jīng)常使用的詞數(shù)量則相對比較固定。因此通常會根據(jù)詞的頻率過濾掉一些詞做成詞表。這樣的做法會導致生成摘要時會遇到UNK的詞。

2、摘要的可讀性。通常使用貪心算法或者beam search方法來做decoding。這些方法生成的句子有時候會存在不通順的問題。

3、摘要的重復性。這個問題出現(xiàn)的頻次很高。與2的原因類似,由于一些decoding的方法的自身缺陷,導致模型會在某一段連續(xù)timesteps生成重復的詞。

4、長文本摘要生成難度大。對于機器翻譯來說,NLG的輸入和輸出的語素長度大致都在一個量級上,因此NLG在其之上的效果較好。但是對摘要來說,源文本的長度與目標文本的長度通常相差很大,此時就需要encoder很好的將文檔的信息總結歸納并傳遞給decoder,decoder需要完全理解并生成句子。

2、Pointer-generator network解決了什么問題?

指針生成網(wǎng)絡從兩方面針對seq-to-seq模型在生成式文本摘要中的應用做了改進。

第一,使用指針生成器網(wǎng)絡可以通過指向從源文本中復制單詞(解決OOV的問題),這有助于準確復制信息,同時保留generater的生成能力。PGN可以看作是抽取式和生成式摘要之間的平衡。通過一個門來選擇產(chǎn)生的單詞是來自于詞匯表,還是來自輸入序列復制。

第二,使用coverage跟蹤摘要的內(nèi)容,不斷更新注意力,從而阻止文本不斷重復(解決重復性問題)。利用注意力分布區(qū)追蹤目前應該被覆蓋的單詞,當網(wǎng)絡再次注意同一部分的時候予以懲罰。

3、文本摘要有哪些應用場景?

文本摘要技術有許多應用場景。例如,在新聞報道領域,可以使用文本摘要技術快速生成新聞摘要,使讀者可以快速了解新聞內(nèi)容;在市場調查領域,可以使用文本摘要技術對大量用戶反饋進行快速分析,提取出關鍵信息,從而更好地了解市場需求;在醫(yī)學領域,可以使用文本摘要技術從海量醫(yī)學文獻中快速找到相關研究成果,以幫助醫(yī)生更好地做出診療決策。

4、幾種ROUGE指標之間的區(qū)別是什么?

ROUGE是將待審摘要和參考摘要的n元組共現(xiàn)統(tǒng)計量作為評價依據(jù)。

ROUGE-N = 每個n-gram在參考摘要和系統(tǒng)摘要中同現(xiàn)的最大次數(shù)之和 / 參考摘要中每個n-gram出現(xiàn)的次數(shù)之和

ROUGE-L計算最長公共子序列的匹配率,L是LCS(longest common subsequence)的首字母。如果兩個句子包含的最長公共子序列越長,說明兩個句子越相似。

Rouge-W是Rouge-L的改進版,使用了加權最長公共子序列(Weighted Longest Common Subsequence),連續(xù)最長公共子序列會擁有更大的權重。

5、BLEU和ROUGE有什么不同?

BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。

BLEU的計算主要基于精確率,ROUGE的計算主要基于召回率。

ROUGE 用作機器翻譯評價指標的初衷是這樣的:在 SMT(統(tǒng)計機器翻譯)時代,機器翻譯效果稀爛,需要同時評價翻譯的準確度和流暢度;等到 NMT (神經(jīng)網(wǎng)絡機器翻譯)出來以后,神經(jīng)網(wǎng)絡腦補能力極強,翻譯出的結果都是通順的,但是有時候容易瞎翻譯。

ROUGE的出現(xiàn)很大程度上是為了解決NMT的漏翻問題(低召回率)。所以 ROUGE 只適合評價 NMT,而不適用于 SMT,因為它不管候選譯文流不流暢。

  • BLEU 需要計算譯文 1-gram,2-gram,...,N-gram 的精確率,一般 N 設置為 4 即可,公式中的 Pn 指 n-gram 的精確率。

  • Wn 指 n-gram 的權重,一般設為均勻權重,即對于任意 n 都有 Wn = 1/N。

  • BP 是懲罰因子,如果譯文的長度小于最短的參考譯文,則 BP 小于 1。

  • BLEU 的 1-gram 精確率表示譯文忠于原文的程度,而其他 n-gram 表示翻譯的流暢程度。

    看完本篇如果對你有用請三連,你的支持是我持續(xù)輸出的動力,感謝,筆芯~

↓ ↓ ↓以下9本書電子版免費領,直接送 ,想要哪本私我下說聲,我發(fā)你↓ ↓ ↓

《2022年Q3最新大廠面試題》電子書,部分截圖如下:


NLP方向文本摘要常見面試題5道|含解析的評論 (共 條)

分享到微博請遵守國家法律
贡山| 大田县| 临西县| 扎囊县| 托里县| 星子县| 正阳县| 司法| 黄龙县| 潜山县| 张家界市| 靖州| 四川省| 海原县| 张掖市| 小金县| 方山县| 察隅县| 苍梧县| 得荣县| 务川| 秭归县| 九江县| 大埔区| 聊城市| 徐汇区| 清原| 杭锦后旗| 布尔津县| 黑河市| 桐乡市| 广元市| 泰顺县| 苗栗县| 兴国县| 新兴县| 宜兴市| 台山市| 炉霍县| 奉化市| 常宁市|