最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

文本摘要技術(shù)概述

2023-03-01 18:39 作者:七月在線-julyedu  | 我要投稿

文末福利,自取~

自然語言處理(NLP)是一種使計(jì)算機(jī)能夠理解人類語言的技術(shù)。在NLP中,文本摘要是一種將長篇文章或文本壓縮為簡短摘要的技術(shù),可以簡明扼要地對(duì)繁雜的信息進(jìn)行概括,提取關(guān)鍵信息,其在許多領(lǐng)域都有廣泛的應(yīng)用,如新聞報(bào)道、市場調(diào)查、醫(yī)學(xué)、法律等。

01文本摘要的種類

按照輸入文本類型的不同,可以分為單文檔文本摘要和多文檔文本摘要;按照實(shí)現(xiàn)技術(shù)方案的不同,可以分為抽取式文本摘要、生成式文本摘要;

抽取式摘要

什么是抽取式摘要?

抽取式文本摘要是一種從原始文本中選擇最相關(guān)的句子或段落來構(gòu)成摘要的技術(shù)。這種技術(shù)使用自然語言處理技術(shù)來分析文本并找出其中的重點(diǎn)。重點(diǎn)可以是詞、短語、句子或段落。抽取式文本摘要的好處在于它不需要重新編寫文本,因?yàn)樗皇菑脑嘉谋局刑崛⌒畔ⅰ?/p>

抽取式摘要存在的問題

抽取式摘要在語法、句法上有一定的保證,但是也面臨了一定的問題,例如:內(nèi)容選擇錯(cuò)誤、連貫性差、靈活性差等問題。生成式摘要允許摘要中包含新的詞語或短語,靈活性高,隨著近幾年神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,序列到序列(Seq2Seq)模型被廣泛的用于生成式摘要任務(wù),并取得一定的成果。

生成式摘要

生成式文本摘要是一種使用自然語言處理技術(shù)從原始文本中生成摘要的技術(shù)。這種技術(shù)需要計(jì)算機(jī)具有理解語言的能力,并且能夠以自然的方式編寫文本。生成式文本摘要的好處是它可以生成更自然、更流暢的文本,但缺點(diǎn)是需要更多的計(jì)算資源和時(shí)間。

生成式摘要存在的問題

生成式摘要優(yōu)點(diǎn)是相比于抽取式而言用詞更加靈活,因?yàn)樗a(chǎn)生的詞可能從未在原文中出現(xiàn)過。但存在以下問題:

1、OOV問題。源文檔語料中的詞的數(shù)量級(jí)通常會(huì)很大,但是經(jīng)常使用的詞數(shù)量則相對(duì)比較固定。因此通常會(huì)根據(jù)詞的頻率過濾掉一些詞做成詞表。這樣的做法會(huì)導(dǎo)致生成摘要時(shí)會(huì)遇到UNK的詞。2、摘要的可讀性。通常使用貪心算法或者beam search方法來做decoding。這些方法生成的句子有時(shí)候會(huì)存在不通順的問題。3、摘要的重復(fù)性。這個(gè)問題出現(xiàn)的頻次很高。與2的原因類似,由于一些decoding的方法的自身缺陷,導(dǎo)致模型會(huì)在某一段連續(xù)timesteps生成重復(fù)的詞。4、長文本摘要生成難度大。對(duì)于機(jī)器翻譯來說,NLG的輸入和輸出的語素長度大致都在一個(gè)量級(jí)上,因此NLG在其之上的效果較好。但是對(duì)摘要來說,源文本的長度與目標(biāo)文本的長度通常相差很大,此時(shí)就需要encoder很好的將文檔的信息總結(jié)歸納并傳遞給decoder,decoder需要完全理解并生成句子。

02常用的文本摘要技術(shù)

基于統(tǒng)計(jì)學(xué)的技術(shù)

基于統(tǒng)計(jì)學(xué)的技術(shù)使用統(tǒng)計(jì)學(xué)方法來確定最相關(guān)的句子或段落。它使用諸如詞頻、文檔頻率和句子長度等指標(biāo)來確定重點(diǎn)。這種技術(shù)的優(yōu)點(diǎn)是它簡單易用,但它不能捕捉到詞語之間的復(fù)雜關(guān)系。最早的時(shí)候人們主要是基于統(tǒng)計(jì)學(xué)進(jìn)行抽取式文本摘要,需要計(jì)算統(tǒng)計(jì)特征,如詞頻、句子之間的相似性、句子位置、句子與標(biāo)題(如有)的相似性、句子的相對(duì)長度等,首先使用“詞頻”這一簡單的文本特征對(duì)文檔的重要句子和詞組進(jìn)行抽取生成,根據(jù)經(jīng)驗(yàn)可知,除去停用詞以外,文中出現(xiàn)頻率越高的單詞,其重要性也就越高。根據(jù)單詞的詞頻高低分別設(shè)置相應(yīng)的詞權(quán)重,詞頻越高,對(duì)應(yīng)的權(quán)重也就越高;句子的權(quán)重是組成句子單詞的權(quán)重之和。然后從文檔中抽取權(quán)重高的單詞和句子組成摘要,這就是簡單的基于詞頻的文本摘要方法(這個(gè)思路也是很簡單易懂)。其它的還有基于tf-idf的文本摘要算法以及其各種改良版。

基于圖的技術(shù)

基于圖的技術(shù)使用圖來表示文本中的詞語和句子之間的關(guān)系。圖中的節(jié)點(diǎn)表示詞語或句子,邊表示它們之間的關(guān)系。使用圖來表示文本使得可以更好地捕捉到詞語之間的復(fù)雜關(guān)系。這種技術(shù)的缺點(diǎn)是它需要更多的計(jì)算資源和時(shí)間。如:TextRank仿照PageRank,句子作為節(jié)點(diǎn),構(gòu)造無向有權(quán)邊,權(quán)值為句子相似度。

基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的技術(shù)

基于機(jī)器學(xué)習(xí)的技術(shù)使用機(jī)器學(xué)習(xí)算法來確定最相關(guān)的句子或段落。它使用已有的文本作為訓(xùn)練數(shù)據(jù),然后使用這些數(shù)據(jù)來訓(xùn)練模型。訓(xùn)練好的模型可以用來預(yù)測新的文本中最相關(guān)的句子或段落。這種技術(shù)的優(yōu)點(diǎn)是它可以自動(dòng)學(xué)習(xí)文本中的關(guān)鍵信息,但需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源。其中,機(jī)器學(xué)習(xí)使用較為廣泛的有樸素貝葉斯算法、隱馬爾可夫算法、決策樹算法等。而深度學(xué)習(xí)生成式摘要方法是有Seq2Seq、PGN、GPT、BART、T5等模型。

Seq2Seq模型


生成類模型的基本建模思想是語言模型:


這是一個(gè)序列生成過程:每個(gè)time step(時(shí)間步)都在一個(gè)預(yù)先設(shè)定好的固定詞庫中選一個(gè)詞。實(shí)際上,每個(gè)時(shí)間步都在做多分類,我們通過計(jì)算固定詞表中的每個(gè)詞在當(dāng)前條件下出現(xiàn)的概率,來選出當(dāng)前時(shí)間步下應(yīng)該出現(xiàn)的詞。傳統(tǒng)seq2seq + attention語言模型存在的問題:

  • OOV問題:seq2seq模型的輸出只能輸出詞匯表范圍內(nèi)的詞,無法輸出輸入序列中OOV的詞。生成不準(zhǔn)確。

  • 容易產(chǎn)生重復(fù)的內(nèi)容

PGN模型

PGN模型既解決了文本生成過程中的OOV問題,又解決了文本生成過程中重復(fù)生成問題。一方面將Pointer Network與seq-to-seq中的encoder結(jié)合起來,使得生成的結(jié)果中既有seq-to-seq從全部詞典中生成的,也有從源文本中復(fù)制過來的,既可以通過pointing直接從原文中復(fù)制單詞又保留了通過generator生成新詞的能力,同時(shí)也一定程度上解決OOV的問題,還使用coverage機(jī)制來追蹤摘要的部分來避免容易重復(fù)的問題。PGN模型結(jié)構(gòu)如下:


Baseline Seq2seq 部分

encoder:雙向的LSTM,可以捕捉原文本的依賴關(guān)系及位置信息。decoder:單向的LSTM.訓(xùn)練的時(shí)候,decoder t 時(shí)刻的輸入是target中 t - 1 時(shí)刻的詞;測試的時(shí)候,decoder t 時(shí)刻的輸入是 decoder t-1 時(shí)刻的輸出。attention(類似于Luong attention)


h_i 表示的是encoder中第 i 個(gè)詞的hidden_states_t 表示的是decoder中 t 時(shí)刻的hidden_state(其實(shí)是將decoder中l(wèi)stm得到的hidden_state和cell_state拼接在一起)加權(quán)求和后得到 context vector


s_t 與 h_t * 拼接后過兩層線性變換得到詞表 P_vocab 的分布


Pointer network 部分

a_t 和 h_t * 在上一部分已經(jīng)得到,p_gen 為【0,1】


如果source有重復(fù)的詞,會(huì)將重復(fù)詞的得分求和。

Coverage機(jī)制

將先前時(shí)間步的注意力權(quán)重加到一起得到所謂的覆蓋向量 c_t,


如果之前該詞出現(xiàn)過了,那么它的 c_t 就很大,為了減小loss,就需要 ai_t 很小,也就是說給attention之前生成詞的信息,如果之前生成過這些詞那么后續(xù)要抑制。

總結(jié)

文本摘要是NLP領(lǐng)域中一個(gè)非常重要的技術(shù)。通過將長篇文章或文本壓縮為簡短摘要,文本摘要技術(shù)可以幫助人們更快地理解文本內(nèi)容,并快速獲取重要信息。不同的文本摘要技術(shù)各有優(yōu)缺點(diǎn),可以根據(jù)具體需求和場景選擇使用。在實(shí)際應(yīng)用中,文本摘要技術(shù)有許多應(yīng)用場景。例如,在新聞報(bào)道領(lǐng)域,可以使用文本摘要技術(shù)快速生成新聞?wù)?,使讀者可以快速了解新聞內(nèi)容;在市場調(diào)查領(lǐng)域,可以使用文本摘要技術(shù)對(duì)大量用戶反饋進(jìn)行快速分析,提取出關(guān)鍵信息,從而更好地了解市場需求;在醫(yī)學(xué)領(lǐng)域,可以使用文本摘要技術(shù)從海量醫(yī)學(xué)文獻(xiàn)中快速找到相關(guān)研究成果,以幫助醫(yī)生更好地做出診療決策。總的來說,隨著NLP技術(shù)的不斷發(fā)展和進(jìn)步,文本摘要技術(shù)將會(huì)變得越來越普及和成熟。未來,它將在更多領(lǐng)域中得到應(yīng)用,并為人們提供更加高效和準(zhǔn)確的信息處理和分析手段。

想在NLP領(lǐng)域更系統(tǒng)、深入提升的同學(xué),我建議你看下【NLP高級(jí)小班 第十一期】

第十一期,除了繼續(xù)維持上一期的:

  • 五大技術(shù)階段:分別從NLP基礎(chǔ)技能、深度學(xué)習(xí)在NLP中的應(yīng)用、Seq2Seq文本生成、Transformer與預(yù)訓(xùn)練模型、模型優(yōu)化等到新技術(shù)的使用,包括且不限于GPT、對(duì)抗訓(xùn)練、prompt小樣本學(xué)習(xí)等

  • 八大企業(yè)項(xiàng)目:包括機(jī)器翻譯系統(tǒng)、文本摘要系統(tǒng)、知識(shí)圖譜項(xiàng)目、聊天機(jī)器人系統(tǒng),以及基本文本的問答系統(tǒng)、FAQ問答機(jī)器人、文本推薦系統(tǒng)、聊天機(jī)器人中的語義理解

  • 標(biāo)準(zhǔn)流程:環(huán)境配置與特征工程、模型構(gòu)建與迭代優(yōu)化、模型評(píng)估與優(yōu)化上線;

  • 就業(yè)指導(dǎo):就業(yè)部輔助BAT大咖講師做簡歷指導(dǎo)、面試輔導(dǎo)、就業(yè)內(nèi)推。

本期更對(duì)技術(shù)和項(xiàng)目階段做了大力度改進(jìn):

  • 對(duì)于技術(shù)階段,新增文本檢索系統(tǒng)中的關(guān)鍵技術(shù)以及22年年底爆火的ChatGPT原理解析

  • 對(duì)于項(xiàng)目階段,新增第五大企業(yè)級(jí)項(xiàng)目:短文本相關(guān)性語義搜索系統(tǒng)

面向群體:?本課程適合已經(jīng)在做AI的進(jìn)一步在職提升,比如在職上班族跳槽漲薪/升職加薪,采用嚴(yán)格篩選制(通過率不到1/3),需要具備一定的基礎(chǔ)能力才能報(bào)名通過,故以下同學(xué)優(yōu)先:

  • 985或211高校的CS、數(shù)學(xué)理工科相關(guān)專業(yè)的應(yīng)屆或往屆研究生

  • 已有一定的AI在職開發(fā)經(jīng)驗(yàn),如AI崗想在職提升

  • 已有一定的AI項(xiàng)目經(jīng)驗(yàn),如學(xué)過七月在線的機(jī)器學(xué)習(xí)集訓(xùn)營

【NLP高級(jí)小班 第十一期】已開營,放5個(gè)免費(fèi)試聽名額,有意找蘇蘇老師(VX:julyedukefu008?)或七月在線其他老師申請(qǐng)?jiān)嚶犃私庹n程

看完本篇如果對(duì)你有用請(qǐng)三連,你的支持是我持續(xù)輸出的動(dòng)力,感謝,筆芯~

文本摘要技術(shù)概述的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
西宁市| 镇原县| 手游| 汉中市| 隆回县| 读书| 昌宁县| 淳安县| 叶城县| 拉萨市| 和林格尔县| 磐安县| 乾安县| 陆川县| 玉林市| 区。| 板桥市| 九龙县| 邵阳县| 乌兰县| 蓬溪县| 黄陵县| 萨嘎县| 和田市| 新乡市| 紫阳县| 巫山县| 荥经县| 巴青县| 梓潼县| 兴安县| 五家渠市| 义乌市| 牙克石市| 哈尔滨市| 达拉特旗| 昭平县| 若羌县| 明星| 德令哈市| 盱眙县|