最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

COLING 2022 Best Long Paper 解讀!

2023-03-24 08:00 作者:小牛翻譯NiuTrans  | 我要投稿

本文首發(fā)于網(wǎng)站 機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請后臺(tái)詢問哦

作者|許晨、王成龍、穆永譽(yù)

單位|東北大學(xué)自然語言處理實(shí)驗(yàn)室

COLING是國際計(jì)算語言學(xué)會(huì)議,是自然語言處理和計(jì)算語言學(xué)領(lǐng)域的頂級會(huì)議之一,每兩年舉辦一次。2022年的 COLING 大會(huì)于10月12日到10月17日在韓國慶州召開。COLING 2022公布了獲獎(jiǎng)?wù)撐男畔?,其中蘇州大學(xué)的【Fast and Accurate End-to-End Span-based Semantic Role Labeling as Word-based Graph Parsing】被評為最佳論文。

論文題目:Fast and Accurate End-to-End Span-based Semantic Role Labeling as Word-based Graph Parsing

論文機(jī)構(gòu):蘇州大學(xué)

論文作者:周仕林、夏慶榮、李正華、張宇、洪宇、張民

論文鏈接:https://aclanthology.org/2022.coling-1.365.pdf

代碼鏈接:https://github.com/zsLin177/SRL-as-GP

主要貢獻(xiàn):片段語義角色標(biāo)注目前的兩種主流方法分別為:基于BIO序列標(biāo)注的方法和基于片段的圖解析方法。該論文提出一種新的基于詞的圖解析方法,將片段圖解析方法的搜索空間從O(n%5E3)降低到O(n%5E2),從而大幅度提升了模型的訓(xùn)練和解碼效率,且性能超過了前人結(jié)果。

摘要

該論文的出發(fā)點(diǎn)是將端到端基于片段的(span-based)語義角色標(biāo)注(SRL)轉(zhuǎn)換為基于詞的(word-based)圖解析(graph parsing)任務(wù)。其中主要的挑戰(zhàn)是如何在詞級別上表示片段信息。該論文通過借鑒中文分詞(CWS)和命名實(shí)體識(shí)別(NER)的研究成果,提出了四種不同的圖表示方案,即BES、BE、BIES和BII。此外,根據(jù)SRL結(jié)構(gòu)的約束,作者還提出了一個(gè)簡單的約束Viterbi過程,以保證輸出圖的合法性。作者在兩個(gè)廣泛使用的CoNLL05和CONLL12基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,在端到端和謂詞給定的所有設(shè)置下,在沒有和有預(yù)訓(xùn)練語言模型的情況下,該論文提出的基于word的圖解析方法都取得了比以前方法更好的性能。更重要的是,該論文提出的方法推理速度很快,在不使用預(yù)訓(xùn)練模型(PLMs)的情況下,每秒可以解析669個(gè)句子;在使用PLMs的情況下,每秒可以解析252個(gè)句子。

背景介紹

語義角色標(biāo)注是自然語言處理(NLP)中一個(gè)必不可少的任務(wù),它使用謂詞-論元的結(jié)構(gòu)去表示一個(gè)淺層的句子語義。SRL結(jié)構(gòu)能夠幫助解決很多下游NLP任務(wù),比如機(jī)器翻譯和問答。

SRL存在兩個(gè)形式,分別基于詞(word-based)和片段(span-based),劃分依據(jù)取決于一個(gè)論元是包含單個(gè)單詞還是一個(gè)片段。對比基于word的SRL來說,基于span的SRL是更加復(fù)雜的。上圖1也展示了一個(gè)基于span的樣例,語義角色被邊的標(biāo)簽所劃分,比如施事(agent) “A0”和受事(patient) “A1”。

隨著深度學(xué)習(xí)的發(fā)展,尤其是預(yù)訓(xùn)練模型的提出,基于span的SRL近些年也取得了巨大的進(jìn)展,吸引了研究人員們的關(guān)注。該工作主要關(guān)注端到端基于span的SRL任務(wù),并提出了一個(gè)模型可以同時(shí)識(shí)別輸入句子中的謂詞和論元。這里端到端是指一個(gè)句子中所有的謂詞和論元都是通過單個(gè)模型同時(shí)推斷得到的。

基于span的圖解析方法直接把所有的詞片段考慮為候選論元節(jié)點(diǎn),并將他們鏈接到謂詞節(jié)點(diǎn)上。然而,對于一個(gè)句長為n的句子,計(jì)算候選謂詞和候選論元的復(fù)雜度分別為O(n)O(n%5E2),從而導(dǎo)致了一個(gè)非常大的搜索空間O(n%5E3),使得這種方法效率較低。在以往的一些工作,通常使用啟發(fā)式剪枝技術(shù)來提高效率。

針對端到端基于span的 SRL,該論文首次提出了一種基于word的圖解析方法。由于圖網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)只對應(yīng)于單個(gè)單詞,關(guān)鍵的挑戰(zhàn)是如何在基于單詞的圖中表示基于span的論元。一旦解決了這個(gè)問題,就可以在現(xiàn)有的基于單詞的圖解析模型基礎(chǔ)上構(gòu)建解析器。該工作的主要貢獻(xiàn)點(diǎn)如下:

1: 提出了一種新的基于word的圖解析方法,可以用于端到端基于span的SRL。通過簡單的修改,該方法也可以應(yīng)用于謂詞給定的設(shè)置。

2: 借鑒中文分詞(CWS)和命名實(shí)體識(shí)別(NER)的研究思路,作者提出了4個(gè)圖方案,其中BES方案穩(wěn)定優(yōu)于其他方案。

3: 同時(shí),由于圖解析模型可能會(huì)輸出不合法的圖,不能正確地轉(zhuǎn)換為SRL結(jié)構(gòu)。為了解決這一問題,作者提出了一個(gè)簡單的約束Viterbi過程(constrained Viterbi procedure),用于非法圖的后處理。

4: 作者在CoNLL05和CoNLL12基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。在端到端和謂詞給定的所有設(shè)置下,無論是否使用PLMs,該論文提出的方法都能取得比以前方法更好的性能。并且模型推斷速度要快得多,在不使用PLMs和使用PLMs的情況下,每秒分別可以分析669/252個(gè)句子。

方法

1.圖構(gòu)造方案

該工作把端到端基于span的SRL看作是一個(gè)基于word的圖解析任務(wù)。但是所面臨的一個(gè)關(guān)鍵挑戰(zhàn)是需要設(shè)計(jì)一個(gè)合適的圖方案使得在不產(chǎn)生歧義的情況下,讓所有的謂詞和基于span的論元能夠在同一個(gè)圖中被正確表示。并且,這個(gè)圖在沒有性能損失的情況下,也可以被轉(zhuǎn)換成其對應(yīng)SRL結(jié)構(gòu)。方案具體設(shè)計(jì)如下所述。

1.1 SRL-Graph轉(zhuǎn)換

該工作設(shè)計(jì)了四種不同的方案來將基于span的SRL結(jié)構(gòu)轉(zhuǎn)換為基于word的圖。其基本的想法是連接論元的詞語到其對應(yīng)的謂詞,并且標(biāo)記出語義角色標(biāo)簽和詞在論元中的位置。具體來講,該工作在句子的開頭添加一個(gè)偽“Root”節(jié)點(diǎn),并且把所有的謂詞連接到這個(gè)節(jié)點(diǎn),其所構(gòu)造的邊為“PRD”。這樣的設(shè)計(jì)能夠?qū)崿F(xiàn)通過一個(gè)端到端的方式直接預(yù)測謂詞和論元。通過借鑒CWS和NER的思想,該工作提出兩種論元到其對應(yīng)謂詞的策略:boundary-attach和all-attach。boundary-attach表示僅僅連接論元開頭和結(jié)尾的詞語到對應(yīng)的的謂詞上。而all-attach表示連接論元中所有的單詞到其對應(yīng)謂詞。該工作又分別為這兩種策略設(shè)計(jì)了兩個(gè)連接的方案,對應(yīng)如下:

Boundary-attach:BES和BE

如上圖所示,對應(yīng)了該工作所設(shè)計(jì)的boundary-attach的兩種方案BES和BE,分別為紅色和藍(lán)色。當(dāng)論元包含多個(gè)單詞的時(shí)候,兩種方案均只需要把論元的開頭和結(jié)尾的單詞連接到對應(yīng)謂詞,并使用“B-r”和“E-r”作為對應(yīng)的邊標(biāo)簽,其中r表示這個(gè)原始的語義角色標(biāo)簽。

當(dāng)論元只有一個(gè)單詞的時(shí)候, BE方案僅僅使用“B-r”作為標(biāo)簽。而為了區(qū)分論元包含多個(gè)詞和單個(gè)詞的情況,BES方案使用額外的“S-r”作為標(biāo)簽。

All-attach: BIES 和 BII

如上圖所示,對應(yīng)了該工作所設(shè)計(jì)的all-attach的兩種方案BIES和BII,分別為紅色和藍(lán)色。在這個(gè)BII方案中,第一次詞被標(biāo)記為“B-r”,然后后面的詞語被標(biāo)記為“I-r”。對于BIES方案,其開頭詞語和結(jié)尾詞語的標(biāo)記方法和BES類似,仍為“B-r”和“E-r”,中間的單詞被標(biāo)記為“I-r”。

1.2 SPL-Graph恢復(fù)

在評估階段,輸入一個(gè)句子,圖解析模型根據(jù)選擇的方案,輸出一個(gè)最優(yōu)的圖。這之后的主要工作是如何將這個(gè)圖恢復(fù)到對應(yīng)的SRL結(jié)構(gòu)。

假如該輸出的圖是沒有標(biāo)簽沖突的,那么可以直接進(jìn)行恢復(fù)。比如對應(yīng)BES方案,圖中“Root”節(jié)點(diǎn)的全部孩子節(jié)點(diǎn)(word)可以被認(rèn)為是謂詞。然后對應(yīng)每一個(gè)謂詞,使用邊標(biāo)注來恢復(fù)所有其對應(yīng)的論元。一個(gè)論元對應(yīng)成對的標(biāo)簽,比如“B-A0”和“E-A0”,或者是一個(gè)單獨(dú)的標(biāo)簽,比如“S-A0”。

但是在實(shí)際過程中,保證被輸出圖的合法性是非常困難的,往往并不能直接根據(jù)上述的規(guī)則將圖恢復(fù)為SRL結(jié)構(gòu)。為了解決這個(gè)問題,該工作基于一個(gè)受約束的Viterbi解碼方法提出了一個(gè)簡單并且高效的后處理方法,具體描述在章節(jié)3.3中。

2.模型
基于上面提出的方案,我們可以將基于span的作為基于word的圖解析任務(wù)進(jìn)行處理。該論文的模型框架包括兩個(gè)階段: 1)預(yù)測所有邊 2)為邊分配標(biāo)簽。

2.1 編碼器

雙向LSTM:模型的輸入單詞w_i是由三部分組成,

從左至右依次是詞向量、引理向量(lemma embedding)和char LSTM表示向量。將x_i送入三層BiLSTM編碼器中,計(jì)算得到每個(gè)單詞的表示h_i

預(yù)訓(xùn)練模型:該論文也嘗試分別使用ELMo和BERT兩個(gè)預(yù)訓(xùn)練模型作為編碼器。其中,使用ELMo三層輸出的和作為表示h_i,使用BERT最后四層輸出的和作為表示h_i。

2.2 邊預(yù)測

在語義依存圖解析(SDGP)中,邊的預(yù)測問題被看作是0/1的二分類問題。這里的1代表在給定的單詞對之間存在一條邊,0則代表給定的單詞對之間不存在邊。當(dāng)計(jì)算得到的存在邊的概率大于0.5時(shí),就認(rèn)為兩個(gè)單詞之間存在邊。

對于該論文提出的方法來說,僅僅使用一階子樹是不夠的,原因在于一階模型做了強(qiáng)假設(shè),即邊是相互獨(dú)立的,因此在計(jì)算logits的時(shí)候只需要關(guān)注當(dāng)前兩個(gè)單詞之間的信息。然而,在該論文的例子中,圖中的邊通常具有很強(qiáng)的相關(guān)性。例如,在BE方案中,一條“B-* ”的邊通常調(diào)用一條“E-* ”的邊,反之亦然,以形成一個(gè)完整的論元。所以該論文通過增加二階子樹的三種情況將模型從一階擴(kuò)展至二階。該論文使用MFVI(mean field variational inference,平均場變分推斷)來計(jì)算logits。(注:這部分內(nèi)容讀者可以參考論文《Second-order semantic dependency parsing with end-to-end neural networks》(https://arxiv.org/pdf/1906.07880.pdf));一階、二階子樹參考下圖例子。

(圖片源自【王新宇 - Second-Order Semantic Dependency Parsing with End-to-End Neural Networks】 https://www.bilibili.com/video/BV1bE411f7b9))

logits的計(jì)算分成兩部分:第一部分是一階分?jǐn)?shù)s(i,j),使用兩個(gè)MLP和BiAffine計(jì)算得到。第二部分是二階分?jǐn)?shù),使用三個(gè)MLP和TriAffine計(jì)算得到。如下圖所示。

有了一階和二階分?jǐn)?shù)之后,再使用MFVI方法迭代聚合得到最終的logit_%7Bij%7D%5ETQ_%7Bij%7D%5ET%20(注:MFVI的迭代計(jì)算過程可以參考這個(gè)視頻(https://www.bilibili.com/video/BV1bE411f7b9))

2.3 標(biāo)簽預(yù)測

類似于計(jì)算邊的分?jǐn)?shù),該論文使用兩個(gè)MLP和多個(gè)BiAffine來計(jì)算標(biāo)簽分?jǐn)?shù)。每一個(gè)標(biāo)簽的分?jǐn)?shù)都由一個(gè)獨(dú)立的BiAffine計(jì)算得到。

2.4 模型訓(xùn)練

整個(gè)模型的損失由邊預(yù)測和標(biāo)簽預(yù)測兩個(gè)模塊組成,如下所示.給定一句話X和對應(yīng)的真實(shí)答案圖G,C代表X全連接的圖,C\G代表不正確的邊的集合。第一個(gè)公式計(jì)算邊預(yù)測的損失,其含義為讓模型預(yù)測出正確邊概率更大的同時(shí),讓模型預(yù)測錯(cuò)誤的邊的概率更小。第二個(gè)公式計(jì)算標(biāo)簽預(yù)測的損失。

最后,對兩個(gè)損失通過超參λ加權(quán),這里λ = 0.06。

3.沖突消除

在使用圖解析模型預(yù)測出結(jié)果后,該工作使用一個(gè)簡單的過程檢查是否生成圖是合法的。具體操作為,對于每一個(gè)謂詞,首先掃描這個(gè)謂詞的所有邊從左到右。例如,在這個(gè)BES方案下,一個(gè)“B-* ”邊后面必須是一個(gè)“E-* ”邊;“S-* ”邊和“E-* ”后面可以是一個(gè)“B-* ”邊,或者是一個(gè)“S-* ”邊。假如該生成圖是合法的,可以直接使用前面章節(jié)中所描述的過程將其恢復(fù)成一個(gè)SRL結(jié)構(gòu)。

然而,在實(shí)際中,所生成圖有可能會(huì)包含沖突。如上圖所示的一個(gè)例子,紅色的邊包含了沖突關(guān)系。如果兩條邊都被標(biāo)記為“E-* ”,其將不可能恢復(fù)為相應(yīng)的論元。另外一個(gè)沖突為,僅僅存在一個(gè)單獨(dú)的邊標(biāo)記“B-* ”或“E-* ”,比如上圖中的“E-A1”。

約束 Viterbi

該工作使用一個(gè)約束解碼方法來解決對應(yīng)的沖突。在恢復(fù)一個(gè)論元的過程中,如果發(fā)生沖突,則重新標(biāo)記句子中所有的謂詞。但是,將約束Viterbi應(yīng)用于SDGP框架中并不簡單。

拿BES方案舉例來說(其他方案對應(yīng)的處理過程也是類似的),在第一階段中,Q_%7Bij%7D%5ET%20表示這個(gè)該邊在最終圖中存在的概率;但是在第二階段中,p(%E2%84%93%7Ci%2Cj)表示這個(gè)邊被標(biāo)記為%E2%84%93%E2%88%88%F0%9D%93%9B={B??,E??,S??}的概率??梢钥闯??沒有包含“I”和“O”,二者分別表示這個(gè)詞分別在一個(gè)論元或者不在任何論元中,在這個(gè)序列標(biāo)注過程中它們是不可缺少的。

為了解決該問題,該工作添加兩個(gè)偽標(biāo)簽“O/I”到標(biāo)簽集合中,并重新分配標(biāo)簽的概率分布:

這里,p'(%E2%84%93%7Ci%2Cj)是類似“B-A0”這些標(biāo)準(zhǔn)標(biāo)簽的概率。由于“O”和“I”意味著沒有邊指向這個(gè)詞,所以p'(O%7Ci%2Cj)p'(I%7Ci%2Cj)的概率相同,但是“I”有一個(gè)額外的含義:左邊有一個(gè)不成對的“B-*”。因此,可以通過控制轉(zhuǎn)換矩陣來解決沖突。

如上圖,不允許從“E-* ”到“E-* ”的轉(zhuǎn)換。所以上述例子中的“Some”和“students”的標(biāo)簽要重新進(jìn)行標(biāo)記為“B-A0”和“E-A0”。最終,得到了語義角色為“A0”的論元span“Some students”。

實(shí)驗(yàn)

該論文在CoNLL05和CoNLL12兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。作者首先在CoNLL05數(shù)據(jù)集上面測試了四種構(gòu)建方案。結(jié)果如下表所示,從整體上來看,我們可以得到結(jié)論:BES > BE > BIES > BII。

如下圖所示,作者根據(jù)論元的寬度將論元分為四類,給出了每個(gè)類別在真實(shí)答案數(shù)據(jù)中的比例,并報(bào)告每一類的F1值。首先,可以看到BES和BIES在1-width論元上要好得多。這表明,用“S-r”單獨(dú)表示寬度為1的論元是必要的。然后,可以發(fā)現(xiàn)BE和BES在包含多個(gè)單詞的論元上比BII和BIES表現(xiàn)更好。我們知道BE和BES是邊界附加策略的結(jié)果,它更關(guān)注邊界信息。因此,可以得出結(jié)論,邊界信息對多詞論元的識(shí)別更有幫助。

同時(shí),作者還測試了該論文所提方法與其他方法推理速度的對比,結(jié)果如下表所示。該論文所提出的方法相比之前基于span的SRL模型,推理效率得到大幅度提高。

最后,作者還將該論文的方法分別在CoNLL05和CoNLL12兩個(gè)數(shù)據(jù)集上面與其他同類型方法進(jìn)行對比。結(jié)果如下表所示。

總結(jié)

該論文提出了四種新的圖表示方案,用于將原始的基于span的SRL結(jié)構(gòu)轉(zhuǎn)換為基于word的圖?;诖朔桨福撜撐膶⒒趕pan的SRL轉(zhuǎn)換為一個(gè)基于word的圖解析任務(wù),并得到了一個(gè)更快更準(zhǔn)的解析器。此外,作者還提出了一種簡單的基于約束Viterbi的后處理方法來處理輸出圖中的沖突。實(shí)驗(yàn)表明,該論文提出的解析器:1)相比之前的解析器效率大幅度提高,每秒可以解析600多個(gè)句子;2)在CoNLL05和CoNLL12數(shù)據(jù)集上的性能始終優(yōu)于之前的結(jié)果。對四種方案的深入對比表明,邊界信息在識(shí)別論元時(shí)起著重要作用。此外,區(qū)分單詞論元和多詞論元也可以提高最終的性能。這些發(fā)現(xiàn)可能有助于研究人員在未來從新的角度思考SRL。


致謝:感謝蘇州大學(xué)李正華、周仕林為本文提出修改建議。


hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)

筆芯~

往期精彩文章


COLING 2022 Best Long Paper 解讀!的評論 (共 條)

分享到微博請遵守國家法律
车险| 昭通市| 彩票| 太保市| 重庆市| 福州市| 安阳市| 玉林市| 屏边| 屏东县| 寻甸| 临洮县| 扬州市| 兴海县| 革吉县| 安化县| 淮安市| 交口县| 上蔡县| 池州市| 涡阳县| 吉木萨尔县| 饶河县| 晴隆县| 根河市| 绍兴市| 玉门市| 英山县| 泰安市| 江永县| 彭州市| 靖州| 怀远县| 甘孜县| 丰原市| 邵武市| 鲜城| 蕉岭县| 山西省| 探索| 兴安县|