手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 不同的表達可能會引發(fā)讀者不同的想法，可以通過模型自動模擬這種語言“偏見”

不同的表達可能會引發(fā)讀者不同的想法，可以通過模型自動模擬這種語言“偏見”

2023-04-05 08:00 作者:小牛翻譯NiuTrans 0人讀過 | 我要投稿

本文首發(fā)于網(wǎng)站?機器翻譯學(xué)堂

轉(zhuǎn)載事宜請后臺詢問哦

譯者|劉曉倩、穆永譽、劉新宇

單位|東北大學(xué)自然語言處理實驗室

AACL 2022將于11月20日至23日在線舉行，AACL 會議是 ACL 的亞太分會，每兩年舉辦一次。旨在為亞太地區(qū)的計算語言學(xué)協(xié)會(ACL)成員組織年度會議，促進相關(guān)科學(xué)和專業(yè)協(xié)會之間的合作和信息交流。

大會公布了3篇論文獎項，其中荷蘭格羅寧根大學(xué)和意大利帕維亞大學(xué)的【Dead or Murdered? Predicting Responsibility Perception in Femicide News Reports】獲得最佳論文獎。

論文題目：Dead or Murdered? Predicting Responsibility Perception in Femicide News Reports

論文機構(gòu)：荷蘭格羅寧根大學(xué)和意大利帕維亞大學(xué)

論文作者：Gosse Minnema, Sara Gemelli, Chiara Zanchi, Tommaso Caselli, Malvina Nissim

論文鏈接：https://arxiv.org/abs/2209.12030

主要貢獻

論文詳細分析了意大利關(guān)于GBV的新聞報道中人類的責(zé)任觀念，證明了特定語法結(jié)構(gòu)和語義框架的會引發(fā)不同的責(zé)任認知，并且可以被自動建模。

摘要

不同的語言表達可以通過強調(diào)某些部分從不同的角度來概念化同一事件。該論文調(diào)查了一個具有社會后果的案例：基于性別的暴力（GBV）的語言表達如何影響責(zé)任認知。文章建立在這一領(lǐng)域先前的心理語言學(xué)研究的基礎(chǔ)上，并對從意大利報紙的語料庫中自動提取的GBV描述進行了大規(guī)模的感知調(diào)查。然后，訓(xùn)練回歸模型，預(yù)測GBV參與者對不同的感知責(zé)任維度的顯著性。文章最好的模型（微調(diào)后的BERT）顯示了穩(wěn)健的整體表現(xiàn)，在維度和參與者之間有很大的差異：顯著的關(guān)注比顯著的指責(zé)更可預(yù)測，犯罪者的顯著性比受害者的顯著性更可預(yù)測。使用不同表示的嶺回歸模型的實驗表明，基于語言學(xué)理論的特征與基于單詞的特征相似。文章表明不同的語言選擇確實會引發(fā)不同的責(zé)任認知，而且這種感知可以自動建模。這項工作可以成為提高公眾和新聞制作人對不同視角所產(chǎn)生的后果認識的核心工具。

簡介及背景

同樣的事件可以用許多不同的方式來描述，這取決于報告者和他們所做的選擇。通過選擇一些特定的詞，可以為讀者提供一個關(guān)于發(fā)生了什么的具體視角。

一篇新聞的寫作方式，嚴重影響了讀者感知所描述事件中責(zé)任歸因的方式。

圖1：“騎自行車的人撞上車門”
圖1：“汽車司機打開車門撞到騎自行車的人”
圖1：“騎自行車的人在第五街的交通事故中受傷”
圖1：“自行車和汽車的碰撞”

使用不同的標題來說明當(dāng)相同的事件從不同的角度的描述時，可以導(dǎo)致不同的對參與者責(zé)任歸屬的看法。

圖1說明了如何從不同的角度報告同一事件其方式確實會影響對參與者責(zé)任的感知。文章研究在基于性別的暴力（GBV）這一社會相關(guān)現(xiàn)象的背景下，使用NLP工具來解開責(zé)任歸因。針對婦女的暴力行為是令人擔(dān)憂的普遍現(xiàn)象，因此經(jīng)常在新聞中被報道。

Pinelli和Zanchi在意大利新聞中觀察到，在對殺害女性的描述中，具有不同及物性水平的句法結(jié)構(gòu)——也就是及物主動結(jié)構(gòu)，到被動和反使役結(jié)構(gòu)，對應(yīng)于歸因于（男性）犯罪者的不同程度的響應(yīng)性。

例如，當(dāng)“he killed her（他殺了她）”（主動/及物）完全明確表達了主動行為者的參與，但“she was killed (by him)她是（被他）殺死的”（被動），這種表達方式就將注意力從主動行為者上轉(zhuǎn)移開來；再比如“themurder（謀殺）”或者是“the event（事件）”的表達方式，就將重點從兩個參與者轉(zhuǎn)移到事件的背景中。

在一篇相關(guān)的文章中，Meluzzi等人通過對意大利語中人工構(gòu)建的GBV報告的調(diào)查，研究了論證結(jié)構(gòu)構(gòu)建對責(zé)任歸因的影響。他們的研究結(jié)果進一步證實了Pinelli和Zanchi關(guān)于讀者對犯罪者和受害者的能動性和責(zé)任影響的發(fā)現(xiàn)。這兩項研究的結(jié)果與之前的心理語言學(xué)研究結(jié)果一致，表明在任何層面上涉及暴力的事件中，行為人的語言背景阻礙了他們的責(zé)任，并促進了對受害者的指責(zé)。

基于這樣的框架選擇，普通讀者將如何看待所描述的事件？我們能自動模擬這種感知嗎？

本文回答上述問題，仍然基于意大利新聞中對殺害女性的描述，并利用框架語義作為一種理論和實踐工具，以及最新的NLP方法。

使用特定的預(yù)先選擇的語義框架，使用最先進的語義解析器自動提取，文章從意大利報紙中識別出對GBV事件的描述，通過大規(guī)模的調(diào)查來收集人類的判斷，要求參與者閱讀文本，并將一定程度的責(zé)任歸屬于犯罪者、受害者，或一些更抽象的概念（例如，“嫉妒”、“憤怒”）。更多細節(jié)見2。

文章開發(fā)一系列回歸模型（從頭開始以及預(yù)先訓(xùn)練的transformer模型），利用從表面到框架的各種語言線索來自動建模責(zé)任感知。模型的訓(xùn)練目標是預(yù)測人類的感知分數(shù)。文章實現(xiàn)了與基于Transformer model的模型的強相關(guān)性。調(diào)查和結(jié)果分析的細粒度特征也允許各個方面的預(yù)測復(fù)雜性的差異。第3節(jié)中討論建模和評價。

結(jié)果表明，不同的語言選擇確實觸發(fā)了不同的責(zé)任感知，而且這種感知可以自動建模。這一發(fā)現(xiàn)不僅證實了以前（人工）在小規(guī)模上進行的研究，而且也為文本進行大規(guī)模分析及其效果提供了可能。

構(gòu)建【謀害女性感知數(shù)據(jù)集】

為了構(gòu)建這個數(shù)據(jù)集，作者采用眾包的方式，設(shè)計了一個在線的問卷調(diào)研。具體來說，作者收集了關(guān)于2015至2017年間，意大利發(fā)生的937起殺害女性案件的新聞報道，從中抽取句子展示給眾包人員并要求其對句子所表達的責(zé)任程度進行打分。問卷結(jié)果表明，語義信息和句法結(jié)構(gòu)明顯影響讀者對“謀害女性事件”的看法。下面將詳細說明作者如何設(shè)計調(diào)研問題。

1.問題設(shè)定

對案件采取不同的描述方式，會導(dǎo)致讀者對“案件參與者應(yīng)承擔(dān)多大責(zé)任？”這一問題產(chǎn)生不同的看法。作者首先將“責(zé)任”這一復(fù)雜的概念拆解成三個維度：

- FOCUS：句子關(guān)注的是否是加害人？

- CAUSE：句子所描述的事件是否主要由人引起？

- BLAME：句子是否將責(zé)任歸咎于加害人？

表1用人工構(gòu)造的句子展示了這三個維度的區(qū)別。針對上述三個問題，表中+、-、±代表句子可能如何被讀者解讀。例如，第一、第二個句子都更加關(guān)注兇手（FOCUS +）并且強調(diào)他的行為致使案件發(fā)生（CAUSE +），但是第二句話將兇手描述為“被嫉妒蒙蔽了雙眼”，暗示兇手不必為其行為承擔(dān)全部責(zé)任（BLAME ±）。注意讀者的看法本質(zhì)上是主觀的，因此這些例子不該被視為任何形式的“黃金準則”。

為了正確判斷讀者認為兇手應(yīng)承擔(dān)責(zé)任的程度，作者還分別針對victim（受害人）、object（如武器）、concept（抽象概念）、emotion（如嫉妒）或nothing（不追究）設(shè)計了上述三個維度的問題。作者要求眾包人員按照五分制對每一類問題進行打分，參與者也可以認為句子與謀殺案無關(guān)直接跳過它。根據(jù)試點實驗的初步結(jié)果，作者對每個類別的問題做了些輕微的調(diào)整：例如因為句子總是關(guān)注某事（FOCUS），所以省略了FOCUS中的none類別，等等。表2展示了完整的調(diào)研問題。

3.2 句子選擇

交給眾包人員進行評分的句子分兩步選出：首先使用LOME解析器自動抽取語義信息，這些信息與SpaCy自動依賴解析工具結(jié)合，對句法結(jié)構(gòu)進行分類。例如，“he murdered her”將被分類為“KILLING/active”，代表“殺人”的語義和主動的句法表達；“she died”被分類為“DEATH/intransitive”；“the tragedy”被分類為“CATASTROPHE/nonverbal”。第二步，作者設(shè)計了在不同程度上強調(diào)謀殺案件的典型語義集合，并在至少包含一個典型語義的句子中進行隨機采樣。具體來講，作者使用FrameNet框架手動注釋Pinelli和Zanchi中的例句，并選擇那些表述“受害者死亡事件”詞語（如killed、died、dead、incident等）的語義來構(gòu)造典型語義集。最終得到的語義集合為{KILLING，DEATH，DEAD_OR_ALIVE，EVENT，CATASTROPHE}，所有語義都可以用來描述完全相同的事件，只是具有不同的動態(tài)性(已經(jīng)死亡或者將要死亡)、能動性(兇手殺人或者受害人死亡)和普遍性(某人死亡或者某事發(fā)生)。作者使用這種方法為每一個“語義信息/句法結(jié)構(gòu)”類別采樣了相同數(shù)目的句子。

3.3 眾包實現(xiàn)細節(jié)

作者考慮到眾包人員分析復(fù)雜句子的認知負荷，以及閱讀一個主題沉重且痛苦的文本的情感負荷，每個參與人員只需在一組句子（50句）的三個維度之一上打分。為了平衡“每句話注釋的數(shù)量”和“注釋的總句子數(shù)”，作者為每句話每個維度安排10個眾包人員。這意味著完整的注釋一組句子需要30個眾包人員。

為了在事先不知道反饋率（眾包人員質(zhì)量）的情況下，將眾包人員均勻的分配在每組句子和每個維度之間，作者創(chuàng)建了60個眾包小組（注釋20組句子，每組50句，因此共1000個句子且每個句子三個維度）并將參與者分配到滾動的小組中：每次開放一個組，一旦達到要求的參與者數(shù)量小組就會自動關(guān)閉，然后打開下一個組。一旦一個組被填滿就手動檢查響應(yīng)的完整性和質(zhì)量。由于標注任務(wù)的主觀性，注釋沒有錯誤的回答，作者設(shè)定如果注釋至少滿足以下三個標準中的一個，則認為其質(zhì)量較低：（i）參與者完成問卷的速度快得令人難以置信；（ii）參與者連續(xù)將句子標記為不相關(guān)并跳過；（iii）參與者總是給每句話同樣的評分；作者在意大利幾所大學(xué)不同專業(yè)的本科和碩士學(xué)生中分發(fā)調(diào)查平臺的鏈接，并匿名收集回答，僅要求參與者說明他們的性別、年齡和職業(yè)。

3.4 結(jié)果

作者最終的數(shù)據(jù)集涵蓋了400個句子，共有240名參與者對其進行了評級（153名女性，86名男性，1名非二元性別；平均年齡23.4）。表3給出了跨句子的評價得分匯總。作者給出了所有參與者和所有句子的平均分（綠色部分，在0~5的范圍內(nèi)），以及句子間平均分的標準差?？偟膩碚f，對應(yīng)于行兇者的屬性往往有更高的平均分，但方差也比其他屬性更高。由于任務(wù)固有的主觀性，并且結(jié)果與之前關(guān)于感知規(guī)范的研究一致，作者沒有計算注釋者之間的一致性分數(shù)。

表4按語義信息和句法結(jié)構(gòu)劃分，顯示了FOCUS問題的平均得分。這顯示出了顯著的效果：包含KILLING語義的句子傾向于將更高的FOCUS放在兇手身上，當(dāng)使用主動結(jié)構(gòu)時更是如此。同時，在主動或被動結(jié)構(gòu)中包含CATASTROPHE, DEAD_OR_ALIVE、DEATH和KILLING語義，會增加受害者的FOCUS。另一方面，object的FOCUS得分上沒有顯著差異，concept或emotion的FOCUS得分上有顯著但較小的差異。在每一種情況下，研究結(jié)果都符合作者基于語言學(xué)理論的預(yù)期：如果一個事件參與者在謂詞中進行了詞匯編碼，并且需要在語法上進行表達，那么這個參與者更有可能被認為處于關(guān)注狀態(tài)?；诰渥拥膬?nèi)容，以及在詞匯上編碼了受害者或殺手的幾個典型語義（如KILLING），人們會更多地關(guān)注兇手和受害者，而無生命的concept或emotion是非必要的。

感知分數(shù)預(yù)測

在本文中，作者將該任務(wù)建模為一個多輸出回歸任務(wù)：給定一個句子，作者希望預(yù)測一個感知向量，其中該向量每一維代表問卷中一個特定的Likert維的值。

4.1 參與者聚合

作者首先對每句話和每個參與者的感知值計算z-score（也叫標準分數(shù)，是一個數(shù)與平均數(shù)的差再除以標準差的過程。在統(tǒng)計學(xué)中，標準分數(shù)是一個觀測或數(shù)據(jù)點的值高于被觀測值或測量值的平均值的標準偏差的符號數(shù)。），然后取參與者的平均值。分別計算每個Likert維度和參與者的z-score，以考慮兩種類型的變異性：

1）維度內(nèi)偏好，指的是不同的參與者對分數(shù)范圍的不同使用：根據(jù)自信程度和其他因素，參與者可能會選擇大量使用范圍的端點(例如，經(jīng)常分配“0”或“5”)或集中在范圍的特定部分(例如，在中心附近或靠近高點或低點)。

2）維度間偏好，指的是參與者總是傾向于給特定維度分配更高或更低的分數(shù)的可能性。例如，一些參與者可能總是給“blame on the murderer”和“blame on the victim”更高的分數(shù)。

通過對z-score的感知值進行回歸，作者希望模型預(yù)測出句子中是否存在明顯偏見(例如，這個句子是否將高于平均水平的責(zé)任推給了受害者?對兇手的關(guān)注低于平均水平?)

4.2 評價方法

作者從多個角度對此多輸出回歸問題進行評價。

1）Root Mean Squared Error (均方根誤差，RMSE)和\{R^2}（均方誤差），它估計了由回歸模型解釋的感知分數(shù)變化的比例。作者分別計算了每一個維度和維度平均值的\{R^2}。

2）Cosine (余弦相似度，COS)，它度量了答案和預(yù)測結(jié)果之間的余弦相似度，并提供在映射中保存維度之間關(guān)系的程度的估計。

3）Most Salient Attribute (MSA)，作者將回歸評估為預(yù)測哪個Likert維度對每個問題具有最高(z-score)感知值的分類任務(wù)的準確性(實現(xiàn)為簡單地計算argmax對每個問題對應(yīng)的輸出維度)。例如，對于一個特定的句子，“concept”是責(zé)備問題得分最高的維度，這意味著“blame on a concept”在這個句子中比其他句子更突出。注意，每個維度的z-score是獨立計算的，因此，具有最高z-score的維度不一定也具有最高的絕對值。類似于給特定維度分配更高或更低分數(shù)的風(fēng)險，在這種情況下，參與者在指責(zé)問題上給“殺人犯”的分可能比“concept”多，即使在“concept”非常突出的句子中也是如此。在這種情況下，“concept”的絕對值總是比“murderer”低，但在“concept”得分相對較高、“murderer”得分相對較低的句子中，“concept”的z-score可能會更高。

4.3 模型

作者比較了兩種模型，分別是嶺回歸模型（一種使用L2正則的線性回歸模型）和預(yù)訓(xùn)練transformer模型。前者在不同類型的輸入特征上面進行訓(xùn)練，后者則經(jīng)過微調(diào)后回歸預(yù)測多輸出。

特征（用作嶺回歸模型的輸入）

特征分為三類：

1）表面特征：代表輸入句子的詞法級別的特征，分別使用bag-of-words (bow)模型和FastText (ft)模型的輸出特征。

2）框架語義特征：通過frame semantic parser配合bow模型得到的在語義級別上略高于表面特征的表示，包括f1、f2、f1+、f2+。

3）句子特征：transformer模型產(chǎn)生的句子級別的表示，分別使用了SentenceBERT (sb)、XLM-R、BERT-IT Mean (bm) 和 XLM-R Mean (xm)提取特征。

預(yù)訓(xùn)練transformer模型

作者在預(yù)訓(xùn)練transformer編碼器的后面接上了有一個簡單的線性層構(gòu)成的神經(jīng)回歸模型。作者分別實驗了不同的BERT變體。包括Italian BERT XXL Base (BERT-IT)、BERTino、Multilingual BERT Base、Multilingual DistilBERT、XLM-RoBERTa Base。

4.4 結(jié)果

表5顯示了RMSE、COS和\{R^2}指標測試集的主要結(jié)果。作者列出如下觀察結(jié)論：

經(jīng)過微調(diào)的單語BERT模型在所有測試中表現(xiàn)最好，其總體\{R^2}分數(shù)約為0.45，這意味著模型成功預(yù)測了感知分數(shù)中近一半的方差。
多語言BERT模型(mBERT和XLM-R)的表現(xiàn)均較差，平均\{R^2}為0.38或更低。
有趣的是，普通的蒸餾版BERT對比原始BERT性能有所下降，但意大利語版蒸餾的BERT（BERTino）的性能沒有下降，甚至比原始模型略好。
\{R^2}的下降并不總是與余弦分數(shù)的下降一致：例如，XLM-R分數(shù)比BERT-IT/base低0.06 \{R^2}分，但余弦分數(shù)只下降0.01，而mBERT/dist在\{R^2}上損失0.10分，在COS上損失0.09分。因此，似乎有些模型(如XLM-R)在預(yù)測每個異常得分的確切大小方面不太準確，但在捕捉跨維度的總體得分模式方面相對較好。

另外，雖然嶺回歸模型的表現(xiàn)比transformer差很多，但比較不同特征之間的結(jié)果對于理解預(yù)測感知需要什么信息是有幫助的：

基于表面和框架特征的回歸模型表現(xiàn)相似，\{R^2}分數(shù)在0.20左右(f2為負離群值)，而具有神經(jīng)特征的模型更好(\{R^2} 0.28-0.33)。
對于那些基于transformer提取得到的特征訓(xùn)練的脊模型，作者發(fā)現(xiàn)意大利語版本的BERT (bm)的平均最后一層表示的結(jié)果最好，而基于XLM-R (sb和xm)的兩種模型得分略低。

通過比較不同問題和屬性的\{R^2}分數(shù)，還可以發(fā)現(xiàn)預(yù)測難度的巨大差異:

例如，在各個模型中，blame on murderer得到了很好的分數(shù)，而blame on victim的分數(shù)相對較低，即使是最強的模型(例如BERTino的0.24)，而在基線(或更低)分數(shù)較弱的模型——特別是蒸餾mBERT，它在其他屬性上表現(xiàn)不錯。
Caused by no-one 是最難預(yù)測的，沒有模型得分在0.10以上。
Focus問題具有總體上最好和最一致的性能，特別是對于意大利語版本的BERT模型，對于四個屬性中的每一個都實現(xiàn)了不錯的性能(0.46- 0.66 \{R^2})。

這種模式也反映在MSA中(表6):對于focus類別，它基本上更容易預(yù)測的維度與最高的得分比Blame和Cause。然而，對于每個問題，所有模型的表現(xiàn)都好于概率水平，其中BERTino的綜合得分最高(56-72%)。

在嶺回歸模型中，相對于基于表面特征的模型，基于BERT特征的模型的性能增益（BERT特征比表面特征的增益）在屬性之間有很大差異。例如，bow模型有一個令人驚訝的高得分的指責(zé)殺人犯(\{R^2} 0.49)，只有適度的收益從BERT-IT 和 BERTino模型(resp.+0.06和+0.12分)。相比之下，bow在專注概念上得分較低(\{R^2} 0.13)，而BERT-IT和BERTino得分較高(\{R^2} 0.63/0.64)。

為了進一步了解模型之間的差異，作者進行了特征歸因分析。blame on murderer 和 focus on concept的結(jié)果如表7所示。對于殺人犯的責(zé)任，三種模型似乎都聚焦于相似的詞匯項：例如，“uccide”(“(he) kills”)在脊回歸和微調(diào)BERTino模型中都有很高的正歸因值，在f1+中作者發(fā)現(xiàn)KILLING框架的正歸因值，這是對殺人相關(guān)詞匯的抽象。

作者還發(fā)現(xiàn)，個人關(guān)系(‘wife’, ‘ex’, PER-SONAL_RELATIONSHIP )在所有三種模型中都得到了積極的歸因。相比之下，作者發(fā)現(xiàn)了“accaduto”(“happened”)的負歸因值以及bow和f1中相應(yīng)的EVENT框架，這與§2.4中討論的觀察結(jié)果完全吻合。由于對概念的關(guān)注，三種模型之間沒有明顯的深刻區(qū)別。

作者確實在每個模型中發(fā)現(xiàn)了幾個直觀的相關(guān)特征:"passionale"("out of passion")和"femminicidio"("femicide")可以測試句子可以聚焦的概念的集合，而"omicida"("murderer/murderous’")和"killer"可以被視為強調(diào)人類主體的作用，而不是一個抽象的概念。