最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

NLP 論文領(lǐng)讀|合成數(shù)據(jù)的妙用:低成本構(gòu)建高質(zhì)量的大規(guī)模平行語料

2022-06-16 10:16 作者:瀾舟孟子開源社區(qū)  | 我要投稿

數(shù)據(jù)作為目前人工智能的核心之一,其數(shù)量和質(zhì)量對(duì)于一個(gè)模型最終的性能有著近乎決定性的作用。對(duì)機(jī)器翻譯任務(wù)來說,這一點(diǎn)一樣成立。但人工構(gòu)建高質(zhì)量平行數(shù)據(jù)是一件成本巨大的事情,且?guī)缀醪豢赡軡M足目前神經(jīng)機(jī)器翻譯對(duì)數(shù)據(jù)量的需求。因此人們退而求其次,嘗試通過自動(dòng)構(gòu)建平行數(shù)據(jù)的技術(shù),低成本地構(gòu)建大規(guī)模平行數(shù)據(jù)。目前常用的方法主要包括數(shù)據(jù)挖掘技術(shù)[1]和數(shù)據(jù)增強(qiáng)技術(shù)[2],其中數(shù)據(jù)挖掘技術(shù)主要通過語義表示相似度(如句向量的余弦距離),從各自的單語語料中挖掘潛在的平行數(shù)據(jù);數(shù)據(jù)增強(qiáng)技術(shù)通常使用已有翻譯模型對(duì)單語語料進(jìn)行生成,得到合成平行數(shù)據(jù)。

今天我們要介紹的工作來自于馬里蘭大學(xué)的Eleftheria Briakou和Marine Carpuat發(fā)表于 ACL2022 的一篇文章《Can Synthetic Translations Improve Bitext Quality?》,該論文利用合成數(shù)據(jù),對(duì)挖掘得到的平行數(shù)據(jù)中不完全對(duì)齊的數(shù)據(jù)進(jìn)行替換,從而得到高質(zhì)量的平行語料。

論文鏈接:https://aclanthology.org/2022.acl-long.326/


一、數(shù)據(jù)挖掘的噪聲問題

正如 Kreutzer 等人 [3] 所發(fā)現(xiàn)的,近期發(fā)布的通過數(shù)據(jù)挖掘得到的語料庫(kù)中存在大量錯(cuò)誤翻譯的數(shù)據(jù)。以最近較為常用的多語言翻譯語料庫(kù) WikiMatrix[4] 為例,該論文對(duì)希臘語到英語進(jìn)行隨機(jī)抽樣人工評(píng)估,在抽樣的100對(duì)正向和反向樣本中,發(fā)現(xiàn)約12%的樣本存在較大語義差異,僅在主題或結(jié)構(gòu)等方面具有一定的相似性,而存在細(xì)粒度差異的樣本占到 56% 之多。能夠完全匹配的平行樣本僅占 32%。(需要強(qiáng)調(diào)的是,該論文已經(jīng)預(yù)先使用 bicleaner[5] 工具對(duì)數(shù)據(jù)集進(jìn)行了過濾,去除了明顯的噪聲數(shù)據(jù))。


二、通過翻譯合成數(shù)據(jù)優(yōu)化大規(guī)模平行語料

2.1 合成數(shù)據(jù)與原始數(shù)據(jù)語義等價(jià)性對(duì)比

與原始平行數(shù)據(jù)相比,使用翻譯模型對(duì)一端數(shù)據(jù)進(jìn)行翻譯得到的合成平行數(shù)據(jù),在語義等價(jià)性上具有明顯優(yōu)勢(shì)。為了避免引入額外信息,該論文通過原始平行語料庫(kù)訓(xùn)練翻譯,以此進(jìn)行合成數(shù)據(jù)的生成。在隨機(jī)采樣人工評(píng)估中,有 60%的合成樣本在語義等價(jià)性上優(yōu)于原始平行樣本。進(jìn)一步的,該論文使用 divergent-mBERT[6] 對(duì)合成樣本和原始平行樣本的語義等價(jià)性得分進(jìn)行比較,根據(jù)差值??d分別進(jìn)行了統(tǒng)計(jì)。

其中,當(dāng)??d%3E5 時(shí),合成樣本中有 87.5%在人工評(píng)價(jià)中優(yōu)于原始平行樣本,并且多人的標(biāo)注結(jié)果具有更高的一致性(依據(jù)肯德爾相關(guān)系數(shù))。


2.2 數(shù)據(jù)替換算法

因此該論文在??d%3E5時(shí),將兩個(gè)方向的合成數(shù)據(jù)中語義等價(jià)性得分最高的一對(duì)替換語料庫(kù)中的原始平行數(shù)據(jù),以此獲得具有更高語義等價(jià)性的雙語語料庫(kù)。完整的算法如下:

其中??D 表示原始平行語料,??S_i 和??T_i??表示其中的一對(duì)源端和目標(biāo)端數(shù)據(jù)。?M_%7BS%E2%86%92T%7D??和?M_%7BT%E2%86%92S%7D??分別表示正向和反向的翻譯模型,?%5Chat%7BS_i%7D??和??%5Chat%7BT_i%7D 分別表示對(duì)應(yīng)翻譯模型生成的目標(biāo)端和源端合成數(shù)據(jù)。??表示替換后的新語料。此論文通過這樣簡(jiǎn)單的“生成-對(duì)比-替換”的流程,對(duì) WikiMatrix 語料庫(kù)中的希臘語到英語(EL?EN, with 750,585 pairs)和羅馬尼亞語到英語(RO?EN, with 582,134 pairs)進(jìn)行了優(yōu)化。


三、下游任務(wù)評(píng)測(cè)比較

為了證明得到的新語料庫(kù)具有更高的質(zhì)量,該論文利用兩個(gè)下游任務(wù)對(duì)原始平行語料庫(kù)和利用合成數(shù)據(jù)優(yōu)化的語料庫(kù)進(jìn)行對(duì)比:這兩個(gè)任務(wù)分別是雙語詞典歸納(BLI)[7] 和機(jī)器翻譯(MT)。

3.1 雙語詞典歸納(BLI)質(zhì)量對(duì)比

BLI 任務(wù)旨在歸納一個(gè)由兩種語言的單詞翻譯組成的雙語詞典。該論文使用 Shi 等人 [7] 提出方法進(jìn)行無監(jiān)督 BLI,并用 MUSE[8] 進(jìn)行評(píng)估。

從結(jié)果可以看出,使用合成數(shù)據(jù)替換后的語料庫(kù)提取得到的詞典在準(zhǔn)確率、召回率、F1 值均有明顯優(yōu)勢(shì),表明新語料庫(kù)在降低誤翻噪聲和提高詞匯對(duì)齊率上有明顯的優(yōu)勢(shì)。并且在對(duì) MUSE 源端條目的頻率進(jìn)行劃分的對(duì)比上,新語料庫(kù)在低頻和中頻詞上表現(xiàn)出明顯的優(yōu)勢(shì)。


3.2 機(jī)器翻譯(MT)模型質(zhì)量對(duì)比

MT 任務(wù)通過兩種方式構(gòu)建模型:1、使用語料庫(kù)從頭開始訓(xùn)練一個(gè) MT 模型;2、對(duì)mT5[9] 模型進(jìn)行繼續(xù)訓(xùn)練(continued training)。該論文使用 TED 的官方開發(fā)和測(cè)試集對(duì) MT 模型進(jìn)行評(píng)估。

結(jié)果表明新語料庫(kù)構(gòu)建的 MT 模型在兩種語言的四個(gè)方向上均具有明顯的優(yōu)勢(shì)。而相較于從頭開始訓(xùn)練,mT5 的繼續(xù)訓(xùn)練表現(xiàn)出更大的改進(jìn)。這表明數(shù)據(jù)中的噪聲會(huì)明顯影響翻譯模型的質(zhì)量,而該論文所提方法能夠有效改善這一問題。

在此基礎(chǔ)上,該論文為了判斷數(shù)據(jù)生成方式和數(shù)據(jù)替換標(biāo)準(zhǔn)對(duì)語料庫(kù)質(zhì)量的影響,在 NMT 任務(wù)上進(jìn)行了消融實(shí)驗(yàn)。其中數(shù)據(jù)生成方法分別對(duì)比了僅用正向(FT),反向(BT)合成數(shù)據(jù)和各自與原始平行數(shù)據(jù)融合的方法;數(shù)據(jù)替換標(biāo)準(zhǔn)對(duì)比了 Rejuvenation[10](用 NMT 概率分?jǐn)?shù)測(cè)量出 10% 最不活躍的數(shù)據(jù),使用正向翻譯合成數(shù)據(jù)替換原始平行數(shù)據(jù))、Ranking(??d%3E0)、Thresholding(??基礎(chǔ)上要求合成數(shù)據(jù)的語義等價(jià)性得分高于一定閾值)。對(duì)比結(jié)果如下:


其中 Rejuvenation 表現(xiàn)較差,這表明該方法可能更容易受到 NMT 模型質(zhì)量的影響,因而在低資源語言上難以有效發(fā)揮作用。而使用語義等價(jià)性差值替換標(biāo)準(zhǔn)和同時(shí)利用雙向合成數(shù)據(jù)毫無意外地取得了最多的 BLEU 值改進(jìn)。值得注意的是,F(xiàn)T 和 BT 數(shù)據(jù)在替換的數(shù)據(jù)量上基本一致,且具有較明顯的互補(bǔ)性。


四、合成數(shù)據(jù)的特點(diǎn)分析與啟示

該論文對(duì)原始與修改后的 WikiMatrix 希臘語到英語語料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行了對(duì)比:

其中值得注意的是,除了先前工作已經(jīng)發(fā)現(xiàn)的復(fù)雜度和多樣性更低 [11] 之外,生成數(shù)據(jù)還表現(xiàn)出了較為明顯的性別偏見 [12]。除此之外,針對(duì) MT 的消融實(shí)驗(yàn)還表明了 FT 和 BT 數(shù)據(jù)可能在降低數(shù)據(jù)噪聲方面存在一定的互補(bǔ)性,這一發(fā)現(xiàn)一方面或許能夠解釋 FT 和 BT 對(duì)翻譯模型相互獨(dú)立的增強(qiáng)能力,同時(shí)也暗示從兩個(gè)方向使用合成翻譯可能有益于其他場(chǎng)景,例如知識(shí)蒸餾。

最近針對(duì)數(shù)據(jù)分析的工作越來越多,幫助更多的研究者認(rèn)識(shí)到在構(gòu)建機(jī)器學(xué)習(xí)模型過程中數(shù)據(jù)的特點(diǎn)和處理方法。該論文相較于先前工作關(guān)注的合成數(shù)據(jù)的特點(diǎn) [11,13] 和利用合成數(shù)據(jù)進(jìn)行增強(qiáng) [14,15] 的方法,從降低原始語料噪聲的角度對(duì)合成數(shù)據(jù)的作用進(jìn)行了分析和解釋,豐富了我們對(duì)雙語平行數(shù)據(jù)集構(gòu)建和利用方面的理解。這些工作從不同角度分析解釋了合成數(shù)據(jù)能在眾多下游任務(wù)中發(fā)揮作用的原因,為我們?cè)谔幚頂?shù)據(jù)集時(shí)提供了重要的指導(dǎo)方向。


五、總結(jié)

總而言之,該論文探討了如何使用翻譯合成的數(shù)據(jù)來增強(qiáng)數(shù)據(jù)挖掘得到的語料庫(kù),從而在沒有額外的雙語數(shù)據(jù)或監(jiān)督的情況下,提高原始雙語語料庫(kù)的質(zhì)量。該論文著重分析了現(xiàn)有基于數(shù)據(jù)挖掘技術(shù)得到的大規(guī)模語料庫(kù)廣泛存在的不匹配的情況,并表明通過翻譯模型得到的合成數(shù)據(jù)能夠有效緩解這一問題。


本期分享者:陳圓夢(mèng),瀾舟科技研究實(shí)習(xí)生,北京交通大學(xué)博士二年級(jí),研究方向?yàn)槎嗾Z言神經(jīng)機(jī)器翻譯,郵箱:yuanmengchen@bjtu.edu.cn。生活中只有一種英雄主義,那就是在認(rèn)清生活真相之后依然熱愛生活。

歡迎來到「瀾舟?NLP?論文領(lǐng)讀」專欄!快樂研究,當(dāng)然從研讀 paper 開始——瀾舟科技團(tuán)隊(duì)注重歡樂的前沿技術(shù)探索,希望通過全新專欄和大家共同探索人工智能奧秘、交流 NLP「黑科技」,踩在「巨人」肩上觸碰星辰!

關(guān)注公眾號(hào)「瀾舟科技」加入交流群,和大家一起探討 NLP 前沿技術(shù)吧!官方網(wǎng)站:langboat.com


參考文獻(xiàn)

[1] Schwenk H, Chaudhary V, Sun S, et al. Wikimatrix: Mining 135m parallel sentences in 1620 language pairs from wikipedia[J]. arXiv preprint arXiv:1907.05791, 2019.

[2] Nguyen X P, Joty S, Wu K, et al. Data diversification: A simple strategy for neural machine translation[J]. Advances in Neural Information Processing Systems, 2020, 33: 10018-10029.

[3] Kreutzer J, Caswell I, Wang L, et al. Quality at a glance: An audit of web-crawled multilingual datasets[J]. arXiv preprint arXiv:2103.12028, 2021.

[4] Schwenk H, Chaudhary V, Sun S, et al. WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia[C]//Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021: 1351-1361.

[5] Ramírez‐Sánchez G, Zaragoza-Bernabeu J, Ba?ón M, et al. Bifixer and bicleaner: two open-source tools to clean your parallel data[C]//Proceedings of the 22nd Annual Conference of the European Association for Machine Translation. 2020: 291-298.

[6] Briakou E, Carpuat M. Detecting Fine-Grained Cross-Lingual Semantic Divergences without Supervision by Learning to Rank[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 1563-1580.

[7] Shi H, Zettlemoyer L, Wang S I. Bilingual Lexicon Induction via Unsupervised Bitext Construction and Word Alignment[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021: 813-826.

[8] Conneau A, Lample G, Ranzato M A, et al. Word translation without parallel data[J]. arXiv preprint arXiv:1710.04087, 2017.

[9] Xue L, Constant N, Roberts A, et al. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021: 483-498.

[10] Jiao W, Wang X, He S, et al. Data Rejuvenation: Exploiting Inactive Training Examples for Neural Machine Translation[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 2255-2266.

[11] Zhou C, Neubig G, Gu J. Understanding knowledge distillation in non-autoregressive machine translation[J]. arXiv preprint arXiv:1911.02727, 2019.

[12] Stanovsky G, Smith N A, Zettlemoyer L. Evaluating Gender Bias in Machine Translation[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 1679-1684.

[13] Xu W, Ma S, Zhang D, et al. How Does Distilled Data Complexity Impact the Quality and Confidence of Non-Autoregressive Machine Translation?[J]. arXiv preprint arXiv:2105.12900, 2021.

[14] Poncelas A ,? Shterionov D ,? Way A , et al. Investigating Backtranslation in Neural Machine Translation[J].? 2018.

[15] Nguyen X P, Joty S, Wu K, et al. Data diversification: A simple strategy for neural machine translation[J]. Advances in Neural Information Processing Systems, 2020, 33: 10018-10029.



NLP 論文領(lǐng)讀|合成數(shù)據(jù)的妙用:低成本構(gòu)建高質(zhì)量的大規(guī)模平行語料的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
鄂尔多斯市| 商河县| 诸城市| 新密市| 丰城市| 新和县| 壤塘县| 团风县| 巴林左旗| 青海省| 德清县| 枝江市| 大石桥市| 泰和县| 陇川县| 卫辉市| 东光县| 安达市| 利川市| 图们市| 东城区| 满洲里市| 文安县| 车险| 璧山县| 田东县| 广灵县| 乌拉特后旗| 贵溪市| 绥宁县| 泽州县| 会昌县| 清水河县| 宁德市| 峨眉山市| 临洮县| 于田县| 台前县| 达日县| 手机| 崇礼县|