《中國大百科全書》中的“BLEU評價指標”
01 BLEU評價指標|Bilingual Evaluation Understudy
《中國大百科全書》(第三版·網(wǎng)絡(luò)版)發(fā)布了張家俊教授撰寫的“BLEU評價指標”詞條?,F(xiàn)轉(zhuǎn)錄如下,以資交流。
機器翻譯研究者經(jīng)常會被問到這樣一個問題:現(xiàn)在的機器翻譯系統(tǒng)譯文質(zhì)量如何?這是一個簡單卻又很難回答的問題。相對于其他自然語言處理任務(wù),如語音識別,機器翻譯任務(wù)一般不存在標準答案。只要語義一致,一個源語言句子可以對應(yīng)多個正確的目標語言譯文。如何評價機器翻譯系統(tǒng)的譯文質(zhì)量成為至關(guān)重要的問題。人工評價是最簡單的一種方法。對于某個機器翻譯系統(tǒng)輸出的譯文,聘請專家逐個查看每個譯文,評判其正確性。由于“正確性”是一個大過寬泛的概念,通常在人工評測中使用忠實度和流利度作為判新標準。忠實度衡量譯文傳達了原文意思的程度,保留了原文多少信息,相當于“信、達、雅”中的“信”;流利度則衡量譯文是否流暢通順,是否符合目標語言的表達,相當于“信、達、雅”中的“達”。然而,人工評測不僅成本昂貴,而且效率很低。研究者經(jīng)常在設(shè)計新的機器翻譯算法后希望立刻檢驗該算法的有效性,人工評價就很難滿足這種需求。因此,自動評價是一種理想的方案。2002年,IBM的K.怕尼內(nèi)尼(Kishore Papineni) 等人提出了一種機器翻譯譯文質(zhì)量的自動評價方法BLEU。BLEU評價指標的原理是:如果機器翻譯系統(tǒng)的譯文越接近專業(yè)譯員的翻譯結(jié)果,那么該機器翻譯系統(tǒng)的效果越好。一般地,對于包含若干測試用例(源語言句子)的測試集,首先請一個或多個專業(yè)譯員將測試用例翻譯為目標語言譯文。每個測試用例將對應(yīng)一個或多個工參考譯文。BLEU評價指標就是通過計算機器翻譯系統(tǒng)的譯文與人工參考譯文的匹配程度,來度量機器翻譯系統(tǒng)的性能。其計算方法大致可描述為:首先,計算機器翻譯譯文與人工參考譯文之n元組(通常取n = 4)的配數(shù)目占機器翻譯譯文所有n元詞組總數(shù)的比率;然后,對所有n元詞組的匹配率取幾何平均。為了防止長度過短的機器譯文獲得較高的BLEU值,通常在幾何平均的基礎(chǔ)上增加一個長度懲罰因子,從而得到最終的BLEU值。計算公式如下:
其中,1元詞組的匹配率可以反映機器譯文的忠實度,而2元到4元詞組的匹配率能夠一定程度地衡量機器譯文的流利度BLEU是使用最廣泛的自動評測指標,由于其簡潔、可靠,被各機器翻譯評測組織用作譯文質(zhì)量的官方評價指標,極大地推動了機器翻譯研究的發(fā)展進程。而且,很多學者通過研究發(fā)現(xiàn)BLEU評價指標與人工評價具有很高的一致性。
02 作者簡介
張家俊,中國科學院自動化研究所,研究員,中國科學院大學, 崗位教授。專利成果1. 一種基于謂詞論元結(jié)構(gòu)的統(tǒng)計機器翻譯方法, 發(fā)明, 2015, 第 3 作者;2. 一種基于模糊樹到精確樹的統(tǒng)計機器翻譯方法, 發(fā)明, 2016, 第 2 作者, 專利號: CN102117270B。研究領(lǐng)域:機器翻譯 自然語言處理 跨語言文本分析。
03 文獻來源
原文發(fā)表于《中國大百科全書》第三版網(wǎng)絡(luò)版,歡迎各位學者閱讀、分享。
轉(zhuǎn)載來源:《中國大百科全書》(第三版網(wǎng)絡(luò)版)