瓦解語言的邊界:Meta AI推出開源NLLB-200模型實現(xiàn)200種語言高質(zhì)量機器翻譯

Meta?AI最近發(fā)布了NLLB-200模型,這是首個能夠以高質(zhì)量翻譯200種不同語言的單一AI模型。通過廣泛的評估,該模型在各語言上的翻譯質(zhì)量均達到了最先進水平,平均超越現(xiàn)有技術(shù)44%。此外,Meta?AI還創(chuàng)建了新的評估數(shù)據(jù)集FLORES-200,并將NLLB-200模型的性能在每種語言上進行了驗證。該模型的開源,將有助于其他研究者改進他們的翻譯工具,并在此基礎上進一步發(fā)展。
論文:https://arxiv.org/abs/2207.04672
模型權(quán)重:https://github.com/facebookresearch/fairseq/tree/nllb

Demo:https://nllb.metademolab.com/
他們的demo非常有意思,是用了一些罕見的語言下的故事,展示不同語言:

詳細介紹
NLLB-200模型的創(chuàng)新:Meta?AI開發(fā)的NLLB-200模型是一個革命性的成就,它能夠處理200種不同語言的翻譯任務。這一模型特別關(guān)注了以前被忽視的低資源語言,如非洲和亞洲的某些語言。模型結(jié)構(gòu)上,使用了MoE版本的Transformer。改動其實不大,我猜測這主要是為了適應不同的語言,這樣處理會讓模型的訓練更容易。

FLORES-200數(shù)據(jù)集的重要性:為了評估NLLB-200模型的性能,Meta?AI創(chuàng)建了FLORES-200數(shù)據(jù)集(下圖是創(chuàng)建該數(shù)據(jù)集的流程圖)。這個數(shù)據(jù)集包含了多種語言對的翻譯樣本,用于測試和驗證NLLB-200模型的翻譯質(zhì)量。這是一個重要的工具,因為它提供了一個標準化的方式來衡量不同語言翻譯的效果。

性能提升的顯著性:在FLORES-101基準測試中,NLLB-200模型的表現(xiàn)超越了現(xiàn)有的最佳模型,平均提升了44%。對于某些非洲和印度語言,這一提升甚至超過了70%。這表明Meta?AI的模型在處理多種語言對,尤其是低資源語言方面取得了顯著進步。

模型的開源和應用:Meta?AI不僅開發(fā)了這一突破性的模型,還決定開源NLLB-200模型及其訓練代碼,使全球的研究者和開發(fā)者都能夠訪問和利用這些資源。這一舉措有望促進全球范圍內(nèi)的合作和進一步的技術(shù)發(fā)展。此外,NLLB-200模型的技術(shù)也被應用于改進Facebook、Instagram和Wikipedia上的翻譯服務。

觀點
這里說一點感性的吧。很久以前,我看過一部電影《社交網(wǎng)絡》被扎克伯格的理念深深吸引了。沒想到的是,時至今日,F(xiàn)acebook依然記得自己的使命:connect?every?person?in?the?world。

學術(shù)上,它為自然語言處理和機器學習領域提供了新的研究方向,尤其是在多語言處理和低資源語言翻譯方面。
商業(yè)上,這一技術(shù)的進步將極大地促進全球化交流,為企業(yè)提供進入新市場的機會,同時也促進了這個世界不同語言的使用者的交流。
特邀作者:日本早稻田大學計算機系博士生? 王軍杰