最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

直播回顧:分享如何將翻譯記憶高效融入神經(jīng)機器翻譯:一種In-context Learning方法

2023-02-24 13:25 作者:小牛翻譯NiuTrans  | 我要投稿

2月20日,由小牛翻譯主辦,東北大學自然語言處理實驗室協(xié)辦的小牛翻譯直播(NiuTrans Talk)第5期如約與大家見面了。本次邀請東北大學自然語言處理實驗室阿卜杜熱西提·熱合曼博士做客小牛翻譯直播間,為聚焦機器翻譯前沿技術的各位朋友分享《如何將翻譯記憶高效融入神經(jīng)機器翻譯:一種In-context Learning方法》。?

翻譯記憶的引入是機器翻譯領域中的一個重要方向,該技術的目的是通過利用先前翻譯的知識來提高機器翻譯的效率和質(zhì)量。近些年來,翻譯記憶技術已廣泛應用于各種機器翻譯系統(tǒng),成為提高機器翻譯效率和質(zhì)量的關鍵因素。但是,現(xiàn)有的將翻譯記憶融入神經(jīng)翻譯系統(tǒng)的方法一般需要更改翻譯模型結構,或引入額外的模型。這使得在現(xiàn)實場景中采用翻譯記憶技術的代價較高。能否在不修改模型的基礎上直接引入翻譯記憶,是需要進一步研究和探索的問題之一。

本次直播中,阿卜杜熱西提博士根據(jù)自身研究經(jīng)驗對上述問題進行了回答,首先介紹了何為翻譯記憶,以及神經(jīng)機器翻譯的概念;之后對翻譯記憶融合機器翻譯的實際意義方面進行了詳細的說明,然后對翻譯記憶融入神經(jīng)機器翻譯的方法進行了概要性的介紹,最后介紹了研究小組在AAAI 2023發(fā)表的翻譯記憶提示神經(jīng)機器翻譯的工作。博士的講解讓觀看的網(wǎng)友對翻譯記憶以及前沿的工作方向有了初步的了解。

之后的Q&A環(huán)節(jié),包括B站、知乎、抖音、視頻號、微博在內(nèi)眾多平臺的網(wǎng)友也圍繞針對翻譯記憶數(shù)據(jù)質(zhì)量低的解決方法、增量訓練的數(shù)據(jù)構造、翻譯記憶未來的發(fā)展趨勢等問題進行提問,阿卜杜熱西提博士對網(wǎng)友的提問進行了詳細的解答,引發(fā)了各平臺網(wǎng)友的熱烈討論。

Q1:如果翻譯記憶數(shù)據(jù)質(zhì)量較低,是否會對NMT模型性能造成較大影響?

A1:其實這個問題我們做過一些小實驗,比如說對于相似度比較低的那些TM,我們能不能用機器翻譯的結果來替換。也就是說,與其給它提供一個相似度很低的句子,我們能不能提供一個源語句子和機器翻譯的翻譯結果。但是從實驗結果來看,這個機器翻譯的結果提供的信息,會導致它的BLEU值下降。從這可以看出,這種融合方法,其實對翻譯記憶中句對的質(zhì)量要求還是比較高的。也就是說,你可以提供一個相似度比較低的句子,但是最好不要提供質(zhì)量比較低的,甚至是錯誤的翻譯案例。

Q2:強模型強繼續(xù)增量式訓練好,還是用這個增量訓練的數(shù)據(jù)做翻譯記憶好

A2:還是回到我們提出的這種方法,強模型的話,它的訓練數(shù)據(jù)量已經(jīng)是很大了。如果用一個TM這個規(guī)模比較小的,我們重新訓練的話,它對這個整個模型的影響不太明顯,或者說它對翻譯其實就是一個fine tuning的過程,相對于整個的訓練數(shù)據(jù),這個海量的數(shù)據(jù),用少量的訓練數(shù)據(jù)對它進行增量訓練,可能對模型的影響不太大。但是我在直接解碼的時候,把它當做額外的信息輸入的話,它的性能可能會得到進一步的提升。

Q3:我的模型總是一換翻譯場景,翻譯質(zhì)量下降的比較多,應該如何設計翻譯記憶以適應不同的翻譯場景,并根據(jù)不同的需求進行調(diào)整?

A3:我們在剛剛也提到了領域適應能力的問題,模型是在一個通用的領域訓練的,我們不可能把所有的領域數(shù)據(jù)都找出來進行訓練,實際情況是我們先用一個通用領域的數(shù)據(jù)去訓練一個模型,然后看待翻譯的句子,它屬于哪個領域,我們就搜集相關領域的數(shù)據(jù),然后用它來構建我們的TM。在翻譯的時候,我從相應的領域里面抽取一些樣例,用這些樣例來獲取一些額外的領域知識。這樣的話我們模型就很快能對于這個新的領域適應了。

Q4:未來翻譯記憶技術的發(fā)展趨勢是什么?

A4:從翻譯記憶現(xiàn)有的一些挑戰(zhàn)來看,就比如說現(xiàn)有的方法,雖然可以解決低相似度的問題,但是現(xiàn)實情況是,訓練這種低相似度的問題還是需要專用的NMT模型。實際應用時,還需要額外訓練專用的模型。但像我們提出的這種方法,它就不需要額外訓練模型。同時,我們的方法對低相似度的情況還是不太能去提升翻譯質(zhì)量,甚至會帶來一些噪音的問題。所以說對于TM相似度低的問題,如何能夠在代價非常低的情況下把它引入進來,還能有效的提升翻譯質(zhì)量,這是一個需要解決的問題,這是一個研究趨勢。還有一個就是現(xiàn)在大模型時代到來,像現(xiàn)在比較火的ChatGPT之類的。未來的趨勢可能會利用大模型強大的語言理解能力去融入翻譯記憶,也可以規(guī)避它帶來的一些噪音。所以說大模型的應用也是一個趨勢。

Q5:如果翻譯記憶中存在一詞多義的情況應該如何處理?

A5:因為自然語言是非常靈活的,這種一詞多義的情況很容易出現(xiàn)。但是在機器翻譯的時候,我們給它的翻譯句子可能是單個句子,單個句子不具備上下文信息,然后我們給它提供TM信息的時候,可以擴大搜索范圍,比如給它提供一些上下文信息。比如說前一句、后一句之類一些額外的信息,會一定程度上緩解這種這種問題。

以上就是直播問答環(huán)節(jié)的全部內(nèi)容,更多關于報告的詳細內(nèi)容可點擊下方閱讀原文訪問機器翻譯學堂(https://school.niutrans.com)觀看直播回放。

NiuTrans Talk,是由小牛翻譯主辦的,每期將邀請到不同領域的機器翻譯專家進行講解,分享行業(yè)干貨知識,帶你走進機器翻譯的世界。更多精彩內(nèi)容盡在 NiuTrans Talk ,想了解更多有關機器翻譯的內(nèi)容請關注機器翻譯學堂或小牛翻譯官方微博號,與小牛翻譯一起探討機器翻譯技術。


專注于機器翻譯技術基礎研究50年,擁有百余人的機器翻譯產(chǎn)學研團隊,自主研發(fā)以中文為核心的NiuTrans機器翻譯系統(tǒng),支持388種語言隨心互譯。通過豐富的應用與功能,為用戶提供機器翻譯服務全棧式解決方案,致力于為機器翻譯產(chǎn)業(yè)化應用提供基礎平臺,幫助企業(yè)級用戶在國際業(yè)務中消除語言障礙。


直播回顧:分享如何將翻譯記憶高效融入神經(jīng)機器翻譯:一種In-context Learning方法的評論 (共 條)

分享到微博請遵守國家法律
锦州市| 桐乡市| 寻乌县| 柳林县| 博湖县| 平乡县| 泾川县| 呼伦贝尔市| 富平县| 昌江| 定南县| 白银市| 高邮市| 分宜县| 成安县| 忻州市| 九龙坡区| 斗六市| 北海市| 卓资县| 壤塘县| 竹溪县| 吉木萨尔县| 营口市| 定州市| 娄烦县| 陕西省| 凤冈县| 株洲县| 富裕县| 揭阳市| 普定县| 都昌县| 云安县| 甘孜县| 闵行区| 平塘县| 上高县| 万载县| 扶余县| 兴业县|