最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

肖桐:多語言機(jī)器翻譯技術(shù)、應(yīng)用與挑戰(zhàn)

2023-01-20 17:24 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿

多語言機(jī)器翻譯技術(shù)、應(yīng)用與挑戰(zhàn)

2023年1月10日

小牛翻譯CEO東北大學(xué)教授、博士生導(dǎo)師肖桐


各位尊敬的領(lǐng)導(dǎo)、嘉賓,很高興在今天這個(gè)場合分享一些我們小牛翻譯包括東北大學(xué)自然語言處理團(tuán)隊(duì)關(guān)于機(jī)器翻譯方面的工作。機(jī)器翻譯發(fā)展到今天,從人工智能技術(shù)來講已經(jīng)經(jīng)歷了若干代的技術(shù),從早期的規(guī)則包括寫模板的方式已經(jīng)到了現(xiàn)在完全自動(dòng)的基于深層神經(jīng)網(wǎng)絡(luò)發(fā)展的狀態(tài)。但實(shí)際上機(jī)器翻譯所面臨的語言翻譯這個(gè)問題本身還是很復(fù)雜的,其中一點(diǎn)體現(xiàn)在語種多樣性上。今天我們希望把企業(yè)的信息在“一帶一路”所有沿線國家傳遞出去,這個(gè)時(shí)候會(huì)面臨非常多的語言挑戰(zhàn),包括我本人,英語還能看懂一些,但日語、韓語相對(duì)大一些的語種都無法去閱讀,更何況全世界存在六千種不同的語言。



肖桐在語言服務(wù)與企業(yè)國際傳播能力建設(shè)專題論壇上作主旨發(fā)言


ATMA(國際機(jī)器翻譯協(xié)會(huì)北美分會(huì))2022年報(bào)告指出目前機(jī)器翻譯覆蓋的語言方向達(dá)到了125075個(gè),這個(gè)數(shù)字我看到的時(shí)候也感到非常驚訝。實(shí)際上,機(jī)器翻譯發(fā)展到今天已經(jīng)不是單單某幾個(gè)語種、某幾個(gè)類型的翻譯任務(wù)去完成的了,它有很多的語言、很多的任務(wù),需要更多、更復(fù)雜、更多樣的機(jī)器翻譯系統(tǒng)來去做。


在這樣的變化下,我個(gè)人覺得有三方面的特點(diǎn)。


第一個(gè)特點(diǎn)是從少量語種的實(shí)驗(yàn)性驗(yàn)證到多語種通用模型,在全世界范圍內(nèi),很多國家的語言我們現(xiàn)在很難去接觸,包括我們自己的翻譯團(tuán)隊(duì),半夜時(shí)候接到翻譯緬甸語文件的任務(wù),這些語言對(duì)于即便是語言專家來講也是極度稀缺的語言,如何構(gòu)建能覆蓋全世界所有語言包括這些低資源的語言進(jìn)行機(jī)器翻譯,這是非常大的挑戰(zhàn)。




這個(gè)圖是微軟當(dāng)時(shí)用通用模型去做的87種語言的翻譯,這個(gè)圖的文字有點(diǎn)小,但顏色很有意思,紅色代表兩種語言之間的翻譯效果不好,綠色代表相對(duì)好一點(diǎn),大家可以看到紅色的區(qū)域非常多,證明有一些語言由于數(shù)據(jù)量缺乏,語言知識(shí)、語言專家的數(shù)量比較少,造成這些語言的自動(dòng)翻譯效果不是太好,包括右側(cè)這些語言,比如剛果的一些語言,我本人都沒有聽說過,也不會(huì)去使用它。當(dāng)然,在這方面實(shí)際有很多的企業(yè),特別是國際化的企業(yè)去做了很多嘗試,小牛翻譯今年做到了388種語言,背后蘊(yùn)含著多語言機(jī)器翻譯模型的蓬勃發(fā)展。短短過去5年時(shí)間,全球自動(dòng)翻譯語種數(shù)量翻了將近10倍的規(guī)模。




第二是從單一的正規(guī)文本到多場景復(fù)雜環(huán)境下的機(jī)器翻譯。早期做科研的時(shí)候還是做很正規(guī)新聞的機(jī)器翻譯任務(wù),比如新華社發(fā)表的社論的翻譯,但現(xiàn)在很多場景是對(duì)音視頻的翻譯。現(xiàn)在抖音很火,我們怎么對(duì)口語化很嚴(yán)重的場景進(jìn)行翻譯,包括對(duì)電影字幕的翻譯,包括做語音翻譯的時(shí)候,里面存在大量的噪聲,我本人帶有東北口音,語音識(shí)別是有一定影響的,怎么去做,給機(jī)器翻譯提出一些新的要求。更重要的是,我們在做語言能力建設(shè)的時(shí)候面臨的問題是用戶所使用的場景不一樣,比如我們可能是做通用的新聞?lì)I(lǐng)域翻譯可以,但要遇到法律、醫(yī)藥、工程類的,涉及各種各樣的場景,這個(gè)圖對(duì)比了很多不同類型的系統(tǒng),看到不同場景翻譯質(zhì)量不一樣,換句話說,語言專家即使能把醫(yī)藥相關(guān)內(nèi)容翻譯的很好,也不能保證在法律文獻(xiàn)做的很好,對(duì)機(jī)器翻譯也是同樣的。




第三是從無限計(jì)算資源假設(shè)到實(shí)際大規(guī)模部署。從現(xiàn)在的深度學(xué)習(xí)的范式去看,現(xiàn)在機(jī)器翻譯的部署與應(yīng)用成本還無法做到忽略不計(jì),大家可以看一下左側(cè)是受關(guān)注的大模型,在訓(xùn)練一側(cè)模型的碳排放量,就是我們運(yùn)行設(shè)備的碳排放量,是幾百噸的數(shù)量。如果我有一個(gè)企業(yè),要去建設(shè)這個(gè)能力,需要這么大的能源消耗,是成本非常高的一件事。當(dāng)然百度這樣的平臺(tái)可以提供基礎(chǔ)能力,但仍然回避不了這樣的問題。右側(cè)表示,我要訓(xùn)練這個(gè)需要一萬多天,甚至還有更大量數(shù)據(jù)規(guī)模的使用,使得機(jī)器翻譯或者比較大的人工智能技術(shù)方法落地也成為一些挑戰(zhàn)。


小牛翻譯在這方面也做了一點(diǎn)實(shí)踐。我們一直希望把語言數(shù)量提升到一個(gè)能覆蓋全世界所有語言,現(xiàn)在388種語言,“一帶一路”所有沿線國家以及190個(gè)聯(lián)合國成員國都能進(jìn)行覆蓋,但這樣的語種數(shù)量遠(yuǎn)遠(yuǎn)不夠,從技術(shù)上來講我們又面臨一個(gè)新的挑戰(zhàn),有300種語言是不是每兩個(gè)語言之間要構(gòu)建一個(gè)機(jī)器翻譯系統(tǒng),理論上是這樣,但事實(shí)上我們不會(huì)這么做,原因是什么?300×299,這是很大的模型,很難保證模型在有限資源上運(yùn)行。大家常用的技術(shù)是使用共享模型,一個(gè)模型做很多語言的翻譯,大家可以把它簡單理解成一位語言專家,具有英語、日語、韓語多語的能力,這是很理想的。這個(gè)語言專家很厲害,一次可以翻譯一百種語言的能力,當(dāng)然我們更希望這個(gè)語言專家能擁有一千甚至一萬種語言的翻譯能力。


我們發(fā)現(xiàn),語言數(shù)量增大到一定程度之后,相似語言之間的聯(lián)系就體現(xiàn)得非常明顯,不同語言之間的差異也會(huì)體現(xiàn)得很明顯,這會(huì)導(dǎo)致一個(gè)問題:我們可以把語言按語系進(jìn)行簡單劃分,所有有語言基礎(chǔ)的人都可以去做。用語系簡單劃分之后,考慮語系內(nèi)部相關(guān)性的時(shí)候機(jī)器翻譯可以更好地完成這個(gè)任務(wù),比如歐洲語系之間的語言非常像,我們可以去做,但俄語語言非常特殊,要跟漢語進(jìn)行混合去做,可能有些挑戰(zhàn)。當(dāng)然這里面還有其他的技術(shù),通過一對(duì)多、多對(duì)多的模型完成這樣的任務(wù)。


第二,我們也會(huì)針對(duì)不同語言資源的豐富程度進(jìn)行進(jìn)一步劃分,比如,針對(duì)語言資源比較多、資源比較少、資源適中的情況構(gòu)建最優(yōu)策略達(dá)到最佳效能,包括跟語言專家、翻譯專家一起探討怎么改進(jìn)它的方式。這里面遇到非常多的問題,比如我們用一套模型或者一套系統(tǒng)能不能解決所有領(lǐng)域的翻譯問題?這個(gè)問題我曾經(jīng)跟谷歌做類似事情的學(xué)者一起探討過,大家的結(jié)論我覺得有點(diǎn)反常識(shí),大家現(xiàn)在使用的策略都是一套模型做很多事情,他的想法是很簡單,人的基礎(chǔ)的語言和翻譯能力是不受領(lǐng)域影響,就是我們主謂賓大多數(shù)情況成立,這種情況下我們?nèi)匀恍枰ㄓ媚P徒o我們提供通用的知識(shí),而領(lǐng)域的知識(shí)更多的是讓模型更好地適應(yīng)一個(gè)具體的任務(wù),而非推翻以前的基礎(chǔ)知識(shí),不是推翻重來,至少我個(gè)人覺得這個(gè)觀點(diǎn)蠻有意思,從實(shí)驗(yàn)結(jié)果來看,現(xiàn)在也有這樣一個(gè)趨勢,用多領(lǐng)域的混合模型來做。


這里面我們配合領(lǐng)域詞典技術(shù)以及TM(翻譯記憶)技術(shù)進(jìn)一步完成機(jī)器翻譯系統(tǒng)構(gòu)建。


轉(zhuǎn)載來源:“語言服務(wù)與企業(yè)國際傳播能力建設(shè)專題論壇” 譯鑒堂

轉(zhuǎn)載編輯:楊瑾

肖桐:多語言機(jī)器翻譯技術(shù)、應(yīng)用與挑戰(zhàn)的評(píng)論 (共 條)

分享到微博請遵守國家法律
静宁县| 平乐县| 荣成市| 永仁县| 宣威市| 灯塔市| 贵阳市| 高碑店市| 镇江市| 磐安县| 上犹县| 南宁市| 古浪县| 沂源县| 读书| 兴安盟| 扶余县| 沧源| 岫岩| 习水县| 沁源县| 界首市| 化德县| 义乌市| 彭山县| 富民县| 石家庄市| 大冶市| 西安市| 防城港市| 九龙县| 柘城县| 庄河市| 朝阳区| 大宁县| 平潭县| 博乐市| 镇远县| 兖州市| 延吉市| 清远市|