技術前沿 | 自動配音或將成為現(xiàn)實？

2022-04-23 23:31 作者:翻譯技術點津 0人讀過 | 我要投稿

以下文章來源于海上技客?，作者Nini

你喜歡刷抖音嗎？

你知道嗎？

抖音里面很多的配音

其實都不是人工配音的噢

神經配音技術使得短視頻自動配音成為可能~

一起來看看吧！

? ? ? ? 當前，字節(jié)跳動正探索語音本地化。2021年10月，一篇名為《神經配音：根據腳本為無聲視頻配音》的論文探討了通過機器合成的人類語言是否可以具備“專業(yè)配音演員的配音能力”。

? ? ? ? ?作者寫道：“配音演員能夠充分利用韻律進行配音，如重音、語調和節(jié)奏，這樣一來，他們的配音與預先錄制的視頻就能達到同步?！闭f到自動視頻配音（AVD），合成語音需要與腳本和唇動保持一致。
? ? ? ? 語音合成（TTS）與自動視頻配音都是為了生成可理解的語音，但只靠語音合成不足以達成目標，因為語音合成只使用文本作為輸入，不太可能與視頻完全同步。

? ? ? ?另一方面，神經配音使用基于圖像的揚聲器嵌入模塊，允許它產生與揚聲器面部特征（例如性別、年齡）一致的語音。
? ? ? ?作者說，自動視頻配音最具挑戰(zhàn)性的部分是對齊原始視頻中的視頻幀和音素。神經配音員的文本視頻對齊器允許同步語音以適當?shù)乃俣群颓榫w與視頻中的唇動相結合。

? ? ? ?接著，作者更明確地證明了神經配音器能夠根據輸入的面部圖像控制音色。研究人員為12名男性和12名女性各挑選了10張圖像，每張圖像中的細節(jié)略有不同（例如頭部姿勢、光照、妝容等）。首先使用一個預先設定好的語音編碼器，將音頻對應的講話者嵌入可視化，從語音編碼器中導出音頻中的語音特征。
? ? ? ?結果顯示，由同一講話者的圖像生成的語料形成了一個密集的集群，而代表每位講話者的集群是相互分離的。此外，不同性別講話者的面部圖像合成的語音之間存在明顯差異（如下圖所示）。結論便是，神經配音器可以利用面部圖像來改變生成的語音的音色。

? ? ? ? 字節(jié)跳動旗下火山翻譯產品經理劉堅在同濟大學講座中表示，現(xiàn)階段影視行業(yè)尋找相似音色的配音員存在一定難度，而字節(jié)跳動通過外語音色模擬、肖像風格遷移，已經能夠實現(xiàn)輸出后的譯后視頻保留人物的音色特征，且口型與目標語言匹配，營造出自然的影片效果。
? ? ? ?神經配音器無疑與上述音色模擬、口型修正等功能密切相關，無論是在技術界還是影視界，其發(fā)展意義重大。相信通過多方向探索，神經配音器將得以完善，自動配音或將成為現(xiàn)實。

名詞對照：

TikTok: 抖音

ByteDance: 字節(jié)跳動

Neural Dubber: 神經配音器

Automatic video dubbing (AVD): 自動視頻配音

Text-to-speech (TTS):?語音合成技術

注：本文采用MT+PE模式，原文地址請見原推送

作者?|?Seyma Albarino

機翻引擎 | Google Translate

譯后編輯 | 王雨寧

撰稿排版 | 王雨寧

責任編輯 | 孔德

轉載編輯| 賀文惠、丁羽翔

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”，致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們，了解更多精彩內容~

標簽：