技術前沿 | 自動配音或將成為現(xiàn)實?
以下文章來源于海上技客?,作者Nini
你喜歡刷抖音嗎?
你知道嗎?
抖音里面很多的配音
其實都不是人工配音的噢
神經配音技術使得短視頻自動配音成為可能~
一起來看看吧!

? ? ? ? 當前,字節(jié)跳動正探索語音本地化。2021年10月,一篇名為《神經配音:根據腳本為無聲視頻配音》的論文探討了通過機器合成的人類語言是否可以具備“專業(yè)配音演員的配音能力”。

? ? ? ? ?作者寫道:“配音演員能夠充分利用韻律進行配音,如重音、語調和節(jié)奏,這樣一來,他們的配音與預先錄制的視頻就能達到同步?!闭f到自動視頻配音(AVD),合成語音需要與腳本和唇動保持一致。
? ? ? ? 語音合成(TTS)與自動視頻配音都是為了生成可理解的語音,但只靠語音合成不足以達成目標,因為語音合成只使用文本作為輸入,不太可能與視頻完全同步。

? ? ? ?另一方面,神經配音使用基于圖像的揚聲器嵌入模塊,允許它產生與揚聲器面部特征(例如性別、年齡)一致的語音。
? ? ? ?作者說,自動視頻配音最具挑戰(zhàn)性的部分是對齊原始視頻中的視頻幀和音素。神經配音員的文本視頻對齊器允許同步語音以適當?shù)乃俣群颓榫w與視頻中的唇動相結合。

? ? ? ?接著,作者更明確地證明了神經配音器能夠根據輸入的面部圖像控制音色。研究人員為12名男性和12名女性各挑選了10張圖像,每張圖像中的細節(jié)略有不同(例如頭部姿勢、光照、妝容等)。首先使用一個預先設定好的語音編碼器,將音頻對應的講話者嵌入可視化,從語音編碼器中導出音頻中的語音特征。
? ? ? ?結果顯示,由同一講話者的圖像生成的語料形成了一個密集的集群,而代表每位講話者的集群是相互分離的。此外,不同性別講話者的面部圖像合成的語音之間存在明顯差異(如下圖所示)。結論便是,神經配音器可以利用面部圖像來改變生成的語音的音色。

? ? ? ? 字節(jié)跳動旗下火山翻譯產品經理劉堅在同濟大學講座中表示,現(xiàn)階段影視行業(yè)尋找相似音色的配音員存在一定難度,而字節(jié)跳動通過外語音色模擬、肖像風格遷移,已經能夠實現(xiàn)輸出后的譯后視頻保留人物的音色特征,且口型與目標語言匹配,營造出自然的影片效果。
? ? ? ?神經配音器無疑與上述音色模擬、口型修正等功能密切相關,無論是在技術界還是影視界,其發(fā)展意義重大。相信通過多方向探索,神經配音器將得以完善,自動配音或將成為現(xiàn)實。
名詞對照:
TikTok: 抖音
ByteDance: 字節(jié)跳動
Neural Dubber: 神經配音器
Automatic video dubbing (AVD): 自動視頻配音
Text-to-speech (TTS):?語音合成技術
注:本文采用MT+PE模式,原文地址請見原推送
作者?|?Seyma Albarino
機翻引擎 | Google Translate
譯后編輯 | 王雨寧
撰稿排版 | 王雨寧
責任編輯 | 孔德
轉載編輯| 賀文惠、丁羽翔

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”,致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們,了解更多精彩內容~