最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

技術前沿 | 自動配音或將成為現(xiàn)實?

2022-04-23 23:31 作者:翻譯技術點津  | 我要投稿

以下文章來源于海上技客?,作者Nini

你喜歡刷抖音嗎?

你知道嗎?

抖音里面很多的配音

其實都不是人工配音的噢

神經配音技術使得短視頻自動配音成為可能~

一起來看看吧!



? ? ? ? 當前,字節(jié)跳動正探索語音本地化。2021年10月,一篇名為《神經配音:根據腳本為無聲視頻配音》的論文探討了通過機器合成的人類語言是否可以具備“專業(yè)配音演員的配音能力”。

圖片


? ? ? ? ?作者寫道:“配音演員能夠充分利用韻律進行配音,如重音、語調和節(jié)奏,這樣一來,他們的配音與預先錄制的視頻就能達到同步?!闭f到自動視頻配音(AVD),合成語音需要與腳本和唇動保持一致。
? ? ? ? 語音合成(TTS)與自動視頻配音都是為了生成可理解的語音,但只靠語音合成不足以達成目標,因為語音合成只使用文本作為輸入,不太可能與視頻完全同步。

圖片

? ? ? ?另一方面,神經配音使用基于圖像的揚聲器嵌入模塊,允許它產生與揚聲器面部特征(例如性別、年齡)一致的語音。
? ? ? ?作者說,自動視頻配音最具挑戰(zhàn)性的部分是對齊原始視頻中的視頻幀和音素。神經配音員的文本視頻對齊器允許同步語音以適當?shù)乃俣群颓榫w與視頻中的唇動相結合。

圖片


? ? ? ?接著,作者更明確地證明了神經配音器能夠根據輸入的面部圖像控制音色。研究人員為12名男性和12名女性各挑選了10張圖像,每張圖像中的細節(jié)略有不同(例如頭部姿勢、光照、妝容等)。首先使用一個預先設定好的語音編碼器,將音頻對應的講話者嵌入可視化,從語音編碼器中導出音頻中的語音特征。
? ? ? ?結果顯示,由同一講話者的圖像生成的語料形成了一個密集的集群,而代表每位講話者的集群是相互分離的。此外,不同性別講話者的面部圖像合成的語音之間存在明顯差異(如下圖所示)。結論便是,神經配音器可以利用面部圖像來改變生成的語音的音色。

圖片
講話者嵌入可視化(左上、右下分別為12名男性、12名女性所得結果)


? ? ? ? 字節(jié)跳動旗下火山翻譯產品經理劉堅在同濟大學講座中表示,現(xiàn)階段影視行業(yè)尋找相似音色的配音員存在一定難度,而字節(jié)跳動通過外語音色模擬、肖像風格遷移,已經能夠實現(xiàn)輸出后的譯后視頻保留人物的音色特征,且口型與目標語言匹配,營造出自然的影片效果。
? ? ? ?神經配音器無疑與上述音色模擬、口型修正等功能密切相關,無論是在技術界還是影視界,其發(fā)展意義重大。相信通過多方向探索,神經配音器將得以完善,自動配音或將成為現(xiàn)實。

名詞對照:

TikTok: 抖音

ByteDance: 字節(jié)跳動

Neural Dubber: 神經配音器

Automatic video dubbing (AVD): 自動視頻配音

Text-to-speech (TTS):?語音合成技術

注:本文采用MT+PE模式,原文地址請見原推送

作者?|?Seyma Albarino

機翻引擎 | Google Translate

譯后編輯 | 王雨寧

撰稿排版 | 王雨寧

責任編輯 | 孔德

轉載編輯| 賀文惠、丁羽翔

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”,致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們,了解更多精彩內容~

技術前沿 | 自動配音或將成為現(xiàn)實?的評論 (共 條)

分享到微博請遵守國家法律
乐安县| 咸宁市| 仙桃市| 皋兰县| 北辰区| 始兴县| 临汾市| 宜章县| 桦川县| 苏尼特右旗| 紫阳县| 略阳县| 荣昌县| 辽源市| 定结县| 华亭县| 巴楚县| 色达县| 息烽县| 宿松县| 溧阳市| 卓尼县| 沽源县| 新乡县| 望江县| 新巴尔虎右旗| 广丰县| 苗栗市| 苍山县| 滁州市| 聂拉木县| 商都县| 芦山县| 永新县| 荥经县| 怀集县| 青浦区| 泰安市| 科技| 东港市| 平和县|