散文網(wǎng) » 科技 »學(xué)習(xí) » Talk預(yù)告 | OSU博士生劉濠赫: VoiceFixer: 面向通用的語(yǔ)音修復(fù)

Talk預(yù)告 | OSU博士生劉濠赫: VoiceFixer: 面向通用的語(yǔ)音修復(fù)

2021-09-29 13:10 作者:TechBeat人工智能社區(qū) 0人讀過(guò) | 我要投稿

本期為TechBeat人工智能社區(qū)第347期線上Talk。

北京時(shí)間9月30日(周四)晚8點(diǎn)，美國(guó)俄亥俄州立大學(xué)(OSU) 計(jì)算機(jī)科學(xué)與工程博士在讀—劉濠赫的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播！

他與大家分享的主題是: “VoiceFixer: 面向通用的語(yǔ)音修復(fù)”，屆時(shí)將探討語(yǔ)音修復(fù)技術(shù)方面的進(jìn)展與挑戰(zhàn)。

Talk·信息

主題：VoiceFixer: 面向通用的語(yǔ)音修復(fù)

嘉賓：美國(guó)俄亥俄州立大學(xué)(OSU)?計(jì)算機(jī)科學(xué)與工程博士在讀?劉濠赫

時(shí)間：北京時(shí)間?9月30日?(周四) 20:00

地點(diǎn)：TechBeat人工智能社區(qū)

http://www.techbeat.net/

完整版怎么看？

掃描下方二維碼，或復(fù)制鏈接https://datayi.cn/w/QPDL3LBP至瀏覽器，一鍵完成預(yù)約！

上線后會(huì)在第一時(shí)間收到通知哦~

Talk·提綱

對(duì)數(shù)字語(yǔ)音中失真的修復(fù)，不論是在當(dāng)今社會(huì)還是對(duì)于歷史研究都有非常重要的應(yīng)用意義。然而受到技術(shù)的限制，語(yǔ)音修復(fù)并沒(méi)有像圖像修復(fù)算法一樣得到廣泛的應(yīng)用。這個(gè)Talk探討了其中可能的原因，存在的問(wèn)題以及我們的解決方案。

本次分享主要為：

1. 引述

2. 現(xiàn)代和歷史語(yǔ)音修復(fù)效果展示

3. 研究背景介紹

a)?語(yǔ)音修復(fù)在實(shí)際場(chǎng)景和科學(xué)研究中的應(yīng)用

b)語(yǔ)音信號(hào)的數(shù)學(xué)表征

c)?常見的四種語(yǔ)音失真及主流的處理方案

d)?主流方案中可能存在的問(wèn)題

4. 當(dāng)前語(yǔ)音修復(fù)方法存在的問(wèn)題及解決方案5. 設(shè)計(jì)VoiceFixer的腦科學(xué)啟發(fā)6. VoiceFixer模型結(jié)構(gòu)介紹7. 實(shí)驗(yàn)設(shè)置與討論8. 實(shí)驗(yàn)結(jié)果分析9. 結(jié)論與未來(lái)可做的工作

Talk·參考資料

這是本次分享中將會(huì)提及的資料，建議提前預(yù)習(xí)哦！

1. Demo網(wǎng)站：

https://haoheliu.github.io/demopage-voicefixer/

2. 項(xiàng)目主頁(yè):

https://github.com/haoheliu/voicefixer_main

3. 語(yǔ)音修復(fù)相關(guān)文章：Speech Super Resolution:[1708.00853] Audio Super Resolution using Neural Networks (arxiv.org)

4. Speech Enhancement:?[1708.07524] Supervised Speech Separation Based on Deep Learning: An Overview (arxiv.org)

5. Speech Dereverberation:Speech Dereverberation Using Fully Convolutional Networks | IEEE Conference Publication | IEEE Xplore

6. Speech Declipping:[1910.12116] Image to Image Translation based on Convolutional Neural Network Approach for Speech Declipping (arxiv.org)

7. 聲碼器相關(guān)文章:TFGAN Neural Vocoder:[2011.12206] TFGAN: Time and Frequency Domain Based Generative Adversarial Network for High-fidelity Speech Synthesis (arxiv.org)

Talk·提問(wèn)交流

通過(guò)以下兩種方式提問(wèn)都將獲得微信現(xiàn)金紅包獎(jiǎng)勵(lì)哦！

方式 ①

在Talk界面下的【交流區(qū)】參與互動(dòng)！留下你的打call??和問(wèn)題??，和更多小伙伴們共同討論，被講者直接翻牌解答！

你的每一次貢獻(xiàn)，我們都會(huì)給予你相應(yīng)的i豆積分，還會(huì)有驚喜獎(jiǎng)勵(lì)哦！

方式 ②

在本文留言區(qū)直接提出你的問(wèn)題，或掃描下方二維碼提問(wèn)！

Talk·嘉賓介紹

劉濠赫

美國(guó)俄亥俄州立大學(xué)(OSU)計(jì)算機(jī)科學(xué)與工程博士在讀

劉濠赫，目前為美國(guó)俄亥俄州立大學(xué)計(jì)算機(jī)科學(xué)與工程博士一年級(jí)在讀，師從Deliang Wang教授，此前在西北工業(yè)大學(xué)獲得學(xué)士學(xué)位。本科期間在謝磊老師ASLP實(shí)驗(yàn)室從事音樂(lè)分離的相關(guān)研究。隨后在字節(jié)跳動(dòng)進(jìn)行語(yǔ)音降噪和聲音修復(fù)的研究。曾在2021 ISMIR國(guó)際音樂(lè)分離大賽中取得人聲效果第二名（Leaderboard A）的成績(jī)。研究興趣主要為音源分離和聲音修復(fù)。相關(guān)成果已在INTERSPEECH, ICASSP，ISMIR等語(yǔ)音和聲學(xué)領(lǐng)域主流會(huì)議上發(fā)表。

個(gè)人主頁(yè)：

haoheliu (Leo) (github.com)

關(guān)于TechBeat人工智能社區(qū)

TechBeat (www.techbeat.net) 是一個(gè)薈聚全球華人AI精英的成長(zhǎng)社區(qū)。我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其學(xué)習(xí)成長(zhǎng)。期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地，分享自己最新工作的沃土，在AI進(jìn)階之路上的升級(jí)打怪的根據(jù)地！

更多詳細(xì)介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ?

標(biāo)簽：