Talk預告 | ICLR'21 Oral 一作孔之豐: DiffWave, 一種基于降噪擴散概率模型的普適音頻
本周為TechBeat人工智能社區(qū)第309期線上Talk,也是ICLR 2021系列Talk第?期。
北京時間5月27日(周四)晚8點,ICLR 2021 Oral一作、UCSD在讀博士—孔之豐的第二場Talk將準時在TechBeat人工智能社區(qū)開播!他與大家分享的主題是: “DiffWave: 一種基于降噪擴散概率模型的普適音頻生成模型”,屆時將針對作者ICLR?2021?Oral?Paper?《Diffwave: A Versatile?Diffusion?Model?For?Audio?Synthesis》作出介紹。
為了幫助大家更好地理解工作,孔之豐上周曾在TechBeat介紹了相關生成模型的基礎,對生成模型進行簡短的綜述,并詳細介紹了DDPM和WaveNet兩類模型,戳節(jié)選版回顧!


Talk·信息
▼
主題:DiffWave,一種基于
降噪擴散概率模型的普適音頻生成模型
嘉賓:加州大學圣地亞哥分校
在讀博士生 孔之豐
時間:北京時間?5月27日 (周四) 20:00
地點:TechBeat人工智能社區(qū)
http://www.techbeat.net/
完整版怎么看?
掃描下方二維碼,或復制鏈接?https://datayi.cn/w/QPDLYLrP至瀏覽器,一鍵完成預約!上線后會在第一時間收到通知哦~
Talk·提綱
▼
音頻生成具有十分廣泛的應用,其包含若干種不同的任務,包括聲碼器(從梅爾圖譜生成語音),基于類別標簽的生成以及無條件的生成。傳統(tǒng)的聲碼器模型都具有明顯短板,如生成速度慢,占用體積大,或語音質量有較大的提升空間。在基于類別標簽以及無條件的生成領域,目前尚無質量較好的純粹基于聲波數(shù)據(jù)的模型。
本文提出DiffWave模型,其既可以作為一個語音質量SOTA,占用體積小且快于實時生成的聲碼器,也能在基于類別標簽以及無條件的生成上實現(xiàn)巨大的提升。
本次分享的主要內容如下:[1]. 語音合成/生成簡介,與圖像數(shù)據(jù)的差異以及難點,背景模型介紹
[2]. DiffWave:基于降噪擴散概率模型的普適音頻生成器
[3]. 實驗:聲碼器,基于類別標簽和無條件生成,以及額外展示
Talk·參考資料
▼
這是本次分享中將會提及的資料,建議提前預習哦!
[1].?DDPM 1:?https://arxiv.org/pdf/1503.03585.pdf
[2]. DDPM 2:?https://arxiv.org/pdf/2006.11239.pdf
[3]. WaveNet:?https://arxiv.org/pdf/1609.03499.pdf
[4]. Others (background):
https://deepmind.com/blog/article/wavenet-generative-model-raw-audio
[5].?Talk—DiffWave基礎, 生成模型介紹:https://www.techbeat.net/talk-info?id=524
Talk·提問交流
▼
通過以下兩種方式提問都將獲得微信現(xiàn)金紅包獎勵哦!
方式 ①
在Talk界面下的【交流區(qū)】參與互動!留下你的打call??和問題??,和更多小伙伴們共同討論,被講者直接翻牌解答!

你的每一次貢獻,我們都會給予你相應的i豆積分,還會有驚喜獎勵哦!
方式 ②
在本文留言區(qū)直接提出你的問題,或掃描下方二維碼提問!

Talk·嘉賓介紹
▼

UCSD在讀博士
孔之豐,本科畢業(yè)于西安交通大學數(shù)學系,現(xiàn)在是加州大學圣地亞哥分校計算機科學的三年級博士生,導師是Kamalika Chaudhuri, 主要的研究方向為生成模型的理論,理解與應用。在ICLR、AISTATS、AAAI等會議發(fā)表論文,獲得百度美國研究院和英偉達深度學習研究院的研究實習。
關于TechBeat人工智能社區(qū)
TechBeat(www.techbeat.net)是一個薈聚全球華人AI精英的成長社區(qū)。我們希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其學習成長。期待這里可以成為你學習AI前沿知識的高地,分享自己最新工作的沃土,在AI進階之路上的升級打怪的根據(jù)地!
更多詳細介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ