【語音之家公開課】多說話人語音識(shí)別的前沿進(jìn)展

本次語音之家公開課邀請(qǐng)到俞帆進(jìn)行分享多說話人語音識(shí)別前沿進(jìn)展。
公開課簡介
主題:多說話人語音識(shí)別前沿進(jìn)展
時(shí)間:2023年3月31日19:00-20:00

嘉賓介紹
俞帆,西北工業(yè)大學(xué)音頻語音與語言處理研究組碩士,導(dǎo)師謝磊教授,畢業(yè)加入阿里巴巴達(dá)摩院。研究生期間主要研究方向?yàn)槎嗾f話人語音識(shí)別、非自回歸語音識(shí)別、中英混雜語音識(shí)別等,在包括ICASSP、Interspeech等語音頂級(jí)國際會(huì)議發(fā)表多篇論文。
課程摘要
在深度學(xué)習(xí)的推動(dòng)下,在典型單說話人語音場(chǎng)景下,語音識(shí)別系統(tǒng)的準(zhǔn)確率已經(jīng)達(dá)到了人工轉(zhuǎn)錄員的水平。但是在包含說話人語音重疊的多說話人場(chǎng)景下準(zhǔn)確地識(shí)別語音仍然是一個(gè)非常挑戰(zhàn)的任務(wù),這需要對(duì)多個(gè)同時(shí)講話的說話人進(jìn)行轉(zhuǎn)錄。特別是會(huì)議場(chǎng)景中包含了更多挑戰(zhàn),如說話人重疊率較高的多人討論、說話人數(shù)量未知、遠(yuǎn)場(chǎng)語音信號(hào)衰減、噪聲和混響干擾等。本次分享將概述多說話人語音識(shí)別的背景、研究現(xiàn)狀,對(duì)比分析目前已發(fā)布的多說話人數(shù)據(jù)集,而后對(duì)本人碩士期間多說話人語音識(shí)別前沿工作進(jìn)行介紹,包括多通道多說話人語音識(shí)別、基于級(jí)聯(lián)的說話人相關(guān)語音識(shí)別、基于非自回歸的說話人相關(guān)語音識(shí)別等工作,最后對(duì)未來工作進(jìn)行展望。
議程

聽課方式
直播將通過語音之家B站進(jìn)行直播
手機(jī)端、PC端可同步觀看(2023年3月31日19:00進(jìn)入房間才是哦?。?/p>
??????

