端到端聲源分離研究:現(xiàn)狀、進(jìn)展和未來(lái)
本文是由深藍(lán)學(xué)院邀請(qǐng)哥倫比亞大學(xué)博士生羅藝主講的『端到端聲源分離研究進(jìn)展』整理而來(lái)。內(nèi)容主要覆蓋了單通道和多通道上端到端音源分離的現(xiàn)狀和進(jìn)展以及未來(lái)的研究方向。
文末有彩蛋,評(píng)論可獲取課程學(xué)習(xí)資料~
------本文約5580字,閱讀約需20min------

端到端音源分離定義與進(jìn)展
什么是端到端音源分離呢?羅藝?yán)蠋熓紫冉榻B了端到端音源分離的定義。從名稱來(lái)看,端到端的含義是模型輸入源波形后直接輸出目標(biāo)波形,不需要進(jìn)行傅里葉變換將時(shí)域信號(hào)轉(zhuǎn)換至頻域;音源分離的含義是將混合語(yǔ)音中的兩個(gè)或多個(gè)聲源分離出來(lái)。

(圖1)
目前,端到端音源分離已經(jīng)有了一些在時(shí)域和頻域上的研究,羅藝?yán)蠋熞浴癢SJ0-2mix”數(shù)據(jù)集為例,并以在語(yǔ)音分離任務(wù)中使用十分廣泛的SI-SDR為指標(biāo),為我們展示了目前端到端音源分離研究的進(jìn)展。從圖2中也可以直觀地看到時(shí)域方法相較頻域方法能夠帶來(lái)非常明顯的提升,時(shí)域方法也因此成為了端到端音源分離的熱門(mén)研究方向。

(圖2)
單通道端到端音源分離研究
頻域方法中廣泛使用神經(jīng)網(wǎng)絡(luò)估計(jì)TF- Masking,并作用于混合語(yǔ)音從而得到分離語(yǔ)音。但該方法存在相位信息缺失、性能上限受制于oracle mask以及STFT特征不一定是分離模型最優(yōu)特征等問(wèn)題或挑戰(zhàn)。
因此時(shí)域模型提出可以通過(guò)使用實(shí)數(shù)特征提取器以替代STFT特征以及直接建立wAV2wav映射的方法來(lái)解決上述問(wèn)題。
最先被提出的方法為T(mén)asNet模型,該模型使用Encoder提取語(yǔ)音二維特征,隨后通過(guò)Separation估計(jì)說(shuō)話人mask,最后通過(guò)Decoder實(shí)現(xiàn)二維特征到語(yǔ)音波形的轉(zhuǎn)換從而得到分離語(yǔ)音。

(圖3)
由于Decoder存在無(wú)法完美重構(gòu)的問(wèn)題,因此對(duì)于TasNet的深入探究和修改也得到了很多新的研究結(jié)果。在下述Two-step separation中,首先單獨(dú)訓(xùn)練Encoder以及Decoder以期其能引入更少的失真。隨后固定Encoder和Decoder只訓(xùn)練Separation,該訓(xùn)練方法可提升分離上限。

(圖4)
此外我們希望Encoder能夠更關(guān)注低中頻部分,因此提出了Multi-phase Gammatone filterbank,相較于隨機(jī)初始化學(xué)習(xí),該方法可得到更好的頻率響應(yīng)分布。

(圖5)
此外還有對(duì)訓(xùn)練目標(biāo)和訓(xùn)練任務(wù)上的一些探索。Wavesplit引入說(shuō)話人特征進(jìn)行分離。該模型首先在一個(gè)固定時(shí)間窗內(nèi)計(jì)算說(shuō)話人向量,然后通過(guò)聚類計(jì)算出全局向量。之后將說(shuō)話人信息送入分離網(wǎng)絡(luò)得到分離結(jié)果。

(圖6)
MulCat DPRNN通過(guò)同時(shí)優(yōu)化分離和說(shuō)話人識(shí)別兩個(gè)目標(biāo)實(shí)現(xiàn)更好的說(shuō)話人分離,此外該網(wǎng)絡(luò)能夠?qū)崿F(xiàn)5-6人的分離,因此該網(wǎng)絡(luò)是一個(gè)很好的設(shè)計(jì)。

(圖7)
以上介紹的網(wǎng)絡(luò)目標(biāo)均為將所有源分離出來(lái),但在一些情況下一些源不具備很明顯的被分離的意義,如智能音箱場(chǎng)景,因此說(shuō)話人提取也具有十分重要的研究意義。
SpEx/SpEx+聯(lián)合TasNet和說(shuō)話人提取網(wǎng)絡(luò),從而只輸出一個(gè)說(shuō)話人的mask,實(shí)現(xiàn)聲源提取的工作。

?
(圖8)
時(shí)域分離模型亦可作用到音樂(lè)分離任務(wù)上。音樂(lè)分離與語(yǔ)音分離的不同之處在于不存在置換問(wèn)題。但由于音樂(lè)采樣率普遍高于語(yǔ)音,因此會(huì)存在建模長(zhǎng)序列及不同頻帶信息捕捉的問(wèn)題。
Music separation采用progressive learning方法,從低至高分采樣率處理,并通過(guò)元學(xué)習(xí)(meta-learning)的方法,對(duì)不同聲源類型進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)整。

語(yǔ)音分離的最終目標(biāo)為Universal separation,即廣義語(yǔ)音分離。Universal sound separation通過(guò)聲學(xué)事件檢測(cè),提取聲學(xué)事件特征,從而輔助廣義聲源分離。

如果跳出音頻,多模態(tài)信息亦可輔助語(yǔ)音分離。例如視頻會(huì)議場(chǎng)景下,我們可以通過(guò)視頻信息檢測(cè)說(shuō)話人特征,并分離該說(shuō)話人語(yǔ)音。Audio-visual separation通過(guò)圖像分析網(wǎng)絡(luò)對(duì)嘴唇運(yùn)動(dòng)特征提取,送入TasNet模塊,從而輔助音頻分離任務(wù)。

如果跳出Encoder-Separation-Decoder框架,可以進(jìn)行waveform-to-waveform直接映射。Wave-U-Net通過(guò)設(shè)計(jì)相同層數(shù)的廣義編解碼器并實(shí)現(xiàn)編解碼器間向量拼接操作,通過(guò)一維卷積實(shí)現(xiàn)波形-波形映射。

(圖12)?
基于WaveNet設(shè)計(jì)的模型結(jié)構(gòu)在最后一層的輸出上將所有聲源分離開(kāi)來(lái)。

(圖13)?
多通道端到端音源分離研究
相較于單通道,多通道語(yǔ)音可得到更多的空間信息,從而進(jìn)一步輔助語(yǔ)音分離。目前多通道端到端語(yǔ)音分離研究主要集中在兩個(gè)方向:神經(jīng)網(wǎng)絡(luò)波束形成以及單通道模型向多通道擴(kuò)展?;谳敵龅纳窠?jīng)網(wǎng)絡(luò)波束形成方法主要有DeepBeam和Beam-TasNet方法。
DeepBeam使用時(shí)域多通道維納濾波,先選擇一個(gè)參考麥克風(fēng),通過(guò)訓(xùn)練單通道增強(qiáng)網(wǎng)絡(luò)對(duì)該麥克風(fēng)信號(hào)進(jìn)行預(yù)增強(qiáng)得到更加干凈語(yǔ)音的信息,并利用該信息作為維納濾波的目標(biāo),對(duì)其他麥克風(fēng)解最優(yōu)維納濾波解得到最優(yōu)濾波器參數(shù)。

(圖14)?
Beam-TasNet方法通過(guò)時(shí)域頻域結(jié)合的方法。首先通過(guò)多通道TasNet分離得到預(yù)分離語(yǔ)音,隨后通過(guò)分離語(yǔ)音估計(jì)頻域上的MVDR權(quán)重,并作用于混合語(yǔ)音中得到分離語(yǔ)音。該方法通過(guò)時(shí)域方法隱式地進(jìn)行了相位估計(jì),并利用了空間特征得到分離語(yǔ)音。此外時(shí)域方法loss函數(shù)存在靜音段消除過(guò)于激進(jìn)的問(wèn)題從而導(dǎo)致聽(tīng)感上的不友好。
而MVDR方法可對(duì)整句話進(jìn)行濾波,對(duì)某一聲源消除能力略低但失真較少,因此Beam-TasNet 中也考慮了如何將二者的長(zhǎng)處在后處理步驟中進(jìn)行結(jié)合,以得到更好的性能。

(圖15)
此外基于神經(jīng)網(wǎng)絡(luò)的波束形成主要工作有Neural network adaptive beamforming(NAB),F(xiàn)ilter-and-sum Network(FaSNet)。
NAB方法通過(guò)將多通道信號(hào)拼接送入神經(jīng)網(wǎng)絡(luò)估計(jì)得到每個(gè)通道的濾波器系數(shù),并作用于每個(gè)通道的原始信號(hào)可得到增強(qiáng)信號(hào)。該方法類似于Filter-and-Sum Beamformer。

(圖16)
FaSNet則側(cè)重于多通道間信息共享以聯(lián)合優(yōu)化多通道時(shí)域?yàn)V波器。(該方法也是筆者目前嘗試的所有時(shí)域分離模型中效果最好的方法)

(圖17)
而對(duì)于單通道向多通道擴(kuò)展的方向,目前主要的方法是對(duì)單通道信號(hào)加入多通道信息作為模型輸入以及直接將多通道信號(hào)作為模型輸入。Multi-channel TasNet通過(guò)將單通道信息拼入IPD進(jìn)行聯(lián)合訓(xùn)練,或直接使用二維卷積估計(jì)通道間特征插值進(jìn)行聯(lián)合訓(xùn)練。


?(圖18)
Multi-channel Wave-U-Net則是將多通道信號(hào)拼接送入Wave-U-Net,因此只需將模型的輸入通道數(shù)改為信號(hào)的通道數(shù)即可。

(圖19)
一些問(wèn)題和未來(lái)展望
如何得知混合音頻中有多少說(shuō)話人?在會(huì)議或討論場(chǎng)景中兩人同時(shí)說(shuō)話的占比一般最高只為30%左右,大多數(shù)時(shí)間為一個(gè)人甚至沒(méi)有人說(shuō)話。
因此如何使用一個(gè)分離模型保證在不同說(shuō)話人數(shù)量情況下都能保持較穩(wěn)定性能是一個(gè)比較挑戰(zhàn)的問(wèn)題。目前在嘗試的方法有多說(shuō)話人活動(dòng)檢測(cè)以及說(shuō)話人識(shí)別等,還可設(shè)計(jì)不同的訓(xùn)練目標(biāo)以匹配不同的說(shuō)話人個(gè)數(shù)。
長(zhǎng)時(shí)間語(yǔ)音分離。如何保證在1-10min甚至1h的語(yǔ)音能夠一致保證分離的穩(wěn)定性?目前已有LibriCSS數(shù)據(jù)集面向此應(yīng)用場(chǎng)景。此外還有JHU JSALT 2020 workshop面向長(zhǎng)時(shí)間多人說(shuō)話的說(shuō)話人數(shù)量、語(yǔ)音識(shí)別、語(yǔ)音分離和說(shuō)話人識(shí)別。(https://www.clsp.jhu.edu/speech-recognition-anddiarization-for-unsegmented-multi-talker-recordings-with-speaker-overlaps/)
未來(lái)一些挑戰(zhàn)包括廣泛的語(yǔ)音分離、前后端聯(lián)合優(yōu)化及真實(shí)場(chǎng)景(包括遠(yuǎn)場(chǎng)、噪聲、混響和域不匹配)下的應(yīng)用。
Q&A
1. 單通道與多通道語(yǔ)音分離的各自應(yīng)用場(chǎng)景有什么不同,多通道有什么具體優(yōu)勢(shì)嗎?
對(duì)于應(yīng)用場(chǎng)景,主要是設(shè)備上的區(qū)分,有些設(shè)備只有一個(gè)麥克風(fēng)因此就只能做單通道語(yǔ)音分離。多通道由于有多路麥克風(fēng)數(shù)據(jù)因此可以獲得更多的信息,輸入的信息越多我們能提取的信息也就越多,比如多通道中IPD等信息是可以直接幫助性能提升的。
另外從傳統(tǒng)上,多通道可以實(shí)現(xiàn)beamforming,它的泛化能力和魯棒性非常強(qiáng),因此相比于單通道有比較大的優(yōu)勢(shì)。2. 多通道的評(píng)估指標(biāo)該怎么計(jì)算,因?yàn)樵次募突旌弦纛l文件有多個(gè)通道,分離結(jié)果該怎樣像單通道一樣進(jìn)行比對(duì)呢?
由于多通道大部分還是用于語(yǔ)音識(shí)別,所以可以使用語(yǔ)音識(shí)別的指標(biāo)詞錯(cuò)誤率(Word Error Rate, WER)進(jìn)行對(duì)比;另外還可以從主觀聽(tīng)覺(jué)上進(jìn)行比較,使用平均主觀意見(jiàn)分(Mean Opinion Score, MOS)。
端到端則相對(duì)更容易一點(diǎn),可以直接計(jì)算網(wǎng)絡(luò)的輸出和目標(biāo)聲源之間的指標(biāo),包括頻域指標(biāo)和時(shí)域指標(biāo)。整體上來(lái)講,目前對(duì)于可以廣泛應(yīng)用到端到端和非端到端的指標(biāo)仍需研究。3. 目前的語(yǔ)音分離還有哪些不足還需完善才能落地商用,現(xiàn)在有online(實(shí)時(shí)的)語(yǔ)音分離的研究嗎?
目前智能家居、耳機(jī)和麥克風(fēng)等都用到了很多分離降噪的研究。Online主要取決于模型設(shè)計(jì),目前,可以在實(shí)時(shí)性和性能上進(jìn)行研究。
4. 這些方法可以用來(lái)單通道語(yǔ)音降噪嗎,如果可以的話實(shí)時(shí)性上和rnnoise算法相比怎么樣,模型大小和速度和效果上如何?
分離模型都可以用來(lái)做降噪,模型的大小和速度上需要進(jìn)行權(quán)衡,和rnnoise進(jìn)行對(duì)比的話還需要確定模型的參數(shù)大小,單看模型的話是無(wú)法分析這件事的。
5. Audio-Visual Speech Separation的研究進(jìn)展如何?圍欄研究熱點(diǎn)集中在哪?
我們舉一個(gè)Audio-Visual研究的例子,我們對(duì)于Audio和Visual各有一個(gè)處理模塊,之后會(huì)有一個(gè)將Audio和Visual處理結(jié)果融合起來(lái)的模塊,然后再去做一個(gè)分離,這是Audio-Visual整體的框架。未來(lái)的研究方向主要是前文提到的一些挑戰(zhàn)。
6. 基于深度學(xué)習(xí)的降噪,什么樣的代價(jià)函數(shù)效果最好?
這個(gè)問(wèn)題分兩個(gè)方面,首先看你的任務(wù)目標(biāo)是什么,如果目標(biāo)任務(wù)是識(shí)別的話,si-snr和具體詞錯(cuò)誤率不一定是線性的,所以我們不能說(shuō)某個(gè)loss在任務(wù)上絕對(duì)比另一個(gè)更好,但如果我們?cè)u(píng)價(jià)指標(biāo)和訓(xùn)練指標(biāo)相同,那我們使用評(píng)價(jià)指標(biāo)作為loss肯定是最好的。irm對(duì)相位沒(méi)有建模,因此irm在某些情況下不是很好,但是對(duì)于Perceptual evaluation of speech quality(PESQ)指標(biāo)表現(xiàn)較好,可以減少語(yǔ)音的失真。
7. 近期的研究大多偏向時(shí)域分離,那時(shí)域分離效果為什么優(yōu)于頻域效果呢?以后的發(fā)展方向
主要是相位信息的建模、頻域oracle mask的性能上限另外是使用的特征上來(lái)回優(yōu)化出一個(gè)較好的特征。以后的發(fā)展方向是其他各種模型的一些設(shè)計(jì),多模態(tài)、多通道以及其他前文提到的挑戰(zhàn)。
8. Source separation和speaker-diarization在技術(shù)實(shí)現(xiàn)上有什么聯(lián)系嗎,我在做speaker-diarization任務(wù),能借鑒source separation的什么思路?
傳統(tǒng)的speaker-diarization一個(gè)假設(shè)是說(shuō)話人之間獨(dú)立無(wú)重疊。但如果我們說(shuō)話人之間有重疊,那么不可避免的會(huì)用到分離,今年開(kāi)始的做端到端的speaker-diarization的工作,speaker-diarization可以當(dāng)作是一個(gè)粗粒度的source separation,因此很多source separation的框架都可以用到speaker-diarization中。這是一個(gè)比較重要的task。
9. 當(dāng)輸入音頻存在混響時(shí),對(duì)于Si-SNR loss是否需要修正?
是需要修正的,對(duì)于輸入音頻存在混響的情況如何修正目前沒(méi)有特別好的方法。有很多工作都在關(guān)注修改Si-SNR loss使其更好的反應(yīng)分離的性能,并讓其包含有用的信息。
10. 單通道語(yǔ)音分離由于沒(méi)有IPD/ISD等空間信息,智能做譜分析,那么說(shuō)話人的聲紋特征是否是重要的分離依據(jù)?訓(xùn)練集中不同說(shuō)話人樣本太少是否是跨數(shù)據(jù)集表現(xiàn)答復(fù)下降的主要原因?如果把speaker-diarization任務(wù)中的一些pre-train模塊放到分離網(wǎng)絡(luò)前輔助encode是否會(huì)有提升?
近期的一些模型,會(huì)在分離的時(shí)候直接加一個(gè)說(shuō)話人識(shí)別的損失函數(shù)?;蛘呤菍⒄f(shuō)話人信息當(dāng)作輸入提供給網(wǎng)絡(luò),但是對(duì)于它是否是主要的分離依據(jù),還需要更多的實(shí)驗(yàn)進(jìn)行對(duì)比。
對(duì)于最后一個(gè)問(wèn)題把diarization中pre-train的模塊放到分離網(wǎng)絡(luò)前輔助encode是一定會(huì)有提升的。speaker-diarization和source separation是互幫互助的關(guān)系。但是對(duì)于end2end模型由于處在較為早期的研究狀態(tài),具體的性能提升結(jié)果還需要更多研究。
11. 干擾人聲,混響和噪聲,遠(yuǎn)場(chǎng)能不能一起處理?不同重疊率的泛化能力怎么提升?
直觀講可以,端到端的話可以將這些進(jìn)行融合,但是一般這么做的效果并不會(huì)很好。這里包括三個(gè)問(wèn)題——分離、降噪、去混響。一般來(lái)說(shuō)端到端的程度越高泛化能力越差因此泛化能力也是一個(gè)比較大的問(wèn)題。不同重疊率的泛化能力提升最簡(jiǎn)單的是通過(guò)不同比例的不同重疊率的數(shù)據(jù),也可以加入speaker count(說(shuō)話人數(shù)量檢測(cè)),某些部分只有一個(gè)說(shuō)話人,可以在這個(gè)部分不做分離,做一個(gè)動(dòng)態(tài)的處理。
參考文獻(xiàn)
[1] Le Roux, Jonathan, et al. "SDR–half-baked or well done?." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and??Signal Processing (ICASSP). IEEE, 2019.
[2]?Luo, Yi, and Nima Mesgarani. "TasNet: time-domain audio separation network for real-time, single-channel speech separation." 2018?IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
[3] Luo, Yi, and Nima Mesgarani. "Conv-TasNet: Surpassing ideal time–frequency magnitude masking for speech separation." IEEE/ACM??transactions on audio, speech, and language processing 27.8 (2019): 1256-1266.
[4] Luo, Yi, Zhuo Chen, and Takuya Yoshioka. "Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech?separation." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[5] Tzinis, Efthymios, et al. "Two-Step Sound Source Separation: Training On Learned Latent Targets." ICASSP 2020-2020 IEEE International?Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[6] Ditter, David, and Timo Gerkmann. "A multi-phase gammatone filterbank for speech separation via tasnet." ICASSP 2020-2020 IEEE?International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[7] Zeghidour, Neil, and David Grangier. "Wavesplit: End-to-end speech separation by speaker clustering." arXiv preprint arXiv:2002.08933?(2020).
[8] Nachmani, Eliya, Yossi Adi, and Lior Wolf. "Voice Separation with an Unknown Number of Multiple Speakers." arXiv preprint??arXiv:2003.01531 (2020)?
[9] Xu, Chenglin, et al. "SpEx: Multi-Scale Time Domain Speaker Extraction Network." arXiv preprint arXiv:2004.08326 (2020).
[10] Ge, Meng, et al. "SpEx+: A Complete Time Domain Speaker Extraction Network." arXiv preprint arXiv:2005.04686 (2020).
[11] Samuel, David, Aditya Ganeshan, and Jason Naradowsky. "Meta-learning Extractors for Music Source Separation." ICASSP 2020-2020?IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[12] Kavalerov, Ilya, et al. "Universal sound separation." 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics??(WASPAA). IEEE, 2019.
[13] Tzinis, Efthymios, et al. "Improving universal sound separation using sound classification." ICASSP 2020-2020 IEEE International?Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[14] Wu, Jian, et al. "Time domain audio visual speech separation." arXiv preprint arXiv:1904.03760 (2019).
[15] Stoller, Daniel, Sebastian Ewert, and Simon Dixon. "Wave-U-Net: A multi-scale neural network for end-to-end audio source??separation." arXiv preprint arXiv:1806.03185 (2018).
[16] Lluís, Francesc, Jordi Pons, and Xavier Serra. "End-to-end music source separation: is it possible in the waveform domain?." arXiv??preprint arXiv:1810.12187 (2018).?
[17] Qian, Kaizhi, et al. "Deep learning based speech beamforming." 2018 IEEE International Conference on Acoustics, Speech and Signal? ?Processing (ICASSP). IEEE, 2018.
[18] Ochiai, Tsubasa, et al. "Beam-TasNet: Time-domain audio separation network meets frequency-domain beamformer." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[19] Li, Bo, et al. "Neural network adaptive beamforming for robust multichannel speech recognition." (2016).
[20] Luo, Yi, et al. "FaSNet: Low-latency adaptive beamforming for multi-microphone audio processing." 2019 IEEE Automatic Speech??Recognition and Understanding Workshop (ASRU). IEEE, 2019.
[21] Luo, Yi, et al. "End-to-end microphone permutation and number invariant multi-channel speech separation." ICASSP 2020-2020 IEEE??International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[22] Gu, Rongzhi, et al. "End-to-end multi-channel speech separation." arXiv preprint arXiv:1905.06286 (2019).
[23] Gu, Rongzhi, et al. "Enhancing End-to-End Multi-Channel Speech Separation Via Spatial Feature Learning." ICASSP 2020-2020 IEEE?International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[24] Medennikov, Ivan, et al. "Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party??Scenario." arXiv preprint arXiv:2005.07272 (2020)?
[25] Horiguchi, Shota, et al. "End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based? ?Attractors." arXiv preprint arXiv:2005.09921 (2020).
[26] Takahashi, Naoya, et al. "Recursive speech separation for unknown number of speakers." arXiv preprint arXiv:1904.03065??(2019).
[27] Luo, Yi, and Nima Mesgarani. "Separating varying numbers of sources with auxiliary autoencoding loss." arXiv preprint??arXiv:2003.12326 (2020).
[28] Chen, Zhuo, et al. "Continuous speech separation: Dataset and analysis." ICASSP 2020-2020 IEEE International Conference on??Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[29] von Neumann, Thilo, et al. "End-to-end training of time domain audio separation and recognition." ICASSP 2020-2020 IEEE??International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[30] von Neumann, Thilo, et al. "Multi-talker ASR for an unknown number of sources: Joint training of source counting, separation??and ASR." arXiv preprint arXiv:2006.02786 (2020).
[31] Maciejewski, Matthew, et al. "WHAMR!: Noisy and reverberant single-channel speech separation." ICASSP 2020-2020 IEEE?International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.?
本文原創(chuàng)作者:付藝輝,姚卓遠(yuǎn)

深藍(lán)學(xué)院——專注人工智能的在線教育 官網(wǎng):https://www.shenlanxueyuan.com/