《ASV-Subtools 聲紋識別實戰(zhàn)》課程
課程入口:https://xjw.h5.xeknow.com/s/1oH9ik
《ASV-Subtools 聲紋識別實戰(zhàn)》公開課

直播時間:7月5日19:00-20:00
掃下方二維碼觀看,可提前預(yù)約

ASV-Subtools簡介
近年來,隨著深度學(xué)習(xí)的快速發(fā)展,簡單易用、性能穩(wěn)定、開發(fā)高效的深度學(xué)習(xí)框架越來越被科研和工業(yè)界人員所需要。其中,TensorFlow和Pytorch則是目前深度學(xué)習(xí)的主流框架。為了方便進行聲紋識別技術(shù)相關(guān)的研究,廈門大學(xué)智能語音實驗室(XMUSPEECH)團隊經(jīng)過近兩年的開發(fā),基于Kaldi和PyTorch推出了一套高效、易于開發(fā)擴展的聲紋識別開源工具—ASV-Subtools。ASV-Subtools的設(shè)計理念在于代碼高度復(fù)用的同時保持模塊分化和開發(fā)自由。因此,體現(xiàn)出以下四個特點:
高效性:集成Kaldi和PyTorch各自的優(yōu)點,實現(xiàn)完整的深度聲紋識別系統(tǒng);
可讀性:代碼中包括了注釋說明和教程文檔,增加了代碼可讀性,方便用戶輕松上手;
通用性:將核心模塊分離出來,支持?jǐn)U展到新的模型。最新架構(gòu),如SE-block、ECAPA-TDNN,可以使用Torch內(nèi)部的標(biāo)準(zhǔn)組件輕松擴展到ASV-Subtools中;
靈活性:用戶只需通過簡單地編輯配置文件,就能探索不同的網(wǎng)絡(luò)架構(gòu)、池化層、損失函數(shù)以及其他組件,實現(xiàn)最優(yōu)異的性能。
目前,該工具已在GitHub上發(fā)布。關(guān)于該工具的介紹論文(ASV-Subtools: Open Source Toolkit for Automatic Speaker Verification),已被語音頂會 ICASSP 2021?錄用。

實戰(zhàn)性能
ASV-Subtools充分結(jié)合了Kaldi 在語音信號和后端處理的高效性以及PyTorch 開發(fā)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的便捷靈活性。封裝了很多實用、高效的腳本,其中包括數(shù)據(jù)集處理、數(shù)據(jù)擴增、特征提取、靜音消除、Kaldi模型訓(xùn)練、x-vector加速提取、后端打分和指標(biāo)計算等。此外,該工具還提供了大量高層框架和神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的腳本,這也是ASV-Subtools的核心內(nèi)容。相比按序采樣,ASV-Subtools還提供了說話人均衡采樣來解決說話人不均衡問題。網(wǎng)絡(luò)訓(xùn)練完之后,ASV-Subtools將提取出來的x-vector 寫為ark格式文件,利用Kaldi進行后端處理并進行相似度判別打分。
前端訓(xùn)練框架

ASV-Subtools整體框架結(jié)構(gòu)如圖所示。提供了大量模型組件(nnet),方便開發(fā)者進行網(wǎng)絡(luò)配置,當(dāng)然,用戶也可直接選擇使用PyTorch提供的原生組件進行構(gòu)建??蚣艿牡讓訛榛赑ython實現(xiàn)的各個基本對象,如對應(yīng)到Kaldi映射目錄的Kaldi_dataset,采樣方法samples,模型基本組件components、activation和loss,訓(xùn)練有關(guān)的訓(xùn)練流程trainer,訓(xùn)練進度顯示reporter,優(yōu)化器以及學(xué)習(xí)率綜合配置等。
后端優(yōu)化
考慮到數(shù)據(jù)集的規(guī)模往往較為龐大,該工具對所有數(shù)據(jù)集處理腳本均進行了速度優(yōu)化,如代碼上的時間復(fù)雜度優(yōu)化或使用多進程進行提速。此外,由于后端處理有很多可能的復(fù)雜組合,用于后端打分的訓(xùn)練集、注冊集和測試集之間也有較多種處理方法,為了用戶靈活配置,ASV-Subtools中實現(xiàn)了一個高效的打分腳本(scoreSet.sh):當(dāng)給定數(shù)據(jù)處理順序,該腳本通過圖的深度遍歷方法自動將整個打分過程連接起來。具體如圖所示,這極大地方便了用戶進行后端調(diào)試,無需每次重寫代碼。

基線結(jié)果
目前為止,ASV-Subtools已開發(fā)了眾多聲紋識別中常用的算法和網(wǎng)絡(luò)架構(gòu),例如使用一維卷積等價實現(xiàn)的標(biāo)準(zhǔn)x-vector網(wǎng)絡(luò),還集成了多種PLDA自適應(yīng)的技術(shù),解決現(xiàn)實情況下域不匹配的問題,并提供了多種實驗配置的運行示例。大量實驗結(jié)果表明ASV-Subtools顯示出穩(wěn)定性和可靠性,并在OLR Challenge 2020~2021?連續(xù)兩屆“東方語種識別競賽”中做為賽事基線系統(tǒng),同時也做為聲紋識別競賽CNSRC 2022的基線系統(tǒng)之一。
ASV-Subtools 聲紋識別實戰(zhàn)
語音之家-AI工匠學(xué)堂推出《ASV-Subtools 聲紋識別實戰(zhàn)》課程,聲紋識別受到越來越多的重視,應(yīng)用于刑偵、人機交互聲紋口令驗證、銀行聲紋身份驗證等領(lǐng)域,工業(yè)界崗位需求迫切。這門課程強調(diào)實戰(zhàn),結(jié)合開源工具,讓學(xué)員在較短的時間內(nèi),快速掌握算法研究和產(chǎn)品開發(fā)的能力。
講師力量



課程目錄

課程必備入門基礎(chǔ)


課程收獲

全套課程服務(wù)
怎么上課?在哪上課?報名后,班主任會引導(dǎo)你按時上課。本門課程采取錄播的形式,電腦/手機都能隨時看課,同時配有微信學(xué)習(xí)群,授課教師、助教老師在線答疑解惑。
我可以在任何時間學(xué)習(xí)課程嗎?課程有效期是多久?課程有效期內(nèi),任何時間都可以學(xué)習(xí)。本門課一共設(shè)置9節(jié)課,學(xué)習(xí)期2個月,課程有效期為開課后一年,可在一年內(nèi)反復(fù)學(xué)習(xí)。
有不懂的地方,是否有專門的老師來提供幫助?除了授課教師外,本門課還配有班主任及助教老師,班主任會督促引導(dǎo)你按時學(xué)習(xí),學(xué)習(xí)中有不懂的地方助教老師或授課老師在線提供幫助。
答疑課中我的問題一定會被回答到么?課程學(xué)習(xí)中,會安排老師做在線答疑課,班主任會提前收集學(xué)生提問,答疑課后有問題也可以隨時在學(xué)習(xí)群里提問,有問必答。
怎么進入該課程答疑群?報名后,由班主任邀請進入本門課程學(xué)習(xí)群。
課程不滿意,可以退款嗎?開課學(xué)習(xí)7天內(nèi)不滿意可無條件退款。
課程學(xué)完后,如果還需要求職幫助,怎么辦?在你學(xué)完全部課程后,老師會為你做一份專屬的學(xué)習(xí)情況總結(jié),如果你還有求職需要,可以聯(lián)系你的班主任問詢。