《ASV-Subtools 聲紋識別實戰(zhàn)》課程

2022-06-30 12:14 作者:語音之家 0人讀過 | 我要投稿

課程入口：https://xjw.h5.xeknow.com/s/1oH9ik

《ASV-Subtools 聲紋識別實戰(zhàn)》公開課

直播時間：7月5日19:00-20:00

掃下方二維碼觀看，可提前預(yù)約

ASV-Subtools簡介

近年來，隨著深度學(xué)習(xí)的快速發(fā)展，簡單易用、性能穩(wěn)定、開發(fā)高效的深度學(xué)習(xí)框架越來越被科研和工業(yè)界人員所需要。其中，TensorFlow和Pytorch則是目前深度學(xué)習(xí)的主流框架。為了方便進行聲紋識別技術(shù)相關(guān)的研究，廈門大學(xué)智能語音實驗室（XMUSPEECH）團隊經(jīng)過近兩年的開發(fā)，基于Kaldi和PyTorch推出了一套高效、易于開發(fā)擴展的聲紋識別開源工具—ASV-Subtools。ASV-Subtools的設(shè)計理念在于代碼高度復(fù)用的同時保持模塊分化和開發(fā)自由。因此，體現(xiàn)出以下四個特點：

高效性：集成Kaldi和PyTorch各自的優(yōu)點，實現(xiàn)完整的深度聲紋識別系統(tǒng)；
可讀性：代碼中包括了注釋說明和教程文檔，增加了代碼可讀性，方便用戶輕松上手；
通用性：將核心模塊分離出來，支持?jǐn)U展到新的模型。最新架構(gòu)，如SE-block、ECAPA-TDNN，可以使用Torch內(nèi)部的標(biāo)準(zhǔn)組件輕松擴展到ASV-Subtools中；
靈活性：用戶只需通過簡單地編輯配置文件，就能探索不同的網(wǎng)絡(luò)架構(gòu)、池化層、損失函數(shù)以及其他組件，實現(xiàn)最優(yōu)異的性能。

目前，該工具已在GitHub上發(fā)布。關(guān)于該工具的介紹論文（ASV-Subtools: Open Source Toolkit for Automatic Speaker Verification），已被語音頂會 ICASSP 2021?錄用。

實戰(zhàn)性能

ASV-Subtools充分結(jié)合了Kaldi 在語音信號和后端處理的高效性以及PyTorch 開發(fā)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的便捷靈活性。封裝了很多實用、高效的腳本，其中包括數(shù)據(jù)集處理、數(shù)據(jù)擴增、特征提取、靜音消除、Kaldi模型訓(xùn)練、x-vector加速提取、后端打分和指標(biāo)計算等。此外，該工具還提供了大量高層框架和神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的腳本，這也是ASV-Subtools的核心內(nèi)容。相比按序采樣，ASV-Subtools還提供了說話人均衡采樣來解決說話人不均衡問題。網(wǎng)絡(luò)訓(xùn)練完之后，ASV-Subtools將提取出來的x-vector 寫為ark格式文件，利用Kaldi進行后端處理并進行相似度判別打分。

前端訓(xùn)練框架

ASV-Subtools整體框架結(jié)構(gòu)如圖所示。提供了大量模型組件（nnet），方便開發(fā)者進行網(wǎng)絡(luò)配置，當(dāng)然，用戶也可直接選擇使用PyTorch提供的原生組件進行構(gòu)建?？蚣艿牡讓訛榛赑ython實現(xiàn)的各個基本對象，如對應(yīng)到Kaldi映射目錄的Kaldi_dataset，采樣方法samples，模型基本組件components、activation和loss，訓(xùn)練有關(guān)的訓(xùn)練流程trainer，訓(xùn)練進度顯示reporter，優(yōu)化器以及學(xué)習(xí)率綜合配置等。

后端優(yōu)化

考慮到數(shù)據(jù)集的規(guī)模往往較為龐大，該工具對所有數(shù)據(jù)集處理腳本均進行了速度優(yōu)化，如代碼上的時間復(fù)雜度優(yōu)化或使用多進程進行提速。此外，由于后端處理有很多可能的復(fù)雜組合，用于后端打分的訓(xùn)練集、注冊集和測試集之間也有較多種處理方法，為了用戶靈活配置，ASV-Subtools中實現(xiàn)了一個高效的打分腳本(scoreSet.sh)：當(dāng)給定數(shù)據(jù)處理順序，該腳本通過圖的深度遍歷方法自動將整個打分過程連接起來。具體如圖所示，這極大地方便了用戶進行后端調(diào)試，無需每次重寫代碼。

基線結(jié)果

目前為止，ASV-Subtools已開發(fā)了眾多聲紋識別中常用的算法和網(wǎng)絡(luò)架構(gòu)，例如使用一維卷積等價實現(xiàn)的標(biāo)準(zhǔn)x-vector網(wǎng)絡(luò)，還集成了多種PLDA自適應(yīng)的技術(shù)，解決現(xiàn)實情況下域不匹配的問題，并提供了多種實驗配置的運行示例。大量實驗結(jié)果表明ASV-Subtools顯示出穩(wěn)定性和可靠性，并在OLR Challenge 2020~2021?連續(xù)兩屆“東方語種識別競賽”中做為賽事基線系統(tǒng)，同時也做為聲紋識別競賽CNSRC 2022的基線系統(tǒng)之一。

ASV-Subtools 聲紋識別實戰(zhàn)

語音之家-AI工匠學(xué)堂推出《ASV-Subtools 聲紋識別實戰(zhàn)》課程，聲紋識別受到越來越多的重視，應(yīng)用于刑偵、人機交互聲紋口令驗證、銀行聲紋身份驗證等領(lǐng)域，工業(yè)界崗位需求迫切。這門課程強調(diào)實戰(zhàn)，結(jié)合開源工具，讓學(xué)員在較短的時間內(nèi)，快速掌握算法研究和產(chǎn)品開發(fā)的能力。

講師力量

課程目錄

課程必備入門基礎(chǔ)

課程收獲

全套課程服務(wù)

怎么上課？在哪上課？報名后，班主任會引導(dǎo)你按時上課。本門課程采取錄播的形式，電腦/手機都能隨時看課，同時配有微信學(xué)習(xí)群，授課教師、助教老師在線答疑解惑。
我可以在任何時間學(xué)習(xí)課程嗎？課程有效期是多久？課程有效期內(nèi)，任何時間都可以學(xué)習(xí)。本門課一共設(shè)置9節(jié)課，學(xué)習(xí)期2個月，課程有效期為開課后一年，可在一年內(nèi)反復(fù)學(xué)習(xí)。
有不懂的地方，是否有專門的老師來提供幫助?除了授課教師外，本門課還配有班主任及助教老師，班主任會督促引導(dǎo)你按時學(xué)習(xí)，學(xué)習(xí)中有不懂的地方助教老師或授課老師在線提供幫助。
答疑課中我的問題一定會被回答到么？課程學(xué)習(xí)中，會安排老師做在線答疑課，班主任會提前收集學(xué)生提問，答疑課后有問題也可以隨時在學(xué)習(xí)群里提問，有問必答。
怎么進入該課程答疑群？報名后，由班主任邀請進入本門課程學(xué)習(xí)群。
課程不滿意，可以退款嗎?開課學(xué)習(xí)7天內(nèi)不滿意可無條件退款。
課程學(xué)完后，如果還需要求職幫助，怎么辦？在你學(xué)完全部課程后，老師會為你做一份專屬的學(xué)習(xí)情況總結(jié)，如果你還有求職需要，可以聯(lián)系你的班主任問詢。

標(biāo)簽：