最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

開源AI語音識(shí)別新工作:Distil-Whisper真的又快又準(zhǔn)

2023-11-06 17:57 作者:ReadPaper論文閱讀  | 我要投稿

OpenAI的語音識(shí)別模型Whisper在經(jīng)過HuggingFace團(tuán)隊(duì)的蒸餾處理后,誕生了Distil-Whisper。這一新變體在保持高準(zhǔn)確度的同時(shí),實(shí)現(xiàn)了數(shù)倍的速度提升,尤其在處理英語語音數(shù)據(jù)時(shí)表現(xiàn)出色。雖然模型規(guī)模縮小,但其在短音頻的詞錯(cuò)誤率(WER)與原模型相差無幾,在長音頻處理上甚至超越了原模型。

試玩地址(colab):https://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynb

項(xiàng)目鏈接:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

模型鏈接:https://huggingface.co/models?other=arxiv:2311.00430

論文鏈接:https://arxiv.org/pdf/2311.00430.pdf

Readpaper鏈接:https://readpaper.com/paper/2030129136077441024

Demo鏈接:https://huggingface.co/spaces/Xenova/distil-whisper-web


1?模型架構(gòu)與性能

Distil-Whisper是基于OpenAI的Whisper模型的蒸餾版,主要有兩個(gè)版本,分別是參數(shù)量為756M的distil-large-v2和參數(shù)量為394M的distil-medium.en。這兩個(gè)版本在模型大小上都有顯著的縮減,但在性能上卻做到了與原始模型相近或者在某些方面甚至更好。特別是在處理長音頻時(shí),Distil-Whisper展現(xiàn)出了更低的詞錯(cuò)誤率(WER),這意味著它在轉(zhuǎn)錄長段落的語音時(shí)更加精確。


2?數(shù)據(jù)處理與訓(xùn)練策略

Distil-Whisper的訓(xùn)練涉及到了大量的數(shù)據(jù)處理和策略選擇。研究者們使用了偽標(biāo)簽技術(shù)來構(gòu)建一個(gè)大規(guī)模的開源數(shù)據(jù)集,并在這個(gè)數(shù)據(jù)集上進(jìn)行了22,000小時(shí)的訓(xùn)練。這個(gè)過程中,他們采用了WER過濾器,只選擇了質(zhì)量最高的偽標(biāo)簽進(jìn)行訓(xùn)練,這一策略是保持模型高性能的關(guān)鍵。

3?魯棒性與幻覺減少

在對(duì)抗噪聲方面,Distil-Whisper通過凍結(jié)編碼器的操作,展現(xiàn)出了極高的穩(wěn)健性。這意味著即使在背景噪音較多的環(huán)境中,Distil-Whisper也能夠準(zhǔn)確地識(shí)別語音。此外,它在處理長音頻時(shí)有效減少了幻覺,即錯(cuò)誤地將噪聲或無關(guān)聲音識(shí)別為錯(cuò)誤的詞或短語。

4?推測解碼

Distil-Whisper還引入了推測解碼的概念,這是一種通過與原始Whisper模型配對(duì)使用,以提高處理速度的技術(shù)。在增加很少的計(jì)算量(僅8%)的情況下,它能夠?qū)⑻幚硭俣忍岣?倍,同時(shí)保持與原始Whisper模型相同的輸出結(jié)果。

觀點(diǎn)

學(xué)術(shù)上,我覺得特別需要注意推測解碼和WER過濾器。推測解碼加速了整個(gè)inference的過程,這個(gè)方法或許成為一個(gè)通用的方法。而,WER過濾器這是提供了一個(gè)新的選擇,通過了一個(gè)啟發(fā)式的方法來過濾為標(biāo)簽訓(xùn)練數(shù)據(jù)(詳細(xì)見論文侯總的9.1節(jié))


商業(yè)上,在商業(yè)應(yīng)用中,如客服系統(tǒng)、智能助理等,Distil-Whisper的高速度和準(zhǔn)確性能極大提升了用戶體驗(yàn),對(duì)于需要實(shí)時(shí)語音轉(zhuǎn)寫的場景尤為重要。特別是現(xiàn)在數(shù)字人的火熱,還有類似于openai前一陣子推出的語音交互功能,一些小企業(yè)也可以簡單快速的上手了(不過這限于英文,不過至少提供了思路)。此外,其對(duì)噪聲的魯棒性使其在嘈雜環(huán)境下也能保持高效能,這也增加了實(shí)用性。


特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士? 王軍杰

開源AI語音識(shí)別新工作:Distil-Whisper真的又快又準(zhǔn)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
长垣县| 库车县| 卓资县| 介休市| 城口县| 青岛市| 元氏县| 旌德县| 始兴县| 翁牛特旗| 南陵县| 朔州市| 荣昌县| 聂荣县| 东乌珠穆沁旗| 阿拉善盟| 德化县| 池州市| 泰宁县| 淮阳县| 西安市| 赞皇县| 大竹县| 白玉县| 怀化市| 鲁甸县| 蕉岭县| 永登县| 大渡口区| 禹州市| 岳普湖县| 湘西| 岑巩县| 玉龙| 古交市| 彰化县| 长海县| 安平县| 和林格尔县| 射阳县| 简阳市|