免費(fèi)離線(xiàn)語(yǔ)音識(shí)別神器whisper安裝教程

whisper介紹
Open AI在2022年9月21日開(kāi)源了號(hào)稱(chēng)其英文語(yǔ)音辨識(shí)能力已達(dá)到人類(lèi)水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的,它們能將各種語(yǔ)言的語(yǔ)音變成文本,也能將這些文本翻譯成英文。
whisper的日常用途
whisper的核心功能語(yǔ)音識(shí)別,對(duì)于學(xué)生黨和工作黨來(lái)說(shuō),可以幫助我們更快捷地將會(huì)議、講座、課堂錄音整理成文字稿;對(duì)于影視愛(ài)好者,可以將無(wú)字幕的資源自動(dòng)生成字幕,不用再苦苦等待各大字幕組的字幕資源;對(duì)于外語(yǔ)口語(yǔ)學(xué)習(xí)者,使用whisper翻譯你的發(fā)音練習(xí)錄音,可以很好地檢驗(yàn)?zāi)愕目谡Z(yǔ)發(fā)音水平。
當(dāng)然,我們知道一些商業(yè)公司提供語(yǔ)音識(shí)別服務(wù),但是基本都是聯(lián)網(wǎng)運(yùn)行,個(gè)人隱私安全總是有隱患,而whisper完全不同,whisper完全在本地運(yùn)行,無(wú)需聯(lián)網(wǎng),充分保障了個(gè)人隱私,且whisper識(shí)別準(zhǔn)確率相當(dāng)高。拿我自己錄的一段音頻舉例,5min長(zhǎng)度400多字,使用whisper的medium模式識(shí)別,只錯(cuò)了兩個(gè)英文單詞,那兩個(gè)英文單詞還是因?yàn)榘l(fā)音問(wèn)題識(shí)別錯(cuò)誤。。。
本文目的
網(wǎng)絡(luò)上有些教程只展示了whisper使用的效果,沒(méi)有介紹怎么安裝,為避免大家在安裝上踩坑,同時(shí)也為了避免自己以后萬(wàn)一哪天電腦崩潰需要重裝whisper的時(shí)候再踩坑,我在這里記錄下安裝方法。
系統(tǒng)環(huán)境
官方說(shuō)他們使用的是Python 3.9.9 and PyTorch 1.10.1來(lái)訓(xùn)練和檢驗(yàn)的程序,但預(yù)計(jì)兼容python 3.7以后的版本和pytorch近期更新版本。大家在安裝whisper的時(shí)候請(qǐng)盡量保證python版本與官方一致或更新版本,或者至少是3.7版本以后,這樣可以避免一些版本不同導(dǎo)致的莫名奇妙的錯(cuò)誤。本文測(cè)試系統(tǒng)為windows11 64位、python版本3.9.13和windows10 64位、python3.7.5版本.
安裝步驟
whisper的安裝不是簡(jiǎn)簡(jiǎn)單單一句命令
pip install whisper
就完事,它還需要一些依賴(lài)。比如ffmpeg、pytorch等。本文沒(méi)涉及python的安裝,默認(rèn)讀者是已經(jīng)安裝好python的,如果你不會(huì)安裝python的話(huà),建議去視頻平臺(tái)搜索安裝教程,安裝好后再來(lái)進(jìn)行下面的步驟。
步驟1.下載ffmpeg并添加環(huán)境變量
首先我們下載ffmpeg.exe。
下載地址是
https://github.com/BtbN/FFmpeg-Builds/releases
找到“ffmpeg-master-latest-win64-gpl.zip”版本下載。
解壓后,找到bin文件夾下的“ffmpeg.exe”,將它復(fù)制到一個(gè)文件夾中,假設(shè)這個(gè)文件夾的路徑是"D:\software\ffmpeg",如下圖

然后將"D:/software/ffmpeg"添加到系統(tǒng)環(huán)境變量。
添加方法:
鍵盤(pán)win+r,調(diào)出運(yùn)行窗口

輸入Sysdm.cpl
后,點(diǎn)擊確定。彈出系統(tǒng)屬性窗口,先后點(diǎn)擊高級(jí)、環(huán)境變量。

彈出新窗口后,雙擊Path

在空白行添加剛剛ffmpeg.exe所在的路徑,點(diǎn)擊確定。

至此,ffmpeg設(shè)置完成。
步驟2.下載git并添加環(huán)境變量
https://git-scm.com/download/win
官方網(wǎng)站下載git安裝包,安裝過(guò)程中的選項(xiàng)全都默認(rèn),一直點(diǎn)next到安裝完成。打開(kāi)命令行窗口,輸入git,回車(chē),如果命令成功運(yùn)行,如下圖所示,則git的安裝到此結(jié)束,可以進(jìn)行下一步pytorch的安裝。

如果在命令行輸入git并回車(chē)后,命令沒(méi)有成功運(yùn)行,返回的結(jié)果如下:
“git”不是內(nèi)部或外部命令,也不是可運(yùn)行的程序或批處理文件
則需要將git添加到環(huán)境變量中。
具體操作步驟如下:
使用“everything”搜索git.exe,找到它位于我電腦上的路徑是“C:\Program Files\Git\bin”,如下圖。

將其添加到環(huán)境變量,如下圖。

步驟3.pytorch的安裝
這里我們使用pip安裝。
打開(kāi)pytorch.org,下拉頁(yè)面。
按照下圖選擇要安裝的版本。我選擇的是穩(wěn)定版,windows系統(tǒng),pip安裝方式,python語(yǔ)言、cpu版本的軟件。

選擇好后上圖中框選的那行代碼就是使用pip安裝pytorch的命令。在命令行界面運(yùn)行
pip3 install torch torchvision torchaudio
安裝pytorch,安裝好后這一步也就完成了。
補(bǔ)充說(shuō)明:上圖中CUDA 11.6和CUDA 11.7都是gpu版本的軟件,我一開(kāi)始下載的也是gpu版本的,但是因?yàn)槲业碾娔X顯卡的顯存比較低,運(yùn)行whisper模型的時(shí)候大模型運(yùn)行不了。下圖是whisper官方給出的運(yùn)行模型所需顯存。

我的顯存是4GB,一旦使用whisper運(yùn)行small模式以上的模型就會(huì)報(bào)顯存不足的錯(cuò)誤。為了能運(yùn)行更大的模型以保證語(yǔ)音識(shí)別較高的準(zhǔn)確率,我最終只能選擇安裝cpu版本。
步驟4.whisper的安裝
以上步驟都完成后。按照官方文檔,先運(yùn)行
pip?install?git+https://github.com/openai/whisper.git
然后再運(yùn)行
pip?install?--upgrade?--no-deps?--force-reinstall?git+https://github.com/openai/whisper.git
完成whisper的安裝。
whisper的簡(jiǎn)單使用
最基本的語(yǔ)音識(shí)別
我們準(zhǔn)備一段音頻,使用whisper將其轉(zhuǎn)換成文字。以此音頻為例:
https://wwvx.lanzoul.com/i2lvw0jrippa
在音頻所在文件夾中右鍵打開(kāi)cmd窗口。(如果是win10的話(huà)就在文件夾的空白處按住shift,然后鼠標(biāo)右鍵單擊,打開(kāi)powershell窗口)
輸入whisper audio.mp3
,回車(chē)運(yùn)行。

以下是運(yùn)行結(jié)果。

在命令行窗口中顯示的是轉(zhuǎn)寫(xiě)結(jié)果,同時(shí)在當(dāng)前文件夾下生成三個(gè)字幕文件。以下是三種格式的對(duì)比。

更換轉(zhuǎn)寫(xiě)模型
以上whisper audio.mp3
的命令形式是最簡(jiǎn)單的一種,它默認(rèn)使用的是base模式的模型轉(zhuǎn)寫(xiě),我們還可以使用更高等級(jí)的模型來(lái)提高正確率。比如
whisper audio.mp3 --model medium

上圖是使用base模型和medium模型的對(duì)比,medium模型耗費(fèi)時(shí)間更長(zhǎng),但也更精準(zhǔn)。一般而言,綜合權(quán)衡速度與精準(zhǔn)度,選擇base也夠用了,如果你對(duì)語(yǔ)言識(shí)別的精準(zhǔn)度高可以使用medium,medium的精準(zhǔn)度已經(jīng)相當(dāng)高了,如我文章開(kāi)頭所說(shuō),我用medium模式識(shí)別了我讀的一段5min的音頻,400多字。正確率基本百分百,只錯(cuò)了2個(gè)英文單詞,還是因?yàn)槲野l(fā)音不準(zhǔn),尷尬。
當(dāng)然還有其他的模型可供選擇,可以在命令行運(yùn)行whisper --help
查看幫助。有以下11種模式可供選擇。
[--model?{tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]
結(jié)語(yǔ)
本文簡(jiǎn)單介紹了whisper的用途、在windows系統(tǒng)下安裝部署whisper的方法以及whisper的簡(jiǎn)單用法。關(guān)于whisper的使用部分僅介紹了命令行模式的使用方法,如果你會(huì)使用python,也可以使用以下代碼來(lái)運(yùn)行whisper。
import?whisper
model?=?whisper.load_model("base")
result?=?model.transcribe("audio.mp3")
print(result["text"])
了解更多請(qǐng)參考官方文檔。
https://github.com/openai/whisper
或者如果你想要在網(wǎng)頁(yè)上運(yùn)行whisper,可以安裝Whisper Webui。可以參考:
覺(jué)得本文有幫助的小伙伴,點(diǎn)個(gè)在看再走唄~
下期內(nèi)容預(yù)告:
內(nèi)容:幾種免費(fèi)的語(yǔ)音識(shí)別服務(wù)介紹
用途:方便將會(huì)議、講座、課堂錄音整理成文字稿。