散文網(wǎng) » 科技 »數(shù)碼 » 免費(fèi)離線(xiàn)語(yǔ)音識(shí)別神器whisper安裝教程

免費(fèi)離線(xiàn)語(yǔ)音識(shí)別神器whisper安裝教程

2022-12-31 17:16 作者:1590856 0人讀過(guò) | 我要投稿

whisper介紹

Open AI在2022年9月21日開(kāi)源了號(hào)稱(chēng)其英文語(yǔ)音辨識(shí)能力已達(dá)到人類(lèi)水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò)，且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)（Automatic Speech Recognition，ASR）模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的，它們能將各種語(yǔ)言的語(yǔ)音變成文本，也能將這些文本翻譯成英文。

whisper的日常用途

whisper的核心功能語(yǔ)音識(shí)別，對(duì)于學(xué)生黨和工作黨來(lái)說(shuō)，可以幫助我們更快捷地將會(huì)議、講座、課堂錄音整理成文字稿；對(duì)于影視愛(ài)好者，可以將無(wú)字幕的資源自動(dòng)生成字幕，不用再苦苦等待各大字幕組的字幕資源；對(duì)于外語(yǔ)口語(yǔ)學(xué)習(xí)者，使用whisper翻譯你的發(fā)音練習(xí)錄音，可以很好地檢驗(yàn)?zāi)愕目谡Z(yǔ)發(fā)音水平。

當(dāng)然，我們知道一些商業(yè)公司提供語(yǔ)音識(shí)別服務(wù)，但是基本都是聯(lián)網(wǎng)運(yùn)行，個(gè)人隱私安全總是有隱患，而whisper完全不同，whisper完全在本地運(yùn)行，無(wú)需聯(lián)網(wǎng)，充分保障了個(gè)人隱私，且whisper識(shí)別準(zhǔn)確率相當(dāng)高。拿我自己錄的一段音頻舉例，5min長(zhǎng)度400多字，使用whisper的medium模式識(shí)別，只錯(cuò)了兩個(gè)英文單詞，那兩個(gè)英文單詞還是因?yàn)榘l(fā)音問(wèn)題識(shí)別錯(cuò)誤。。。

本文目的

網(wǎng)絡(luò)上有些教程只展示了whisper使用的效果，沒(méi)有介紹怎么安裝，為避免大家在安裝上踩坑，同時(shí)也為了避免自己以后萬(wàn)一哪天電腦崩潰需要重裝whisper的時(shí)候再踩坑，我在這里記錄下安裝方法。

系統(tǒng)環(huán)境

官方說(shuō)他們使用的是Python 3.9.9 and PyTorch 1.10.1來(lái)訓(xùn)練和檢驗(yàn)的程序，但預(yù)計(jì)兼容python 3.7以后的版本和pytorch近期更新版本。大家在安裝whisper的時(shí)候請(qǐng)盡量保證python版本與官方一致或更新版本，或者至少是3.7版本以后，這樣可以避免一些版本不同導(dǎo)致的莫名奇妙的錯(cuò)誤。本文測(cè)試系統(tǒng)為windows11 64位、python版本3.9.13和windows10 64位、python3.7.5版本.

安裝步驟

whisper的安裝不是簡(jiǎn)簡(jiǎn)單單一句命令

pip install whisper

就完事，它還需要一些依賴(lài)。比如ffmpeg、pytorch等。本文沒(méi)涉及python的安裝，默認(rèn)讀者是已經(jīng)安裝好python的，如果你不會(huì)安裝python的話(huà)，建議去視頻平臺(tái)搜索安裝教程，安裝好后再來(lái)進(jìn)行下面的步驟。

步驟1.下載ffmpeg并添加環(huán)境變量

首先我們下載ffmpeg.exe。

下載地址是

https://github.com/BtbN/FFmpeg-Builds/releases

找到“ffmpeg-master-latest-win64-gpl.zip”版本下載。

解壓后，找到bin文件夾下的“ffmpeg.exe”，將它復(fù)制到一個(gè)文件夾中，假設(shè)這個(gè)文件夾的路徑是"D:\software\ffmpeg"，如下圖

然后將"D:/software/ffmpeg"添加到系統(tǒng)環(huán)境變量。

添加方法：

鍵盤(pán)win+r，調(diào)出運(yùn)行窗口

輸入Sysdm.cpl后，點(diǎn)擊確定。彈出系統(tǒng)屬性窗口，先后點(diǎn)擊高級(jí)、環(huán)境變量。

彈出新窗口后，雙擊Path

在空白行添加剛剛ffmpeg.exe所在的路徑，點(diǎn)擊確定。

至此，ffmpeg設(shè)置完成。

步驟2.下載git并添加環(huán)境變量

https://git-scm.com/download/win

官方網(wǎng)站下載git安裝包，安裝過(guò)程中的選項(xiàng)全都默認(rèn)，一直點(diǎn)next到安裝完成。打開(kāi)命令行窗口，輸入git，回車(chē)，如果命令成功運(yùn)行，如下圖所示，則git的安裝到此結(jié)束，可以進(jìn)行下一步pytorch的安裝。

如果在命令行輸入git并回車(chē)后，命令沒(méi)有成功運(yùn)行，返回的結(jié)果如下：

“git”不是內(nèi)部或外部命令，也不是可運(yùn)行的程序或批處理文件

則需要將git添加到環(huán)境變量中。

具體操作步驟如下：

使用“everything”搜索git.exe,找到它位于我電腦上的路徑是“C:\Program Files\Git\bin”，如下圖。

將其添加到環(huán)境變量，如下圖。

步驟3.pytorch的安裝

這里我們使用pip安裝。

打開(kāi)pytorch.org,下拉頁(yè)面。

按照下圖選擇要安裝的版本。我選擇的是穩(wěn)定版，windows系統(tǒng)，pip安裝方式，python語(yǔ)言、cpu版本的軟件。

選擇好后上圖中框選的那行代碼就是使用pip安裝pytorch的命令。在命令行界面運(yùn)行

pip3 install torch torchvision torchaudio

安裝pytorch，安裝好后這一步也就完成了。

補(bǔ)充說(shuō)明：上圖中CUDA 11.6和CUDA 11.7都是gpu版本的軟件，我一開(kāi)始下載的也是gpu版本的，但是因?yàn)槲业碾娔X顯卡的顯存比較低，運(yùn)行whisper模型的時(shí)候大模型運(yùn)行不了。下圖是whisper官方給出的運(yùn)行模型所需顯存。

我的顯存是4GB，一旦使用whisper運(yùn)行small模式以上的模型就會(huì)報(bào)顯存不足的錯(cuò)誤。為了能運(yùn)行更大的模型以保證語(yǔ)音識(shí)別較高的準(zhǔn)確率，我最終只能選擇安裝cpu版本。

步驟4.whisper的安裝

以上步驟都完成后。按照官方文檔，先運(yùn)行

pip?install?git+https://github.com/openai/whisper.git

然后再運(yùn)行

pip?install?--upgrade?--no-deps?--force-reinstall?git+https://github.com/openai/whisper.git

完成whisper的安裝。

whisper的簡(jiǎn)單使用

最基本的語(yǔ)音識(shí)別

我們準(zhǔn)備一段音頻，使用whisper將其轉(zhuǎn)換成文字。以此音頻為例：

https://wwvx.lanzoul.com/i2lvw0jrippa

在音頻所在文件夾中右鍵打開(kāi)cmd窗口。（如果是win10的話(huà)就在文件夾的空白處按住shift，然后鼠標(biāo)右鍵單擊，打開(kāi)powershell窗口）

輸入whisper audio.mp3，回車(chē)運(yùn)行。

以下是運(yùn)行結(jié)果。

在命令行窗口中顯示的是轉(zhuǎn)寫(xiě)結(jié)果，同時(shí)在當(dāng)前文件夾下生成三個(gè)字幕文件。以下是三種格式的對(duì)比。

更換轉(zhuǎn)寫(xiě)模型

以上whisper audio.mp3的命令形式是最簡(jiǎn)單的一種，它默認(rèn)使用的是base模式的模型轉(zhuǎn)寫(xiě)，我們還可以使用更高等級(jí)的模型來(lái)提高正確率。比如

whisper audio.mp3 --model medium

上圖是使用base模型和medium模型的對(duì)比，medium模型耗費(fèi)時(shí)間更長(zhǎng)，但也更精準(zhǔn)。一般而言，綜合權(quán)衡速度與精準(zhǔn)度，選擇base也夠用了，如果你對(duì)語(yǔ)言識(shí)別的精準(zhǔn)度高可以使用medium，medium的精準(zhǔn)度已經(jīng)相當(dāng)高了，如我文章開(kāi)頭所說(shuō)，我用medium模式識(shí)別了我讀的一段5min的音頻，400多字。正確率基本百分百，只錯(cuò)了2個(gè)英文單詞，還是因?yàn)槲野l(fā)音不準(zhǔn)，尷尬。

當(dāng)然還有其他的模型可供選擇，可以在命令行運(yùn)行whisper --help查看幫助。有以下11種模式可供選擇。

[--model?{tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]

結(jié)語(yǔ)

本文簡(jiǎn)單介紹了whisper的用途、在windows系統(tǒng)下安裝部署whisper的方法以及whisper的簡(jiǎn)單用法。關(guān)于whisper的使用部分僅介紹了命令行模式的使用方法，如果你會(huì)使用python，也可以使用以下代碼來(lái)運(yùn)行whisper。

import?whisper model?=?whisper.load_model("base") result?=?model.transcribe("audio.mp3") print(result["text"])

了解更多請(qǐng)參考官方文檔。

https://github.com/openai/whisper

或者如果你想要在網(wǎng)頁(yè)上運(yùn)行whisper，可以安裝Whisper Webui。可以參考：

https://www.bilibili.com/read/cv19254244

覺(jué)得本文有幫助的小伙伴，點(diǎn)個(gè)在看再走唄~

下期內(nèi)容預(yù)告：

內(nèi)容：幾種免費(fèi)的語(yǔ)音識(shí)別服務(wù)介紹

用途：方便將會(huì)議、講座、課堂錄音整理成文字稿。

標(biāo)簽：