最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

免費(fèi)離線(xiàn)語(yǔ)音識(shí)別神器whisper安裝教程

2022-12-31 17:16 作者:1590856  | 我要投稿

whisper介紹

Open AI在2022年9月21日開(kāi)源了號(hào)稱(chēng)其英文語(yǔ)音辨識(shí)能力已達(dá)到人類(lèi)水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的,它們能將各種語(yǔ)言的語(yǔ)音變成文本,也能將這些文本翻譯成英文。

whisper的日常用途

whisper的核心功能語(yǔ)音識(shí)別,對(duì)于學(xué)生黨和工作黨來(lái)說(shuō),可以幫助我們更快捷地將會(huì)議、講座、課堂錄音整理成文字稿;對(duì)于影視愛(ài)好者,可以將無(wú)字幕的資源自動(dòng)生成字幕,不用再苦苦等待各大字幕組的字幕資源;對(duì)于外語(yǔ)口語(yǔ)學(xué)習(xí)者,使用whisper翻譯你的發(fā)音練習(xí)錄音,可以很好地檢驗(yàn)?zāi)愕目谡Z(yǔ)發(fā)音水平。

當(dāng)然,我們知道一些商業(yè)公司提供語(yǔ)音識(shí)別服務(wù),但是基本都是聯(lián)網(wǎng)運(yùn)行,個(gè)人隱私安全總是有隱患,而whisper完全不同,whisper完全在本地運(yùn)行,無(wú)需聯(lián)網(wǎng),充分保障了個(gè)人隱私,且whisper識(shí)別準(zhǔn)確率相當(dāng)高。拿我自己錄的一段音頻舉例,5min長(zhǎng)度400多字,使用whisper的medium模式識(shí)別,只錯(cuò)了兩個(gè)英文單詞,那兩個(gè)英文單詞還是因?yàn)榘l(fā)音問(wèn)題識(shí)別錯(cuò)誤。。。

本文目的

網(wǎng)絡(luò)上有些教程只展示了whisper使用的效果,沒(méi)有介紹怎么安裝,為避免大家在安裝上踩坑,同時(shí)也為了避免自己以后萬(wàn)一哪天電腦崩潰需要重裝whisper的時(shí)候再踩坑,我在這里記錄下安裝方法。

系統(tǒng)環(huán)境

官方說(shuō)他們使用的是Python 3.9.9 and PyTorch 1.10.1來(lái)訓(xùn)練和檢驗(yàn)的程序,但預(yù)計(jì)兼容python 3.7以后的版本和pytorch近期更新版本。大家在安裝whisper的時(shí)候請(qǐng)盡量保證python版本與官方一致或更新版本,或者至少是3.7版本以后,這樣可以避免一些版本不同導(dǎo)致的莫名奇妙的錯(cuò)誤。本文測(cè)試系統(tǒng)為windows11 64位、python版本3.9.13和windows10 64位、python3.7.5版本.

安裝步驟

whisper的安裝不是簡(jiǎn)簡(jiǎn)單單一句命令

pip install whisper

就完事,它還需要一些依賴(lài)。比如ffmpeg、pytorch等。本文沒(méi)涉及python的安裝,默認(rèn)讀者是已經(jīng)安裝好python的,如果你不會(huì)安裝python的話(huà),建議去視頻平臺(tái)搜索安裝教程,安裝好后再來(lái)進(jìn)行下面的步驟。

步驟1.下載ffmpeg并添加環(huán)境變量

首先我們下載ffmpeg.exe。

下載地址是

  • https://github.com/BtbN/FFmpeg-Builds/releases

找到“ffmpeg-master-latest-win64-gpl.zip”版本下載。

解壓后,找到bin文件夾下的“ffmpeg.exe”,將它復(fù)制到一個(gè)文件夾中,假設(shè)這個(gè)文件夾的路徑是"D:\software\ffmpeg",如下圖

圖片

然后將"D:/software/ffmpeg"添加到系統(tǒng)環(huán)境變量。

添加方法:

鍵盤(pán)win+r,調(diào)出運(yùn)行窗口

圖片

輸入Sysdm.cpl后,點(diǎn)擊確定。彈出系統(tǒng)屬性窗口,先后點(diǎn)擊高級(jí)、環(huán)境變量。

圖片

彈出新窗口后,雙擊Path

圖片

在空白行添加剛剛ffmpeg.exe所在的路徑,點(diǎn)擊確定。

圖片

至此,ffmpeg設(shè)置完成。

步驟2.下載git并添加環(huán)境變量

  • https://git-scm.com/download/win

官方網(wǎng)站下載git安裝包,安裝過(guò)程中的選項(xiàng)全都默認(rèn),一直點(diǎn)next到安裝完成。打開(kāi)命令行窗口,輸入git,回車(chē),如果命令成功運(yùn)行,如下圖所示,則git的安裝到此結(jié)束,可以進(jìn)行下一步pytorch的安裝。

圖片

如果在命令行輸入git并回車(chē)后,命令沒(méi)有成功運(yùn)行,返回的結(jié)果如下:

“git”不是內(nèi)部或外部命令,也不是可運(yùn)行的程序或批處理文件

則需要將git添加到環(huán)境變量中。

具體操作步驟如下:

使用“everything”搜索git.exe,找到它位于我電腦上的路徑是“C:\Program Files\Git\bin”,如下圖。

圖片

將其添加到環(huán)境變量,如下圖。

圖片

步驟3.pytorch的安裝

這里我們使用pip安裝。

打開(kāi)pytorch.org,下拉頁(yè)面。

按照下圖選擇要安裝的版本。我選擇的是穩(wěn)定版,windows系統(tǒng),pip安裝方式,python語(yǔ)言、cpu版本的軟件。

圖片

選擇好后上圖中框選的那行代碼就是使用pip安裝pytorch的命令。在命令行界面運(yùn)行

pip3 install torch torchvision torchaudio

安裝pytorch,安裝好后這一步也就完成了。

補(bǔ)充說(shuō)明:上圖中CUDA 11.6和CUDA 11.7都是gpu版本的軟件,我一開(kāi)始下載的也是gpu版本的,但是因?yàn)槲业碾娔X顯卡的顯存比較低,運(yùn)行whisper模型的時(shí)候大模型運(yùn)行不了。下圖是whisper官方給出的運(yùn)行模型所需顯存。

圖片

我的顯存是4GB,一旦使用whisper運(yùn)行small模式以上的模型就會(huì)報(bào)顯存不足的錯(cuò)誤。為了能運(yùn)行更大的模型以保證語(yǔ)音識(shí)別較高的準(zhǔn)確率,我最終只能選擇安裝cpu版本。

步驟4.whisper的安裝

以上步驟都完成后。按照官方文檔,先運(yùn)行

pip?install?git+https://github.com/openai/whisper.git

然后再運(yùn)行

pip?install?--upgrade?--no-deps?--force-reinstall?git+https://github.com/openai/whisper.git

完成whisper的安裝。

whisper的簡(jiǎn)單使用

最基本的語(yǔ)音識(shí)別

我們準(zhǔn)備一段音頻,使用whisper將其轉(zhuǎn)換成文字。以此音頻為例:

  • https://wwvx.lanzoul.com/i2lvw0jrippa

音頻所在文件夾中右鍵打開(kāi)cmd窗口。(如果是win10的話(huà)就在文件夾的空白處按住shift,然后鼠標(biāo)右鍵單擊,打開(kāi)powershell窗口)

輸入whisper audio.mp3,回車(chē)運(yùn)行。

圖片

以下是運(yùn)行結(jié)果。

圖片

在命令行窗口中顯示的是轉(zhuǎn)寫(xiě)結(jié)果,同時(shí)在當(dāng)前文件夾下生成三個(gè)字幕文件。以下是三種格式的對(duì)比。

圖片

更換轉(zhuǎn)寫(xiě)模型

以上whisper audio.mp3的命令形式是最簡(jiǎn)單的一種,它默認(rèn)使用的是base模式的模型轉(zhuǎn)寫(xiě),我們還可以使用更高等級(jí)的模型來(lái)提高正確率。比如

whisper audio.mp3 --model medium

圖片

上圖是使用base模型和medium模型的對(duì)比,medium模型耗費(fèi)時(shí)間更長(zhǎng),但也更精準(zhǔn)。一般而言,綜合權(quán)衡速度與精準(zhǔn)度,選擇base也夠用了,如果你對(duì)語(yǔ)言識(shí)別的精準(zhǔn)度高可以使用medium,medium的精準(zhǔn)度已經(jīng)相當(dāng)高了,如我文章開(kāi)頭所說(shuō),我用medium模式識(shí)別了我讀的一段5min的音頻,400多字。正確率基本百分百,只錯(cuò)了2個(gè)英文單詞,還是因?yàn)槲野l(fā)音不準(zhǔn),尷尬。

當(dāng)然還有其他的模型可供選擇,可以在命令行運(yùn)行whisper --help查看幫助。有以下11種模式可供選擇。

[--model?{tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]

結(jié)語(yǔ)

本文簡(jiǎn)單介紹了whisper的用途、在windows系統(tǒng)下安裝部署whisper的方法以及whisper的簡(jiǎn)單用法。關(guān)于whisper的使用部分僅介紹了命令行模式的使用方法,如果你會(huì)使用python,也可以使用以下代碼來(lái)運(yùn)行whisper。

import?whisper
model?=?whisper.load_model("base")
result?=?model.transcribe("audio.mp3")
print(result["text"])

了解更多請(qǐng)參考官方文檔。

  • https://github.com/openai/whisper

或者如果你想要在網(wǎng)頁(yè)上運(yùn)行whisper,可以安裝Whisper Webui。可以參考:

覺(jué)得本文有幫助的小伙伴,點(diǎn)個(gè)在看再走唄~


下期內(nèi)容預(yù)告:

內(nèi)容:幾種免費(fèi)的語(yǔ)音識(shí)別服務(wù)介紹

用途:方便將會(huì)議、講座、課堂錄音整理成文字稿。


免費(fèi)離線(xiàn)語(yǔ)音識(shí)別神器whisper安裝教程的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
文安县| 桃园市| 承德市| 乌拉特前旗| 永吉县| 保亭| 古蔺县| 万年县| 宽城| 商水县| 平乐县| 巩留县| 洞头县| 晋江市| 桐城市| 舞阳县| 枝江市| 平顺县| 南雄市| 阳信县| 乐清市| 武乡县| 岳阳市| 唐河县| 瓦房店市| 临清市| 南汇区| 新闻| 朝阳县| 闵行区| 河北区| 科技| 疏附县| 靖州| 额尔古纳市| 罗定市| 无锡市| 唐河县| 兴安县| 浦县| 安阳市|