語音輕松轉(zhuǎn)文字,whisper 官方步驟安裝及使用

目前,語音轉(zhuǎn)錄文字,市面上似乎不易尋找到好用免費的軟件,每次手頭有錄音需要轉(zhuǎn)為文字時,沒有好用的工具軟件。
小米自帶的錄音轉(zhuǎn)文字,在錄音文件很長時經(jīng)常轉(zhuǎn)錄失敗,還使用過的是網(wǎng)易見外工作臺,但每天每個賬號只能轉(zhuǎn)錄2個小時300M以下的音頻文件,文件還需上傳。
其實whisper已經(jīng)是成名已久的語音轉(zhuǎn)錄文字的開源軟件,并且文件無需上傳,就在本地轉(zhuǎn)錄,無需顧慮語音內(nèi)容泄露。
下面就整理記錄下我按照官方文檔進行的安裝過程,供大家參考。

whisper的安裝過程主要是根據(jù)其在github項目的README.md文件的說明進行。
https://github.com/openai/whisper
我的電腦環(huán)境配置情況如下:
操作系統(tǒng):windows 11;顯卡:NVIDIA GeForce RTX 2080 SUPER;python:3.11.4;cuda:11.8。
1.首先是安裝python。文檔中說,whisper是基于python 3.9.9進行的訓練和測試,3.8到3.11的python應該都可以。我選擇的版本是python 3.11.4。
2.安裝cuda。如果你有英偉達的獨立顯卡,就需安裝合適版本的cuda,使用gpu進行推理比cpu快多了,如果只有cpu可以跳過這個步驟,或者直接使用大佬用c++重寫的項目,Buzz。https://github.com/chidiwilliams/buzz/releases/tag/v0.8.3
3.安裝其他前提項。
首先是需要安裝ffmpeg,windows系統(tǒng)下文檔給出了兩種命令行安裝方法。一個是使用Chocolatey安裝,另一個是使用scoop安裝。我選擇了第一種方式。
先安裝chocolatey,安裝過程可以參看官網(wǎng)教程:

再安裝ffmpeg,可能需要科學上網(wǎng):choco install ffmpeg

4.還需要安裝rust。文檔中說可能需要這個東西。那就不管需不需要,先無腦裝了再說。這個不太復雜,直接pip安裝就可以了。
pip install setuptools-rust

5.終于到了安裝whisper的步驟。
pip install -U openai-whisper

6.使用whisper進行語音轉(zhuǎn)錄。
使用whisper之前先說幾點,首先是最好使用promot,同時錄音避免有靜默間隔,不然會出現(xiàn)長錄音轉(zhuǎn)錄時一直陷入死循環(huán)。
下面是從嗶哩嗶哩上隨便扣下來一個視頻的音頻部分做的轉(zhuǎn)錄,效果比較好。
whisper test2.mp3 --language Chinese --model medium --device cuda:0 --initial_prompt "以下是普通話的句子"

下面是真實的一份工作會議錄音進行的轉(zhuǎn)錄效果??赡苁且驗闀h過程中并不是一直都有人講話,出現(xiàn)了死循環(huán),一直在重復同一段內(nèi)容。這個問題在轉(zhuǎn)錄長錄音的時候,時有發(fā)生,GitHub上也有人提出類似情況,具體解決辦法還未深入了解。

當然不是所有會議錄音都出問題,之前也有順利完成2份真實會議錄音的轉(zhuǎn)錄,并沒有出現(xiàn)死循環(huán),但一些詞語錯誤識別為其他的同音字。
以上是whisper的安裝過程,如有任何錯誤或其他問題,歡迎評論。