手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 幾款免費的語音轉(zhuǎn)文字工具推薦（附識別準(zhǔn)確度排行榜）

幾款免費的語音轉(zhuǎn)文字工具推薦（附識別準(zhǔn)確度排行榜）

2023-01-06 19:37 作者:1590856 0人讀過 | 我要投稿

本文框架

一、前言

大家好啊，最近chatgpt比較火啊，我也體驗了一把，文章標(biāo)題就是它給起的，有點標(biāo)題黨了哈，但是意思也大差不差。

之前發(fā)表過一篇"免費離線語音識別神器whisper安裝教程",因為whisper安裝比較費時間，本篇介紹幾款其它的免費語音轉(zhuǎn)文字工具，方便大家選擇。

我也對這幾款工具做了測試，對它們的識別準(zhǔn)確率做了對比。文章第五部分會給出識別準(zhǔn)確率排名。基于測試結(jié)果對語音識別工具的選擇在文章最后也給了幾條建議。

二、工具用途

語音轉(zhuǎn)文字，可方便快捷的將會議、講座、課堂錄音整理成文字稿。

三、工具推薦：

第一款：Buzz（windows和Mac OS都支持）

官方地址:https://github.com/chidiwilliams/buzz

Buzz是一款可以離線運行的語音識別軟件。它有兩個功能，一個是錄音轉(zhuǎn)文字，一個是實時語音識別。它的底層還是使用的whisper的語音識別功能。不過它的優(yōu)點是你只需要下載一個安裝包，安裝好之后就可以直接運行，不像配置whisper那樣麻煩。

使用方法

我們這里簡單介紹下它的錄音轉(zhuǎn)文字功能。在進行第一次轉(zhuǎn)錄的時候會下載模型，下載完后即可離線運行。

點擊"File",再點擊"Import Audio File..."，導(dǎo)入你需要轉(zhuǎn)文字的錄音文件。

之后會彈出一個設(shè)置框，

如上圖所示：

左邊框選的是讓你選轉(zhuǎn)寫的質(zhì)量，從上往下，質(zhì)量逐漸增高，轉(zhuǎn)寫的準(zhǔn)確率會上升，但是相應(yīng)的耗費的時間也會變長。左邊框框選的這五個選項，對應(yīng)whisper的“tiny，base，small，medium，large”五種模式。

右邊框是兩種任務(wù)類型，我們一般選"Transcribe（轉(zhuǎn)錄）"模式，"Translate（翻譯）"模式是將語音文件翻譯成英語文本。圖中的"Export As（導(dǎo)出為）"則是選擇導(dǎo)出格式。

第二款：飛書妙記、剪映電腦版

這兩種方式都需要聯(lián)網(wǎng)才能使用。為啥把這倆放在一起，因為都是抖音旗下的產(chǎn)品。下圖中左邊是飛書的公司，右邊是剪映的公司。

雖然都是抖音旗下的，但是識別出來的結(jié)果還是有所不同的。識別準(zhǔn)確率也不相同，文章第五部分給出了識別準(zhǔn)確率排名。

使用方法：

飛書妙記：

官網(wǎng)地址：https://www.feishu.cn/product/minutes

注冊登陸后，直接上傳文件就可以了。

飛書妙記可以區(qū)別音頻中不同的說話人，可以導(dǎo)出txt格式和srt格式。

剪映電腦版:

需要下載安裝剪映電腦版。這個功能是為了方便大家剪視頻配字幕存在的，聯(lián)網(wǎng)運行，目前免費。

使用方法：新建項目>導(dǎo)入音頻>將音頻拉到下方軌道>點擊“文本”>“智能字幕”，生成后直接點導(dǎo)出字幕文件即可。

第三款：網(wǎng)易見外工作臺

官網(wǎng)地址：https://jianwai.youdao.com/

網(wǎng)易出品，需要聯(lián)網(wǎng)。目前每天有2小時免費識別額度。

使用方法：

登錄網(wǎng)易見外工作臺，新建語音轉(zhuǎn)寫項目，上傳文件即可。

第四款：windows系統(tǒng)自帶語音識別

win10和win11系統(tǒng)自帶語音識別，不過這個不支持音頻轉(zhuǎn)文字。只支持實時語音識別，需要聯(lián)網(wǎng)運行。

使用方法：

win10或win11系統(tǒng)下，打開一個txt文件，鼠標(biāo)點擊文件空白處使光標(biāo)處于待輸入狀態(tài)，按快捷鍵win+h調(diào)出語音輸入工具，此時開始說話，工具就會實時識別你說的話，在txt文件中自動輸入文字。

第五款：其它

阿里云、騰訊云、百度云、訊飛聽見等都有提供錄音轉(zhuǎn)寫服務(wù)，除了訊飛聽見也有網(wǎng)頁端的服務(wù)（新用戶贈送15min免費時長）外，都需要會編程調(diào)用接口，對不會編程的人不友好。當(dāng)然你要是會編程的話可以嘗試下這幾家公司的服務(wù)，不同公司多少都會贈送一定的免費額度。

以錄音轉(zhuǎn)寫服務(wù)為例，百度每個賬號贈送10小時時長，騰訊每月贈送10h時長，阿里新客有3個月試用期，訊飛贈送15min免費額度。規(guī)則可能隨時變化，具體請以相關(guān)服務(wù)商的官方網(wǎng)站為準(zhǔn)。

四、不同工具識別準(zhǔn)確率對比

我使用了3段音源，一段是我自己錄制的一段Excel小技巧視頻，大概30s，一段是某播客的聊天音頻片段大概5min，一段是主席的2023年新年賀詞大概13min。

音源1（13min視頻主席新年賀詞視頻）：https://www.bilibili.com/video/BV1fP4y1v7eU
音源2(5min音頻播客音頻從44s開始截取)：https://www.xiaoyuzhoufm.com/episode/63738d1cb0725ebdf1e70163
音源3（30s視頻 Excel小技巧視頻）：https://www.bilibili.com/video/BV1v5411Y72V

將三段音頻，分別使用whisper的tiny、base、small、medium、large-v1、large-v2、large這7種不同的模型以及飛書妙記、網(wǎng)易見外工作臺、win11自帶語音識別工具、剪映和必剪這5種免費語音識別工具來轉(zhuǎn)寫，比較它們之間的準(zhǔn)確率。因為buzz語音識別的核心就是whisper，但是buzz的語音轉(zhuǎn)錄模式才有5個選項，而whisper有7個，猜測應(yīng)該是少了large-v1和large-v2這兩種模式，所以我就使用了whisper，而沒用buzz。

文本相似度比較方法：

使用了python中difflib庫的SequenceMatcher類，可以實現(xiàn)一個用于計算文本相似度的函數(shù)。

計算值在0-1之間，如果比較的兩段文本相似度越高，則計算值越大。

代碼：

from?difflib?import?SequenceMatcher def?similarity(a,?b): ????return?SequenceMatcher(None,?a,?b).ratio()

以下是2個運行示例：

>>>?similarity('我是文本A',?'我是文本A') 1.0>>>?similarity('我是文本A',?'我是文本B') 0.8

文本對比前的相關(guān)處理

因為有些工具轉(zhuǎn)換出來的文本含有標(biāo)點符號，有的含有空格和回車，避免中文標(biāo)點、空格和回車影響文本相似度的對比結(jié)果，我使用python將它們?nèi)咳コ?/p>

去除中文標(biāo)點代碼：

from?zhon.hanzi?import?punctuation import?re striped_txt?=?re.sub("[{}]+".format(punctuation),"",txt)?#txt為待處理文本

去除回車和空格：

dealed_txt?=?txt.replace("?","").replace("\n","")?#去空格、去回車

由于數(shù)字識別的時候有些會識別成中文，有些則會識別為阿拉伯?dāng)?shù)字，但是并不代表識別錯誤，所以對于語音轉(zhuǎn)寫后數(shù)字多的文本，我統(tǒng)一改成了中文的數(shù)字。

另外whisper轉(zhuǎn)錄時有可能會有繁體中文，我就使用在線工具將其轉(zhuǎn)換為簡體。

工具地址：https://aies.cn/

五、對比結(jié)果

補充說明：因為buzz的底層是whisper，所以我用的whisper測試，沒用buzz，whisper能實現(xiàn)buzz也能實現(xiàn)，所以大家沒安裝whisper的，覺得whisper表現(xiàn)不錯想嘗試下也可以用buzz替換哈）

六、結(jié)果分析

這幾個音源其實都有其特點。

30s的視頻是一個Excel小教程，文本量少，總共也才100多字，沒有生僻詞匯，幾個工具識別的都差不多，除了whisper的base和tiny兩種較小模型識別效果不好，所有識別結(jié)果與文稿的相似度都能達到96%以上。

5min的音源是一個聊天播客的片段，內(nèi)容都是一些日常生活用語，語氣詞比較多，“嗯啊呃”這些，像這種其實對于飛書妙記來說，我的這個比較方式就不太公平了，因為它的識別結(jié)果里去除了語氣詞這些，和正確文稿相比少了很多語氣詞，自然相似度比較低。

13min的音源是主席2023年的新年賀詞，里面使用到的成語和古語引用比較多，比如說“艱難困苦，玉汝于成”、“櫛風(fēng)沐雨、披荊斬棘”、“犯其至難而圖其至遠”、“路雖遠，行則將至；事雖難，做則必成”、“愚公移山”、“積跬步以致千里”等，對于這些的whisper識別起來效果不是很好，而其它工具比較不錯。但是即使如此，我們也可以看到whisper識別后文本與源文本的相似性達到了95%以上，對于一個開源、離線運行的軟件來說已經(jīng)很不錯了。

觀察測試結(jié)果，我們發(fā)現(xiàn)。

對whisper來說，說模型越大識別準(zhǔn)確率越高并不絕對（至少對中文不是）。比如5min音源的識別，small模式比更高級的模式準(zhǔn)確率要高。whisper高級模式的語音識別準(zhǔn)確率在日常語境（成語典故較少）可以做到比一些在線服務(wù)要強大。
剪映和必剪在三次測試中識別準(zhǔn)確率都位于前三名。微軟語音識別和whisper分別進入了兩次測試的前三名，不過whisper的兩次分別是不同識別模式。飛書妙記進入一次前三名。

七、建議

通過文章第五部分三組音源的數(shù)據(jù)，可以給出一些建議：

剪映和必剪的識別準(zhǔn)確率相對而言比較高，大家可優(yōu)先選擇，但是剪映支持直接導(dǎo)出字幕，必剪需要你自己找到j(luò)son文件再處理才能得到文本，所以推薦剪映。
對一些成語和古語引用比較多的音頻，對隱私不敏感的話，不建議使用whisper（buzz），其他在線平臺識別準(zhǔn)確率都比較高。日常語境下whisper（buzz）表現(xiàn)還是不錯。
隨時間發(fā)展免費的在線語音識別服務(wù)可能收費，或者突然關(guān)停（之前網(wǎng)易見外工作臺有段時間停止對外開放，后來又恢復(fù)了），建議大家下載個buzz（你要是愿意花時間安裝whisper更好），開源軟件、離線運行不受制于人，處理一般的語音轉(zhuǎn)寫完全沒問題，隱私也有保障。

小伙伴們，都看到這里了，點個贊鼓勵下唄~

另外測試過程中用到的音源文件、音源的正確文字稿、識別后的文字稿、用到的python代碼以及離線識別工具buzz的安裝包我都打包了，需要的朋友可以公眾號回復(fù)2301獲取。

標(biāo)簽：