幾款免費的語音轉(zhuǎn)文字工具推薦(附識別準(zhǔn)確度排行榜)

本文框架

一、前言
大家好啊,最近chatgpt比較火啊,我也體驗了一把,文章標(biāo)題就是它給起的,有點標(biāo)題黨了哈,但是意思也大差不差。
之前發(fā)表過一篇"免費離線語音識別神器whisper安裝教程",因為whisper安裝比較費時間,本篇介紹幾款其它的免費語音轉(zhuǎn)文字工具,方便大家選擇。
我也對這幾款工具做了測試,對它們的識別準(zhǔn)確率做了對比。文章第五部分會給出識別準(zhǔn)確率排名。基于測試結(jié)果對語音識別工具的選擇在文章最后也給了幾條建議。
二、工具用途
語音轉(zhuǎn)文字,可方便快捷的將會議、講座、課堂錄音整理成文字稿。
三、工具推薦:
第一款:Buzz(windows和Mac OS都支持)
官方地址:https://github.com/chidiwilliams/buzz
Buzz是一款可以離線運行的語音識別軟件。它有兩個功能,一個是錄音轉(zhuǎn)文字,一個是實時語音識別。它的底層還是使用的whisper的語音識別功能。不過它的優(yōu)點是你只需要下載一個安裝包,安裝好之后就可以直接運行,不像配置whisper那樣麻煩。
使用方法
我們這里簡單介紹下它的錄音轉(zhuǎn)文字功能。在進行第一次轉(zhuǎn)錄的時候會下載模型,下載完后即可離線運行。

點擊"File",再點擊"Import Audio File...",導(dǎo)入你需要轉(zhuǎn)文字的錄音文件。
之后會彈出一個設(shè)置框,

如上圖所示:
左邊框選的是讓你選轉(zhuǎn)寫的質(zhì)量,從上往下,質(zhì)量逐漸增高,轉(zhuǎn)寫的準(zhǔn)確率會上升,但是相應(yīng)的耗費的時間也會變長。左邊框框選的這五個選項,對應(yīng)whisper的“tiny,base,small,medium,large”五種模式。
右邊框是兩種任務(wù)類型,我們一般選"Transcribe(轉(zhuǎn)錄)"模式,"Translate(翻譯)"模式是將語音文件翻譯成英語文本。圖中的"Export As(導(dǎo)出為)"則是選擇導(dǎo)出格式。
第二款:飛書妙記、剪映電腦版
這兩種方式都需要聯(lián)網(wǎng)才能使用。為啥把這倆放在一起,因為都是抖音旗下的產(chǎn)品。下圖中左邊是飛書的公司,右邊是剪映的公司。

雖然都是抖音旗下的,但是識別出來的結(jié)果還是有所不同的。識別準(zhǔn)確率也不相同,文章第五部分給出了識別準(zhǔn)確率排名。
使用方法:
飛書妙記:
官網(wǎng)地址:https://www.feishu.cn/product/minutes
注冊登陸后,直接上傳文件就可以了。

飛書妙記可以區(qū)別音頻中不同的說話人,可以導(dǎo)出txt格式和srt格式。
剪映電腦版:
需要下載安裝剪映電腦版。這個功能是為了方便大家剪視頻配字幕存在的,聯(lián)網(wǎng)運行,目前免費。
使用方法:新建項目>導(dǎo)入音頻>將音頻拉到下方軌道>點擊“文本”>“智能字幕”,生成后直接點導(dǎo)出字幕文件即可。

第三款:網(wǎng)易見外工作臺
官網(wǎng)地址:https://jianwai.youdao.com/
網(wǎng)易出品,需要聯(lián)網(wǎng)。目前每天有2小時免費識別額度。
使用方法:
登錄網(wǎng)易見外工作臺,新建語音轉(zhuǎn)寫項目,上傳文件即可。

第四款:windows系統(tǒng)自帶語音識別
win10和win11系統(tǒng)自帶語音識別,不過這個不支持音頻轉(zhuǎn)文字。只支持實時語音識別,需要聯(lián)網(wǎng)運行。
使用方法:
win10或win11系統(tǒng)下,打開一個txt文件,鼠標(biāo)點擊文件空白處使光標(biāo)處于待輸入狀態(tài),按快捷鍵win+h調(diào)出語音輸入工具,此時開始說話,工具就會實時識別你說的話,在txt文件中自動輸入文字。
第五款:其它
阿里云、騰訊云、百度云、訊飛聽見等都有提供錄音轉(zhuǎn)寫服務(wù),除了訊飛聽見也有網(wǎng)頁端的服務(wù)(新用戶贈送15min免費時長)外,都需要會編程調(diào)用接口,對不會編程的人不友好。當(dāng)然你要是會編程的話可以嘗試下這幾家公司的服務(wù),不同公司多少都會贈送一定的免費額度。
以錄音轉(zhuǎn)寫服務(wù)為例,百度每個賬號贈送10小時時長,騰訊每月贈送10h時長,阿里新客有3個月試用期,訊飛贈送15min免費額度。規(guī)則可能隨時變化,具體請以相關(guān)服務(wù)商的官方網(wǎng)站為準(zhǔn)。
四、不同工具識別準(zhǔn)確率對比
我使用了3段音源,一段是我自己錄制的一段Excel小技巧視頻,大概30s,一段是某播客的聊天音頻片段大概5min,一段是主席的2023年新年賀詞大概13min。
音源1(13min視頻 主席新年賀詞視頻):https://www.bilibili.com/video/BV1fP4y1v7eU
音源2(5min音頻 播客音頻從44s開始截取):https://www.xiaoyuzhoufm.com/episode/63738d1cb0725ebdf1e70163
音源3(30s視頻 Excel小技巧視頻):https://www.bilibili.com/video/BV1v5411Y72V
將三段音頻,分別使用whisper的tiny、base、small、medium、large-v1、large-v2、large這7種不同的模型以及飛書妙記、網(wǎng)易見外工作臺、win11自帶語音識別工具、剪映和必剪這5種免費語音識別工具來轉(zhuǎn)寫,比較它們之間的準(zhǔn)確率。因為buzz語音識別的核心就是whisper,但是buzz的語音轉(zhuǎn)錄模式才有5個選項,而whisper有7個,猜測應(yīng)該是少了large-v1和large-v2這兩種模式,所以我就使用了whisper,而沒用buzz。
文本相似度比較方法:
使用了python中difflib庫的SequenceMatcher類,可以實現(xiàn)一個用于計算文本相似度的函數(shù)。
計算值在0-1之間,如果比較的兩段文本相似度越高,則計算值越大。
代碼:
from?difflib?import?SequenceMatcher
def?similarity(a,?b):
????return?SequenceMatcher(None,?a,?b).ratio()
以下是2個運行示例:
>>>?similarity('我是文本A',?'我是文本A')
1.0>>>?similarity('我是文本A',?'我是文本B')
0.8
文本對比前的相關(guān)處理
因為有些工具轉(zhuǎn)換出來的文本含有標(biāo)點符號,有的含有空格和回車,避免中文標(biāo)點、空格和回車影響文本相似度的對比結(jié)果,我使用python將它們?nèi)咳コ?/p>
去除中文標(biāo)點代碼:
from?zhon.hanzi?import?punctuation
import?re
striped_txt?=?re.sub("[{}]+".format(punctuation),"",txt)?#txt為待處理文本
去除回車和空格:
dealed_txt?=?txt.replace("?","").replace("\n","")?#去空格、去回車
由于數(shù)字識別的時候有些會識別成中文,有些則會識別為阿拉伯?dāng)?shù)字,但是并不代表識別錯誤,所以對于語音轉(zhuǎn)寫后數(shù)字多的文本,我統(tǒng)一改成了中文的數(shù)字。
另外whisper轉(zhuǎn)錄時有可能會有繁體中文,我就使用在線工具將其轉(zhuǎn)換為簡體。
工具地址:https://aies.cn/
五、對比結(jié)果



補充說明:因為buzz的底層是whisper,所以我用的whisper測試,沒用buzz,whisper能實現(xiàn)buzz也能實現(xiàn),所以大家沒安裝whisper的,覺得whisper表現(xiàn)不錯想嘗試下也可以用buzz替換哈)
六、結(jié)果分析
這幾個音源其實都有其特點。
30s的視頻是一個Excel小教程,文本量少,總共也才100多字,沒有生僻詞匯,幾個工具識別的都差不多,除了whisper的base和tiny兩種較小模型識別效果不好,所有識別結(jié)果與文稿的相似度都能達到96%以上。
5min的音源是一個聊天播客的片段,內(nèi)容都是一些日常生活用語,語氣詞比較多,“嗯啊呃”這些,像這種其實對于飛書妙記來說,我的這個比較方式就不太公平了,因為它的識別結(jié)果里去除了語氣詞這些,和正確文稿相比少了很多語氣詞,自然相似度比較低。
13min的音源是主席2023年的新年賀詞,里面使用到的成語和古語引用比較多,比如說“艱難困苦,玉汝于成”、“櫛風(fēng)沐雨、披荊斬棘”、“犯其至難而圖其至遠”、“路雖遠,行則將至;事雖難,做則必成”、“愚公移山”、“積跬步以致千里”等,對于這些的whisper識別起來效果不是很好,而其它工具比較不錯。但是即使如此,我們也可以看到whisper識別后文本與源文本的相似性達到了95%以上,對于一個開源、離線運行的軟件來說已經(jīng)很不錯了。
觀察測試結(jié)果,我們發(fā)現(xiàn)。
對whisper來說,說模型越大識別準(zhǔn)確率越高并不絕對(至少對中文不是)。比如5min音源的識別,small模式比更高級的模式準(zhǔn)確率要高。whisper高級模式的語音識別準(zhǔn)確率在日常語境(成語典故較少)可以做到比一些在線服務(wù)要強大。
剪映和必剪在三次測試中識別準(zhǔn)確率都位于前三名。微軟語音識別和whisper分別進入了兩次測試的前三名,不過whisper的兩次分別是不同識別模式。飛書妙記進入一次前三名。
七、建議
通過文章第五部分三組音源的數(shù)據(jù),可以給出一些建議:
剪映和必剪的識別準(zhǔn)確率相對而言比較高,大家可優(yōu)先選擇,但是剪映支持直接導(dǎo)出字幕,必剪需要你自己找到j(luò)son文件再處理才能得到文本,所以推薦剪映。
對一些成語和古語引用比較多的音頻,對隱私不敏感的話,不建議使用whisper(buzz),其他在線平臺識別準(zhǔn)確率都比較高。日常語境下whisper(buzz)表現(xiàn)還是不錯。
隨時間發(fā)展免費的在線語音識別服務(wù)可能收費,或者突然關(guān)停(之前網(wǎng)易見外工作臺有段時間停止對外開放,后來又恢復(fù)了),建議大家下載個buzz(你要是愿意花時間安裝whisper更好),開源軟件、離線運行不受制于人,處理一般的語音轉(zhuǎn)寫完全沒問題,隱私也有保障。
小伙伴們,都看到這里了,點個贊鼓勵下唄~
另外測試過程中用到的音源文件、音源的正確文字稿、識別后的文字稿、用到的python代碼以及離線識別工具buzz的安裝包我都打包了,需要的朋友可以公眾號回復(fù)2301獲取。