最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

幾款免費的語音轉(zhuǎn)文字工具推薦(附識別準(zhǔn)確度排行榜)

2023-01-06 19:37 作者:1590856  | 我要投稿

本文框架

圖片

一、前言

大家好啊,最近chatgpt比較火啊,我也體驗了一把,文章標(biāo)題就是它給起的,有點標(biāo)題黨了哈,但是意思也大差不差。

之前發(fā)表過一篇"免費離線語音識別神器whisper安裝教程",因為whisper安裝比較費時間,本篇介紹幾款其它的免費語音轉(zhuǎn)文字工具,方便大家選擇。

我也對這幾款工具做了測試,對它們的識別準(zhǔn)確率做了對比。文章第五部分會給出識別準(zhǔn)確率排名。基于測試結(jié)果對語音識別工具的選擇在文章最后也給了幾條建議。

二、工具用途

語音轉(zhuǎn)文字,可方便快捷的將會議、講座、課堂錄音整理成文字稿。

三、工具推薦:

第一款:Buzz(windows和Mac OS都支持)

  • 官方地址:https://github.com/chidiwilliams/buzz

Buzz是一款可以離線運行的語音識別軟件。它有兩個功能,一個是錄音轉(zhuǎn)文字,一個是實時語音識別。它的底層還是使用的whisper的語音識別功能。不過它的優(yōu)點是你只需要下載一個安裝包,安裝好之后就可以直接運行,不像配置whisper那樣麻煩。

使用方法

我們這里簡單介紹下它的錄音轉(zhuǎn)文字功能。在進行第一次轉(zhuǎn)錄的時候會下載模型,下載完后即可離線運行。

圖片

點擊"File",再點擊"Import Audio File...",導(dǎo)入你需要轉(zhuǎn)文字的錄音文件。

之后會彈出一個設(shè)置框,

圖片

如上圖所示:

左邊框選的是讓你選轉(zhuǎn)寫的質(zhì)量,從上往下,質(zhì)量逐漸增高,轉(zhuǎn)寫的準(zhǔn)確率會上升,但是相應(yīng)的耗費的時間也會變長。左邊框框選的這五個選項,對應(yīng)whisper的“tiny,base,small,medium,large”五種模式。

右邊框是兩種任務(wù)類型,我們一般選"Transcribe(轉(zhuǎn)錄)"模式,"Translate(翻譯)"模式是將語音文件翻譯成英語文本。圖中的"Export As(導(dǎo)出為)"則是選擇導(dǎo)出格式。

第二款:飛書妙記、剪映電腦版

這兩種方式都需要聯(lián)網(wǎng)才能使用。為啥把這倆放在一起,因為都是抖音旗下的產(chǎn)品。下圖中左邊是飛書的公司,右邊是剪映的公司。

圖片

雖然都是抖音旗下的,但是識別出來的結(jié)果還是有所不同的。識別準(zhǔn)確率也不相同,文章第五部分給出了識別準(zhǔn)確率排名。

使用方法:

飛書妙記:

  • 官網(wǎng)地址:https://www.feishu.cn/product/minutes

注冊登陸后,直接上傳文件就可以了。

圖片

飛書妙記可以區(qū)別音頻中不同的說話人,可以導(dǎo)出txt格式和srt格式。

剪映電腦版:

需要下載安裝剪映電腦版。這個功能是為了方便大家剪視頻配字幕存在的,聯(lián)網(wǎng)運行,目前免費。

使用方法:新建項目>導(dǎo)入音頻>將音頻拉到下方軌道>點擊“文本”>“智能字幕”,生成后直接點導(dǎo)出字幕文件即可。

圖片

第三款:網(wǎng)易見外工作臺

  • 官網(wǎng)地址:https://jianwai.youdao.com/

網(wǎng)易出品,需要聯(lián)網(wǎng)。目前每天有2小時免費識別額度。

使用方法:

登錄網(wǎng)易見外工作臺,新建語音轉(zhuǎn)寫項目,上傳文件即可。

圖片

第四款:windows系統(tǒng)自帶語音識別

win10和win11系統(tǒng)自帶語音識別,不過這個不支持音頻轉(zhuǎn)文字。只支持實時語音識別,需要聯(lián)網(wǎng)運行。

使用方法:

win10或win11系統(tǒng)下,打開一個txt文件,鼠標(biāo)點擊文件空白處使光標(biāo)處于待輸入狀態(tài),按快捷鍵win+h調(diào)出語音輸入工具,此時開始說話,工具就會實時識別你說的話,在txt文件中自動輸入文字。

第五款:其它

阿里云、騰訊云、百度云、訊飛聽見等都有提供錄音轉(zhuǎn)寫服務(wù),除了訊飛聽見也有網(wǎng)頁端的服務(wù)(新用戶贈送15min免費時長),都需要會編程調(diào)用接口,對不會編程的人不友好。當(dāng)然你要是會編程的話可以嘗試下這幾家公司的服務(wù),不同公司多少都會贈送一定的免費額度。

以錄音轉(zhuǎn)寫服務(wù)為例,百度每個賬號贈送10小時時長,騰訊每月贈送10h時長,阿里新客有3個月試用期,訊飛贈送15min免費額度。規(guī)則可能隨時變化,具體請以相關(guān)服務(wù)商的官方網(wǎng)站為準(zhǔn)。

四、不同工具識別準(zhǔn)確率對比

我使用了3段音源,一段是我自己錄制的一段Excel小技巧視頻,大概30s,一段是某播客的聊天音頻片段大概5min,一段是主席的2023年新年賀詞大概13min。

將三段音頻,分別使用whisper的tiny、base、small、medium、large-v1、large-v2、large這7種不同的模型以及飛書妙記、網(wǎng)易見外工作臺、win11自帶語音識別工具、剪映和必剪這5種免費語音識別工具來轉(zhuǎn)寫,比較它們之間的準(zhǔn)確率。因為buzz語音識別的核心就是whisper,但是buzz的語音轉(zhuǎn)錄模式才有5個選項,而whisper有7個,猜測應(yīng)該是少了large-v1和large-v2這兩種模式,所以我就使用了whisper,而沒用buzz。

文本相似度比較方法:

使用了python中difflib庫的SequenceMatcher類,可以實現(xiàn)一個用于計算文本相似度的函數(shù)。

計算值在0-1之間,如果比較的兩段文本相似度越高,則計算值越大。

代碼:

from?difflib?import?SequenceMatcher

def?similarity(a,?b):
????return?SequenceMatcher(None,?a,?b).ratio()

以下是2個運行示例:

>>>?similarity('我是文本A',?'我是文本A')
1.0
>>>?similarity('我是文本A',?'我是文本B')
0.8

文本對比前的相關(guān)處理

因為有些工具轉(zhuǎn)換出來的文本含有標(biāo)點符號,有的含有空格和回車,避免中文標(biāo)點、空格和回車影響文本相似度的對比結(jié)果,我使用python將它們?nèi)咳コ?/p>

去除中文標(biāo)點代碼:

from?zhon.hanzi?import?punctuation
import?re

striped_txt?=?re.sub("[{}]+".format(punctuation),"",txt)?#txt為待處理文本

去除回車和空格:

dealed_txt?=?txt.replace("?","").replace("\n","")?#去空格、去回車

由于數(shù)字識別的時候有些會識別成中文,有些則會識別為阿拉伯?dāng)?shù)字,但是并不代表識別錯誤,所以對于語音轉(zhuǎn)寫后數(shù)字多的文本,我統(tǒng)一改成了中文的數(shù)字。

另外whisper轉(zhuǎn)錄時有可能會有繁體中文,我就使用在線工具將其轉(zhuǎn)換為簡體。

  • 工具地址:https://aies.cn/

五、對比結(jié)果

圖片
圖片
圖片

補充說明:因為buzz的底層是whisper,所以我用的whisper測試,沒用buzz,whisper能實現(xiàn)buzz也能實現(xiàn),所以大家沒安裝whisper的,覺得whisper表現(xiàn)不錯想嘗試下也可以用buzz替換哈)

六、結(jié)果分析

這幾個音源其實都有其特點。

30s的視頻是一個Excel小教程,文本量少,總共也才100多字,沒有生僻詞匯,幾個工具識別的都差不多,除了whisper的base和tiny兩種較小模型識別效果不好,所有識別結(jié)果與文稿的相似度都能達到96%以上。

5min的音源是一個聊天播客的片段,內(nèi)容都是一些日常生活用語,語氣詞比較多,“嗯啊呃”這些,像這種其實對于飛書妙記來說,我的這個比較方式就不太公平了,因為它的識別結(jié)果里去除了語氣詞這些,和正確文稿相比少了很多語氣詞,自然相似度比較低。

13min的音源是主席2023年的新年賀詞,里面使用到的成語和古語引用比較多,比如說“艱難困苦,玉汝于成”、“櫛風(fēng)沐雨、披荊斬棘”、“犯其至難而圖其至遠”、“路雖遠,行則將至;事雖難,做則必成”、“愚公移山”、“積跬步以致千里”等,對于這些的whisper識別起來效果不是很好,而其它工具比較不錯。但是即使如此,我們也可以看到whisper識別后文本與源文本的相似性達到了95%以上,對于一個開源、離線運行的軟件來說已經(jīng)很不錯了。

觀察測試結(jié)果,我們發(fā)現(xiàn)。

  1. 對whisper來說,說模型越大識別準(zhǔn)確率越高并不絕對(至少對中文不是)。比如5min音源的識別,small模式比更高級的模式準(zhǔn)確率要高。whisper高級模式的語音識別準(zhǔn)確率在日常語境(成語典故較少)可以做到比一些在線服務(wù)要強大。

  2. 剪映和必剪在三次測試中識別準(zhǔn)確率都位于前三名。微軟語音識別和whisper分別進入了兩次測試的前三名,不過whisper的兩次分別是不同識別模式。飛書妙記進入一次前三名。

七、建議

通過文章第五部分三組音源的數(shù)據(jù),可以給出一些建議:

  • 剪映和必剪的識別準(zhǔn)確率相對而言比較高,大家可優(yōu)先選擇,但是剪映支持直接導(dǎo)出字幕,必剪需要你自己找到j(luò)son文件再處理才能得到文本,所以推薦剪映。

  • 對一些成語和古語引用比較多的音頻,對隱私不敏感的話,不建議使用whisper(buzz),其他在線平臺識別準(zhǔn)確率都比較高。日常語境下whisper(buzz)表現(xiàn)還是不錯。

  • 隨時間發(fā)展免費的在線語音識別服務(wù)可能收費,或者突然關(guān)停(之前網(wǎng)易見外工作臺有段時間停止對外開放,后來又恢復(fù)了),建議大家下載個buzz(你要是愿意花時間安裝whisper更好),開源軟件、離線運行不受制于人,處理一般的語音轉(zhuǎn)寫完全沒問題,隱私也有保障。

小伙伴們,都看到這里了,點個贊鼓勵下唄~

另外測試過程中用到的音源文件、音源的正確文字稿、識別后的文字稿、用到的python代碼以及離線識別工具buzz的安裝包我都打包了,需要的朋友可以公眾號回復(fù)2301獲取。


幾款免費的語音轉(zhuǎn)文字工具推薦(附識別準(zhǔn)確度排行榜)的評論 (共 條)

分享到微博請遵守國家法律
鄂伦春自治旗| 福清市| 崇阳县| 陇南市| 保靖县| 福州市| 奉节县| 泾川县| 昌乐县| 武功县| 广安市| 招远市| 安新县| 沙雅县| 额尔古纳市| 融水| 义马市| 秭归县| 工布江达县| 江城| 南部县| 新干县| 雷州市| 南充市| 英吉沙县| 广水市| 改则县| 积石山| 永和县| 象州县| 大宁县| 二手房| 太仆寺旗| 赤城县| 伊吾县| 新沂市| 天门市| 马山县| 新宾| 苏州市| 岢岚县|