語(yǔ)音轉(zhuǎn)文字軟件測(cè)評(píng)

測(cè)評(píng)的軟件
1. Word的謄寫功能

2. 開源離線軟件Buzz的tinny、small、medium模型


3. Adobe Primiere Pro 2024的語(yǔ)音轉(zhuǎn)字幕功能

4. 微軟語(yǔ)音轉(zhuǎn)文字功能(Win+Ctrl+L快捷鍵開啟)

評(píng)測(cè)結(jié)果分析和說(shuō)明
1. 網(wǎng)絡(luò)方面:
Buzz的Whisper模型是離線的,微軟的字幕功能也是離線的,二者都無(wú)需網(wǎng)絡(luò)即可實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文字

2. 費(fèi)用方面:
Buzz是開源免費(fèi)的、微軟的字幕功能是自帶的(快捷鍵Win+Ctrl+L即可開啟)
Word的謄寫功能目前是免費(fèi)的、PR是訂閱制的
3. 導(dǎo)出方面:
除了微軟的字幕功能是不能導(dǎo)出,其他都是可以導(dǎo)出的而且是支持時(shí)間戳功能的。
但是微軟的Win11可以啟用聽寫功能(快捷鍵:Win+H)可以輸出位文本【這個(gè)功能其實(shí)是微軟的語(yǔ)音輸入法】
4. 準(zhǔn)確率和效率方面:
a.評(píng)測(cè)的結(jié)果可以忽略音樂(lè)部分(準(zhǔn)確率一言難盡呀),此外畢竟正經(jīng)人誰(shuí)會(huì)音樂(lè)轉(zhuǎn)文字呀,字幕網(wǎng)上都有得搜索。
b.日常的會(huì)議、視頻等方面,Buzz的模型的漏字情況都是比較少的,對(duì)于難以識(shí)別的音頻Buzz會(huì)用同音字來(lái)代替。
其他軟件,就是聽不懂、識(shí)別不了就會(huì)跳過(guò)那種。
5.推薦:
Win11的字幕功能可以實(shí)現(xiàn)實(shí)時(shí)字幕而且無(wú)需聯(lián)網(wǎng)(最推薦),但是就是不支持導(dǎo)出
Buzz的Medium準(zhǔn)確率表現(xiàn)最為出色,但是耗時(shí)差強(qiáng)人意。
Word和PR的功能,表現(xiàn)差不多,但是Word打開速度更快一點(diǎn),而且是常用辦公軟件,筆者更加傾向的使Word的謄寫功能
測(cè)評(píng)的內(nèi)容
周杰倫的歌曲:告白氣球
嗶哩嗶哩的視頻(BV1i24y1Q7u3)
測(cè)評(píng)結(jié)果
準(zhǔn)確率:
歌曲方面,幾款軟件的識(shí)別率不高,可能是周董的音樂(lè)辭藻華麗冷僻點(diǎn)了。
其中Buzz模型 > Word > 微軟自帶 > PR
先給出原文:
?[00:23.560]塞納河畔 ?左岸的咖啡
?[00:26.280]我手一杯 ?品嘗你的美
?[00:29.270]留下唇印的嘴
?[00:34.080]花店玫瑰 ?名字寫錯(cuò)誰(shuí)
?[00:36.800]告白氣球 ?風(fēng)吹到對(duì)街
?[00:39.860]微笑在天上飛
?[00:44.030]你說(shuō)你有點(diǎn)難追
?[00:46.660]想讓我知難而退
?[00:49.320]禮物不需挑最貴
?[00:51.530]只要香榭的落葉
?[00:54.480]喔~營(yíng)造浪漫的約會(huì)
?[00:56.810]不害怕搞砸一切
?[00:59.560]擁有你就擁有 ?全世界
?[01:04.940]親愛的 ?愛上你 ?從那天起
?[01:11.290]甜蜜的很輕易
?[01:15.610]親愛的 ?別任性 ?你的眼睛
?[01:22.000]在說(shuō)我愿意Buzz的內(nèi)容比較完整,基本沒(méi)有出現(xiàn)漏字的情況,準(zhǔn)確在評(píng)測(cè)的軟件中算是比較高的
下面是結(jié)果:
?小白
?像那般 酸辣的咖啡
?我舀一杯 感受你的美
?留下春陰的嘴
?花點(diǎn)玫瑰 名字寫錯(cuò)
?誰(shuí) 告白接受 風(fēng)吹都對(duì)
?微笑 踩點(diǎn)傷悲
?你說(shuō)你有點(diǎn)難追
?想讓我真的而退
?禮物不需挑最貴
?只要香鮮的落葉
?營(yíng)造浪漫的約會(huì)
?不害怕搞砸一切
?永遠(yuǎn)你就擁有 全世界
?親愛的 愛上你
?從那天起 甜蜜的痕跡
?親愛的 別忍心
?你的眼睛 在說(shuō)我愿意下面是Word的結(jié)果:
?00:00:25
?微博上一杯張你的美,留下唇印的嘴。
?00:00:35
?因此寫錯(cuò)誰(shuí)告白氣球風(fēng)吹到對(duì)街。
?00:00:40
?在你身邊?
?00:00:45
?有點(diǎn)難追,想讓我真的。
?00:00:49
?我不懸,挑最貴,只要香榭的。
?00:00:53
?落葉都蘊(yùn)藏浪漫的約會(huì)能不害怕。
?00:00:59
?一切。
?00:01:01
?不要。
?00:01:04
?親愛的,愛上你。
?00:01:13
?痕跡。
?00:01:49
?抓了。下面是微軟的語(yǔ)音轉(zhuǎn)文字的結(jié)果,漏字的情況也相當(dāng)嚴(yán)重:

PR識(shí)別歌曲的結(jié)果是最離譜,這都不是歌曲了:
下面是截取的一小段:
?00:00:23:09 - 00:01:20:17
?未知
?那么這個(gè)時(shí)候你找你的你如果真的追不回來(lái),那么你自己說(shuō)追的吧,就不追的對(duì)也為在前邊的。你說(shuō),有的男人想讓我真的對(duì)你我不想要這一輩子,只要小了,我也可以走浪漫的,也可能我霸道的一直用你的擁有著時(shí)間去愛,讓愛上你從那天起就沒(méi)有人去去愛,讓別人去愛你的人。
日常視頻方面,這是語(yǔ)音轉(zhuǎn)文字的正常工作內(nèi)容
這幾款軟件的功能都比較強(qiáng)大,做實(shí)時(shí)翻譯的話,Win11的字幕功能是最好的,Buzz因?yàn)槭请x線模型專有名詞可能會(huì)差一點(diǎn)
下面給出測(cè)評(píng)的結(jié)果:
Buzz的medium模型:
?1
?00:00:00,000 --> 00:00:04,080
?今天介紹的Buzz是一個(gè)能夠大幅減輕錄制影片后
?2
?00:00:04,080 --> 00:00:07,000
?制作字幕時(shí)間的語(yǔ)音識(shí)別工具
?3
?00:00:07,000 --> 00:00:10,920
?它的底層是使用來(lái)自O(shè)penAI公司的Whisper模型
?4
?00:00:10,920 --> 00:00:12,960
?OpenAI是一家美國(guó)公司
?5
?00:00:12,960 --> 00:00:15,880
?它的創(chuàng)始人之一正是Twitter的新老板
?6
?00:00:15,880 --> 00:00:16,920
?Elon Musk
?7
?00:00:16,920 --> 00:00:18,320
?在今天的影片里面
?8
?00:00:18,320 --> 00:00:20,400
?會(huì)來(lái)介紹Buzz的使用方法
?9
?00:00:20,400 --> 00:00:23,760
?并且再跟簡(jiǎn)硬的智能字幕來(lái)做比較
?10
?00:00:23,760 --> 00:00:25,760
?最后再介紹字幕編輯工具
?11
?00:00:25,760 --> 00:00:28,360
?Subtitle Editor使用Whisper的步驟
?12
?00:00:28,360 --> 00:00:29,960
?Buzz的安裝非常簡(jiǎn)單
?13
?00:00:29,960 --> 00:00:33,640
?只要找到Buzz在GitHub上面的網(wǎng)址以后
?14
?00:00:33,640 --> 00:00:35,760
?點(diǎn)擊右方的Releases
?15
?00:00:35,760 --> 00:00:39,400
?在Releases里面找到你的作業(yè)系統(tǒng)對(duì)應(yīng)的安裝檔
?16
?00:00:39,400 --> 00:00:43,200
?并且執(zhí)行以后就可以很順利的把它安裝起來(lái)了
?17
?00:00:43,200 --> 00:00:45,080
?它的操作也非常的簡(jiǎn)單
?18
?00:00:45,080 --> 00:00:47,360
?啟動(dòng)以后就會(huì)是轉(zhuǎn)錄的畫面
?19
?00:00:47,360 --> 00:00:50,200
?在這邊你可以馬上使用你的麥克風(fēng)
?20
?00:00:50,200 --> 00:00:53,400
?它就會(huì)把你的錄音直接就轉(zhuǎn)成文字
Buzz的tinny模型:
?1
?00:00:00,000 --> 00:00:04,080
?今天介紹的法史是一個(gè)能夠大幅減輕錄制影片后
?2
?00:00:04,080 --> 00:00:07,040
?制作字幕時(shí)間的語(yǔ)音視別工具
?3
?00:00:07,040 --> 00:00:11,000
?他的底層是使用來(lái)自O(shè)ppen AI公司的FishPermotion
?4
?00:00:11,000 --> 00:00:13,040
?Oppen AI是一家美國(guó)公司
?5
?00:00:13,040 --> 00:00:15,960
?他的創(chuàng)始人之一正式推特的新老板
?6
?00:00:15,960 --> 00:00:16,960
?一龍馬斯克
?7
?00:00:16,960 --> 00:00:18,320
?在今天影片里面
?8
?00:00:18,320 --> 00:00:20,440
?會(huì)來(lái)介紹法史的使用方法
?9
?00:00:20,440 --> 00:00:23,800
?并且再跟檢驗(yàn)的智能字幕來(lái)做比較
Word的謄寫功能:
?00:00:00
?今天介紹的boss是一個(gè)能夠大幅減輕錄制影片后制作植物時(shí)間的語(yǔ)音識(shí)別工具。它的底層是使用來(lái)自open AI公司的模型。open AI是一家美國(guó)公司,它的創(chuàng)始人之一正是Twitter的新老板伊隆馬斯克在今天的影片里面會(huì)來(lái)介紹Buds的使用。
?00:00:20
?方法,并且在跟檢驗(yàn)的智能字幕來(lái)做比較。最后再介紹字幕編輯工具使用的步驟。的安裝非常簡(jiǎn)單,只要找到在GitHub上面的網(wǎng)址以后,點(diǎn)擊右方的with the release里面找到你的作業(yè)系統(tǒng)對(duì)應(yīng)的安裝檔,并且執(zhí)行以后就可以很順利的。
?00:00:42
?把它安裝起來(lái)了,他的操作也非常的簡(jiǎn)單,啟動(dòng)以后呢,就會(huì)是轉(zhuǎn)入的畫面,在這邊你可以馬上使用你的麥克風(fēng),他就會(huì)把你的錄音直接就轉(zhuǎn)成了文字,只要點(diǎn)擊這個(gè)richer就可以了,等他這邊出現(xiàn)了秒數(shù)以后,你就可以開始錄音,并且他就及時(shí)。
PR的字幕功能:
?00:00:00:01 - 00:00:23:22
?未知
?今天介紹的Bus是一個(gè)能夠大幅減輕錄制。影片后,制作字幕時(shí)間的語(yǔ)音識(shí)別工具,它的底層是使用來(lái)自O(shè)pen公司的Future模型,OpenTable是一家美國(guó)公司它的創(chuàng)始人之一,正式推出的新老板伊隆馬斯克在今天的影片里面會(huì)介紹Box的使用方法,并且在跟檢驗(yàn)的智能字幕來(lái)做比較。
?00:00:23:22 - 00:01:02:10
?未知
?最后在介紹字幕編輯工具Completed的使用Twister的步驟大致的安裝非常簡(jiǎn)單,只要找到大師在GitHub上面的網(wǎng)址以后,編輯右方的Release意思在Messages里面找到你的作業(yè)系統(tǒng)對(duì)應(yīng)的安裝等,并且執(zhí)行以后就可以很順利的把它安裝起來(lái)了。它的操作也非常的簡(jiǎn)單啟動(dòng)以后就會(huì)轉(zhuǎn)入的畫面在這邊你可以馬上使用你的麥克風(fēng),它就會(huì)把你的錄音直接就轉(zhuǎn)成了文字,只要點(diǎn)擊這個(gè)Record就可以了等它這邊出現(xiàn)的描述以后,你就可以開始錄音,并且它就及時(shí)的轉(zhuǎn)錄,因?yàn)槲覀儸F(xiàn)在是要測(cè)試
2.效率:
筆者沒(méi)有記錄準(zhǔn)確的時(shí)間,但是大略說(shuō),Win11的字幕功能是最快的(畢竟人家主打的功能是實(shí)時(shí)字幕嘛),其次Word、PR、Buzz的tinny模型不分上下、Buzz的small模型稍微落后、medium是耗時(shí)最久的