關(guān)于一鍵自動(dòng)生成字幕、提取視頻字幕方案的詳細(xì)評(píng)測(cè)與對(duì)比
估計(jì)因?yàn)楝F(xiàn)在視頻領(lǐng)域的確很火,總會(huì)有粉絲來問阿虛怎么自動(dòng)給視頻加字幕(也有部分是想啃電影生肉)
這個(gè)問題,感覺在后臺(tái)已經(jīng)有不下10人次問我了

曾經(jīng)網(wǎng)易倒是出品過一款良心且免費(fèi)的加字幕神器——網(wǎng)易見外
(雖然現(xiàn)在好像還能用,但似乎時(shí)不時(shí)抽風(fēng))

后來的視頻創(chuàng)作者們,基本都是在找這款產(chǎn)品的替代品
所以阿虛這里花了點(diǎn)時(shí)間,整理了一下這方面目前可用的工具
當(dāng)然如果你只有幾行字幕要加,那殺雞焉用牛刀,不如自己手動(dòng)敲
因?yàn)樽詣?dòng)識(shí)別字幕實(shí)際上就是基于的語音轉(zhuǎn)文字,而阿虛在后文的測(cè)試中發(fā)現(xiàn),就算是你能做到咬字清晰、普通話發(fā)音標(biāo)準(zhǔn)到不能再標(biāo)準(zhǔn)播音腔,一樣會(huì)出現(xiàn)識(shí)別錯(cuò)誤的情況

真想完全解放生產(chǎn)力,還得寄希望于往后語音識(shí)別技術(shù)的發(fā)展
不過,如果你需要操作的視頻時(shí)長(zhǎng)偏長(zhǎng)、數(shù)量偏多,那么用上以下工具肯定是能大大提高工作效率的
畢竟后續(xù)去對(duì)自動(dòng)識(shí)別的字幕糾錯(cuò),相比自己一句句敲肯定還是要節(jié)約不少時(shí)間的

▍1 免費(fèi)方案
這篇的內(nèi)容,阿虛就分免費(fèi)方案和收費(fèi)方案來介紹
● 1.1 剪映(Win/安卓/iOS)
在網(wǎng)易見外倒下后不久,被采用最多的方案之一多半就是剪映了,同時(shí)也的確是效果很不錯(cuò)的一個(gè)方案

本來在之前,還需要把視頻傳到手機(jī)app上進(jìn)行字幕生成,不過也可以說不負(fù)眾望,剪映在前不久,推出了Windows桌面端:https://lv.ulikecam.com/
這一下就方便了不少,而且非常良心的 目前 自動(dòng)生成字幕還是完全免費(fèi)的功能
阿虛這里用我很喜歡的一個(gè)UP主的一小段視頻做測(cè)試
如果有關(guān)注「林晨同學(xué)」的粉絲,應(yīng)該知道他原來是在廣播電視臺(tái)工作的,有一口播音腔式、咬字清晰、非常好聽的普通話

在此的基礎(chǔ)上,用剪映自動(dòng)生成的字幕,幾乎完美!

不過如果你不習(xí)慣用剪映導(dǎo)出視頻,或者只想用剪映生成字幕文件,通常的辦法是:
假設(shè)你用的是PR,那就是先用純綠色對(duì)視頻進(jìn)行填充,導(dǎo)出一個(gè)綠幕視頻 ? 利用剪映自動(dòng)識(shí)別生成字幕并導(dǎo)出視頻 ? 在PR中導(dǎo)入視頻并摳像
相信會(huì)用PR做視頻的各位應(yīng)該能明白阿虛在說些什么,如果還不會(huì)的話,可以自己到B站上找找PR摳像的教程

● 1.2 Videosrt(Win/Linux)
VideoSrt 是一款開源免費(fèi)軟件,但本身并不提供服務(wù),而是需要自己手動(dòng)申請(qǐng)并填寫第三方公共云服務(wù)接口,配置好之后才可使用
Github地址:
Github目前處于半墻狀態(tài),你下載此軟件可能會(huì)遇到困難,建議了解
其中生成字幕所用到的是阿里云的語音引擎,試用版每日提供2小時(shí)的免費(fèi)額度,應(yīng)該是遠(yuǎn)夠個(gè)人使用的了


具體API的申請(qǐng)&配置,作者做了長(zhǎng)達(dá)10分鐘的超詳細(xì)視頻教程,阿虛便不在此贅述了:https://www.yuque.com/viggo-t7cdi/videosrt/em4n10

這款軟件的優(yōu)勢(shì)是可以生成雙語字幕,輸入輸出語言支持:中文、英語、日語、韓語、法語、德語、西班牙語、俄語、意大利語、泰語
當(dāng)然想生成雙語字幕的話,就得額外申請(qǐng)翻譯API了(百度 or 騰訊),好在作者都在使用指南中給出了詳細(xì)的視頻配置教程
▍2 收費(fèi)方案
而如今更多的自動(dòng)生成字幕方案其實(shí)都是付費(fèi)的,同時(shí)也各有各的優(yōu)勢(shì),所以阿虛在這里盡可能的列舉一下

● 2.1 訊飛聽見字幕(WIN/MAC)
眾所周知訊飛在語音識(shí)別這塊也是深耕很多年的了,19年末也是推出了自己的自動(dòng)生成字幕工具:https://zimu.iflyrec.com/

支持音視頻格式比較多是一大優(yōu)勢(shì),支持:mp4、mkv、flv、mov、wmv、mxf、avi、ts、mp3、wav、s48、amr、wma、m4a、aac、pcm
在咬字清晰、普通話標(biāo)準(zhǔn)的情況下,訊飛的表現(xiàn)還是不錯(cuò)的,只有少部分識(shí)別錯(cuò)誤

最后說一下機(jī)器快轉(zhuǎn)的價(jià)格:0.48元/分鐘

但這都不算是訊飛真正的優(yōu)勢(shì)

訊飛的優(yōu)勢(shì)應(yīng)該是目前唯一提供人工精轉(zhuǎn)的平臺(tái)
雖然自然這樣價(jià)格就不便宜了,但對(duì)于復(fù)雜音頻場(chǎng)景(比如戶外、多人對(duì)話...)這可能是最省精力的解決方案了

標(biāo)準(zhǔn)音視頻118元/小時(shí),相對(duì)清晰音視頻168元/小時(shí),需要標(biāo)時(shí)間戳的話,需再額外加價(jià)100元/小時(shí)
另外人工精轉(zhuǎn)單筆訂單起步價(jià)為18元,意思是不帶時(shí)間戳差不多9分鐘以上的視頻可以用,帶時(shí)間戳的話5分鐘以上可以用
● 2.2 ArcTime Pro(Win/Mac/Linux)
如果你有學(xué)視頻剪輯,應(yīng)該是知道 ArcTime 這款知名字幕工具的:http://arctime.cn/
在不久前它的作者也更新了自動(dòng)語音轉(zhuǎn)寫+打軸功能等功能

價(jià)格的話比訊飛稍微便宜不少,新用戶的話則是非常便宜了,差不多0.15元/分鐘
支持普通話、粵語、英語

可以無縫支持所有主流非編軟件是一大優(yōu)勢(shì)

同時(shí)作為一款常用的字幕工具,就算不使用這個(gè)自動(dòng)生成字幕,單純用來手工加字幕,也是一個(gè)非常不錯(cuò)的選擇

● 2.3 愛幕(網(wǎng)頁(yè))
愛慕這個(gè)網(wǎng)站,原本是個(gè)開源的字幕編輯網(wǎng)頁(yè):https://subplayer.js.org/
后來升級(jí)加上了自動(dòng)識(shí)別加字幕功能:https://online.aimu-app.com/
因?yàn)樾伦?cè)用戶免費(fèi)送了一些點(diǎn)數(shù),所以阿虛順便測(cè)試了一下,效果還不錯(cuò)的
在咬字清晰、發(fā)音標(biāo)準(zhǔn)的情況下,做到了絕大多數(shù)識(shí)別正確

主要是價(jià)格比訊飛要便宜,如果只是語音識(shí)別的話,僅0.2元/分鐘

另外此站支持中文普通話、英語、日語、粵語的語音識(shí)別
這個(gè)網(wǎng)站看起愛就比較簡(jiǎn)陋了:https://aismartvip.com/
但好歹是無需注冊(cè)即可使用,每天最多免費(fèi)5分鐘,所以還是把它寫在這里
支持中英文語音/視頻識(shí)別,支持28種語言字幕翻譯,支持雙語字幕,支持最大上傳文件為5G
識(shí)別率還算是可以,但對(duì)斷句的判斷不太準(zhǔn)確


目前有兩種引擎可用,價(jià)格為0.1元/分鐘 和 0.28元/分鐘

● 2.5 字幕醬(網(wǎng)頁(yè))
這個(gè)網(wǎng)站看似比較簡(jiǎn)陋:https://www.zimujiang.com/
但優(yōu)點(diǎn)是60秒內(nèi)視頻免費(fèi)生成字幕
同時(shí)支持支持識(shí)別中文、粵語、英文、日語、法語、韓語、俄語、阿拉伯語、德語、西班牙語,還可以翻譯后導(dǎo)出雙語字幕

價(jià)格的話如下,充值的越多越便宜,阿虛測(cè)試了一下差不多1分鐘需要消耗0.8點(diǎn)

● 2.6 牛片網(wǎng)(網(wǎng)頁(yè))
而如果要論目前最便宜的方案,應(yīng)該就是牛片網(wǎng)了:https://www.6pian.cn/zimu.html
目前顯示限時(shí)活動(dòng)中(不清楚是真的優(yōu)惠,還是那種“永遠(yuǎn)在優(yōu)惠中”)

不到一角錢每分鐘 是個(gè)大優(yōu)勢(shì),但注意:購(gòu)買后有效期只有1年


另外支持的識(shí)別語言包括:普通話、英語、粵語、四川話
新注冊(cè)用戶還免費(fèi)提供60分鐘的轉(zhuǎn)換時(shí)間

● 2.7 人人譯視界(Win/Mac)
最后再說這個(gè)人人影視創(chuàng)始團(tuán)隊(duì)產(chǎn)品的工具吧:http://www.1sj.tv/
有粉絲看到人人這兩個(gè)字可能就會(huì)想:人人影視最近不是涼了嗎?
這里就借一張圖來說明一下吧:

人人譯視界也和人人視頻一樣,早在17年就隸屬 “ 正規(guī)軍 ” 了,并不受此次 “ 人人影視字幕組 ” 事件影響,完全是可以正常使用的

在軟件中打開視頻,并點(diǎn)擊AI聽譯,選擇要識(shí)別的語言后耐心等待即可,軟件需要把視頻上傳到云端進(jìn)行字幕識(shí)別與生成

不過從識(shí)別出錯(cuò)情況和正好訊飛一模一樣,我覺得我有理由懷疑它背后用的就是訊飛的接口...
但人人譯視界支持的語言又遠(yuǎn)比訊飛多,所以可能是偶然情況吧

人人譯視界支持:中文、英語、日語、韓語、法語、俄語、西班牙語、德語...等40種語言的AI聽譯,部分語種還支持口音(如美式英語、廣東話等)
有個(gè)特點(diǎn)功能是:可以識(shí)別畫面中已有的字幕——意味著可以用來提取視頻字幕
目前在官網(wǎng)進(jìn)行充值顯示的是正在優(yōu)惠中

價(jià)格上而言,是阿虛所知的自動(dòng)生成字幕工具中最貴的,除非是對(duì)小語種有字幕自動(dòng)生成有需求,不然是不太推薦的

總結(jié)一下,對(duì)于多數(shù)人,「剪映」應(yīng)該是最好的方案了——簡(jiǎn)單、免費(fèi)
而「訊飛的人工精較」也可能是一部分人值得的選擇——解決發(fā)音不標(biāo)準(zhǔn)、復(fù)雜語音場(chǎng)景
對(duì)于其他平臺(tái),因?yàn)槎喽嗌偕贂?huì)有識(shí)別出錯(cuò)的情況,基本都需要識(shí)別后手動(dòng)糾錯(cuò)的
所以大家就根據(jù)價(jià)格&自己所使用的平臺(tái)來進(jìn)行選擇吧

最后的最后,順便擴(kuò)展一下,我原來寫過的一篇

