以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程
工具:Whisper、Aegisub、FFmpeg
本地Whisper簡單介紹和下載安裝流程可以看小眾軟件的文章:https://www.appinn.com/const-me-whisper/
Aegisub和FFmpeg就不多介紹了
一開始用Whisper僅僅是因?yàn)槲蚁朐诓藢毾嗔歼@種有事沒事幾個(gè)小時(shí)的直播里找一些關(guān)鍵字來求證一些傳聞是否屬實(shí),但把整篇生肉都啃完的效率實(shí)在太低,所以我才想到要不把整篇視頻都語音轉(zhuǎn)文字一下,根據(jù)日文字幕來尋找相關(guān)內(nèi)容,于是搜尋了一下支持日文的語音轉(zhuǎn)文字工具,然后便找到了Whisper。

后來才發(fā)現(xiàn)這東西自己都支持導(dǎo)出srt了,日文識(shí)別率也確實(shí)有實(shí)打?qū)嵉?0%,那是不是可以拿來輔助字幕制作呢
于是我就自己摸索出了以下流程,當(dāng)然這也只是自己的流程,也許會(huì)有更加高效率的流程,所以這里僅僅是拿來拋磚引玉:
Whisper跑一遍聽寫出日文
如果是較短的視頻,三四分鐘內(nèi)那種的 可以考慮導(dǎo)出SRT文件保留時(shí)間軸,改起來消耗的精力并不大
但如果是較長的視頻,調(diào)整Whisper錯(cuò)位與漏下的時(shí)間軸的時(shí)間消耗之大,還不如讓打軸熟練的人重打一遍,所以直接導(dǎo)出txt文件更好
將導(dǎo)出的txt文件導(dǎo)入Aegisub,以Whisper聽寫出來的日文文本為參照進(jìn)行打軸,如果Whisper有錯(cuò)漏的臺(tái)詞,在打軸的時(shí)候補(bǔ)上對(duì)應(yīng)的軸,內(nèi)容的話就隨便了,我一般是拿前后臺(tái)詞復(fù)制一條掛上去。
這么做的理由是,在聽譯的時(shí)候有一個(gè)重復(fù)操作消耗大量成本的行為:來回拉進(jìn)度條。
在已經(jīng)打好軸的基礎(chǔ)上,以90%準(zhǔn)確率的日文聽寫為參照進(jìn)行的字幕翻譯工作,效率非常高,因?yàn)橐g的軸位已經(jīng)定死了,單獨(dú)聽譯這一句的話,只要按下「播放這條軸的音頻」對(duì)應(yīng)的快捷鍵就可以了。
這里翻譯的時(shí)候我會(huì)建議使用aegisub自帶的翻譯助手:

如果是普通的字幕輸入框,你要多一個(gè)「先全選原有的字幕,刪除,再鍵入翻譯后的字幕」這個(gè)枯燥流程,而且刪掉原有的日文聽寫之后,文字參照就沒了,有的時(shí)候我還得愣一下原文是什么,然后點(diǎn)一下快捷鍵再聽一遍這句話,浪費(fèi)了幾秒鐘時(shí)間。
翻譯助手在這里會(huì)保留原文,而且你直接輸入就行,省去「全選再刪除」這個(gè)枯燥重復(fù)步驟,翻譯完之后按下回車,就編輯完成,進(jìn)入下一行了。
因?yàn)锳egisub會(huì)因?yàn)楣ぷ鲄^(qū)域的不同而有著不同的快捷鍵,翻譯助手雖然也有像如圖所示的自帶快捷鍵,但我還是建議打開美杜莎模式,這個(gè)時(shí)候無論你的工作區(qū)域是在字幕編輯框還是在字幕欄還是在翻譯助手上,快捷鍵都是共通的,不會(huì)出現(xiàn)你焦點(diǎn)在字幕編輯框卻按出只有在字幕欄上才起作用的快捷鍵了。

而翻譯助手的默認(rèn)快捷鍵也有一些設(shè)計(jì)不合理的地方,比如我打字的時(shí)候經(jīng)常用home和end來定位輸入光標(biāo),但home和end在翻譯助手的默認(rèn)設(shè)置里記得好像是上一句下一句?總之,自定義快捷鍵迫在眉睫。
Aegisub的快捷鍵自定義有個(gè)bug,你得把語言界面先改成英文,再修改快捷鍵,改完保存之后,再把界面改回中文。但改完就一勞永逸了,至于快捷鍵怎么改,自然是各有各的習(xí)慣,我就不多說了。
無論嵌字還是打軸,這種高重復(fù)度且枯燥乏味又工作量大的作業(yè)上,提升效率的中心思路,便是減少枯燥乏味的重復(fù)工作。聽譯工作里最影響效率的便是來回拉進(jìn)度條,先軸后翻解決了來回拉進(jìn)度條的問題,而以工具聽寫出來的日文為參照進(jìn)行的打軸工作也會(huì)因此提升效率。當(dāng)然這個(gè)工具聽寫出來的日文還有10%左右的錯(cuò)誤,所以這里聽寫出來的日文只能是拿來作為參照,大多數(shù)時(shí)候我還是會(huì)重復(fù)聽原話以確認(rèn)一些不太確定的內(nèi)容,Whisper有的時(shí)候甚至?xí)[爛,一大段一大段的重復(fù)語句,所以整個(gè)流程依舊是人工翻譯為中心,深度學(xué)習(xí)工具的聽寫為輔助的。簡單來說,根據(jù)工具聽寫出日文,先軸后翻,檢查完再送去壓制。
one more thing
這個(gè)本地的Whisper還有個(gè)功能:根據(jù)音頻輸入設(shè)備進(jìn)行實(shí)時(shí)語音轉(zhuǎn)文字

音頻輸入設(shè)備用簡單點(diǎn)的話來講,就是你的麥克風(fēng),把音頻從外部輸入到PC內(nèi)部,Whisper這個(gè)功能一開始設(shè)計(jì)出來是為了讓你實(shí)時(shí)說話的時(shí)候轉(zhuǎn)成文字。但實(shí)際上我大多數(shù)時(shí)候需要用到語音轉(zhuǎn)文字的情況,多半是來自女聲優(yōu)們——也就是電腦內(nèi)部的聲音,可惜這個(gè)軟件不支持輸入電腦內(nèi)部的音頻,雖然我覺得找軟件開發(fā)者改一下設(shè)定應(yīng)該麻煩不了多少,不過還是決定自己解決。
應(yīng)該只有一部分朋友的PC聲卡有這個(gè)選項(xiàng):立體聲混音。立體聲混音在設(shè)定上是一個(gè)「音頻輸入設(shè)備」,但本質(zhì)上它會(huì)把你PC中通過自帶聲卡播放的音頻,原原本本地從立體聲混音里輸出來,也就是說,你可以通過立體聲混音,把在聲卡里播放的女聲優(yōu)聲音輸入到Whisper,然后Whisper給你實(shí)時(shí)輸出成文本。
當(dāng)然還有一部分朋友PC不支持立體聲混音輸出,可以使用最新版的Virtual Audio Cable,會(huì)建立兩個(gè)虛擬音頻設(shè)備,一個(gè)輸入設(shè)備,一個(gè)輸出設(shè)備,在輸出設(shè)備上播放的音頻也會(huì)同步在輸出設(shè)備上播放,但這時(shí)候其實(shí)會(huì)聽不見輸入到虛擬輸入設(shè)備里的聲音了,這個(gè)時(shí)候進(jìn)入輸出設(shè)備設(shè)置,把監(jiān)聽此設(shè)備打開就行。
Virtual Audio Cable下載:https://vac.muzychenko.net/en/



這個(gè)時(shí)候用最新版的VScode打開用來輸出的txt文本文檔,就能實(shí)時(shí)看到Whisper輸出的內(nèi)容了。我試了一些文本編輯器,貌似只有VScode支持實(shí)時(shí)更新文本內(nèi)容,很神必,如果有別的文編編輯器支持實(shí)時(shí)更新的話可以告訴我(或者你自己用也行(?