散文網(wǎng) » 生活 »日常 » 以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程

2023-06-08 21:04 作者:黃狗A夢(mèng) 0人讀過 | 我要投稿

工具：Whisper、Aegisub、FFmpeg

本地Whisper簡單介紹和下載安裝流程可以看小眾軟件的文章：https://www.appinn.com/const-me-whisper/

Aegisub和FFmpeg就不多介紹了

一開始用Whisper僅僅是因?yàn)槲蚁朐诓藢毾嗔歼@種有事沒事幾個(gè)小時(shí)的直播里找一些關(guān)鍵字來求證一些傳聞是否屬實(shí)，但把整篇生肉都啃完的效率實(shí)在太低，所以我才想到要不把整篇視頻都語音轉(zhuǎn)文字一下，根據(jù)日文字幕來尋找相關(guān)內(nèi)容，于是搜尋了一下支持日文的語音轉(zhuǎn)文字工具，然后便找到了Whisper。

后來才發(fā)現(xiàn)這東西自己都支持導(dǎo)出srt了，日文識(shí)別率也確實(shí)有實(shí)打?qū)嵉?0%，那是不是可以拿來輔助字幕制作呢

于是我就自己摸索出了以下流程，當(dāng)然這也只是自己的流程，也許會(huì)有更加高效率的流程，所以這里僅僅是拿來拋磚引玉：

Whisper跑一遍聽寫出日文

如果是較短的視頻，三四分鐘內(nèi)那種的可以考慮導(dǎo)出SRT文件保留時(shí)間軸，改起來消耗的精力并不大

但如果是較長的視頻，調(diào)整Whisper錯(cuò)位與漏下的時(shí)間軸的時(shí)間消耗之大，還不如讓打軸熟練的人重打一遍，所以直接導(dǎo)出txt文件更好

將導(dǎo)出的txt文件導(dǎo)入Aegisub，以Whisper聽寫出來的日文文本為參照進(jìn)行打軸，如果Whisper有錯(cuò)漏的臺(tái)詞，在打軸的時(shí)候補(bǔ)上對(duì)應(yīng)的軸，內(nèi)容的話就隨便了，我一般是拿前后臺(tái)詞復(fù)制一條掛上去。

這么做的理由是，在聽譯的時(shí)候有一個(gè)重復(fù)操作消耗大量成本的行為：來回拉進(jìn)度條。

在已經(jīng)打好軸的基礎(chǔ)上，以90%準(zhǔn)確率的日文聽寫為參照進(jìn)行的字幕翻譯工作，效率非常高，因?yàn)橐g的軸位已經(jīng)定死了，單獨(dú)聽譯這一句的話，只要按下「播放這條軸的音頻」對(duì)應(yīng)的快捷鍵就可以了。

這里翻譯的時(shí)候我會(huì)建議使用aegisub自帶的翻譯助手：

如果是普通的字幕輸入框，你要多一個(gè)「先全選原有的字幕，刪除，再鍵入翻譯后的字幕」這個(gè)枯燥流程，而且刪掉原有的日文聽寫之后，文字參照就沒了，有的時(shí)候我還得愣一下原文是什么，然后點(diǎn)一下快捷鍵再聽一遍這句話，浪費(fèi)了幾秒鐘時(shí)間。

翻譯助手在這里會(huì)保留原文，而且你直接輸入就行，省去「全選再刪除」這個(gè)枯燥重復(fù)步驟，翻譯完之后按下回車，就編輯完成，進(jìn)入下一行了。

因?yàn)锳egisub會(huì)因?yàn)楣ぷ鲄^(qū)域的不同而有著不同的快捷鍵，翻譯助手雖然也有像如圖所示的自帶快捷鍵，但我還是建議打開美杜莎模式，這個(gè)時(shí)候無論你的工作區(qū)域是在字幕編輯框還是在字幕欄還是在翻譯助手上，快捷鍵都是共通的，不會(huì)出現(xiàn)你焦點(diǎn)在字幕編輯框卻按出只有在字幕欄上才起作用的快捷鍵了。

而翻譯助手的默認(rèn)快捷鍵也有一些設(shè)計(jì)不合理的地方，比如我打字的時(shí)候經(jīng)常用home和end來定位輸入光標(biāo)，但home和end在翻譯助手的默認(rèn)設(shè)置里記得好像是上一句下一句？總之，自定義快捷鍵迫在眉睫。

Aegisub的快捷鍵自定義有個(gè)bug，你得把語言界面先改成英文，再修改快捷鍵，改完保存之后，再把界面改回中文。但改完就一勞永逸了，至于快捷鍵怎么改，自然是各有各的習(xí)慣，我就不多說了。

無論嵌字還是打軸，這種高重復(fù)度且枯燥乏味又工作量大的作業(yè)上，提升效率的中心思路，便是減少枯燥乏味的重復(fù)工作。聽譯工作里最影響效率的便是來回拉進(jìn)度條，先軸后翻解決了來回拉進(jìn)度條的問題，而以工具聽寫出來的日文為參照進(jìn)行的打軸工作也會(huì)因此提升效率。當(dāng)然這個(gè)工具聽寫出來的日文還有10%左右的錯(cuò)誤，所以這里聽寫出來的日文只能是拿來作為參照，大多數(shù)時(shí)候我還是會(huì)重復(fù)聽原話以確認(rèn)一些不太確定的內(nèi)容，Whisper有的時(shí)候甚至?xí)[爛，一大段一大段的重復(fù)語句，所以整個(gè)流程依舊是人工翻譯為中心，深度學(xué)習(xí)工具的聽寫為輔助的。簡單來說，根據(jù)工具聽寫出日文，先軸后翻，檢查完再送去壓制。

one more thing

這個(gè)本地的Whisper還有個(gè)功能：根據(jù)音頻輸入設(shè)備進(jìn)行實(shí)時(shí)語音轉(zhuǎn)文字

音頻輸入設(shè)備用簡單點(diǎn)的話來講，就是你的麥克風(fēng)，把音頻從外部輸入到PC內(nèi)部，Whisper這個(gè)功能一開始設(shè)計(jì)出來是為了讓你實(shí)時(shí)說話的時(shí)候轉(zhuǎn)成文字。但實(shí)際上我大多數(shù)時(shí)候需要用到語音轉(zhuǎn)文字的情況，多半是來自女聲優(yōu)們——也就是電腦內(nèi)部的聲音，可惜這個(gè)軟件不支持輸入電腦內(nèi)部的音頻，雖然我覺得找軟件開發(fā)者改一下設(shè)定應(yīng)該麻煩不了多少，不過還是決定自己解決。

應(yīng)該只有一部分朋友的PC聲卡有這個(gè)選項(xiàng)：立體聲混音。立體聲混音在設(shè)定上是一個(gè)「音頻輸入設(shè)備」，但本質(zhì)上它會(huì)把你PC中通過自帶聲卡播放的音頻，原原本本地從立體聲混音里輸出來，也就是說，你可以通過立體聲混音，把在聲卡里播放的女聲優(yōu)聲音輸入到Whisper，然后Whisper給你實(shí)時(shí)輸出成文本。

當(dāng)然還有一部分朋友PC不支持立體聲混音輸出，可以使用最新版的Virtual Audio Cable，會(huì)建立兩個(gè)虛擬音頻設(shè)備，一個(gè)輸入設(shè)備，一個(gè)輸出設(shè)備，在輸出設(shè)備上播放的音頻也會(huì)同步在輸出設(shè)備上播放，但這時(shí)候其實(shí)會(huì)聽不見輸入到虛擬輸入設(shè)備里的聲音了，這個(gè)時(shí)候進(jìn)入輸出設(shè)備設(shè)置，把監(jiān)聽此設(shè)備打開就行。

Virtual Audio Cable下載：https://vac.muzychenko.net/en/

可以這樣單獨(dú)選擇某個(gè)應(yīng)用從哪個(gè)音頻設(shè)備輸出

這個(gè)時(shí)候用最新版的VScode打開用來輸出的txt文本文檔，就能實(shí)時(shí)看到Whisper輸出的內(nèi)容了。我試了一些文本編輯器，貌似只有VScode支持實(shí)時(shí)更新文本內(nèi)容，很神必，如果有別的文編編輯器支持實(shí)時(shí)更新的話可以告訴我（或者你自己用也行（？

標(biāo)簽：

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程

本文作者的其他文章

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程的評(píng)論 (共條)