最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程

2023-06-08 21:04 作者:黃狗A夢(mèng)  | 我要投稿

工具:Whisper、Aegisub、FFmpeg

本地Whisper簡單介紹和下載安裝流程可以看小眾軟件的文章:https://www.appinn.com/const-me-whisper/

Aegisub和FFmpeg就不多介紹了

一開始用Whisper僅僅是因?yàn)槲蚁朐诓藢毾嗔歼@種有事沒事幾個(gè)小時(shí)的直播里找一些關(guān)鍵字來求證一些傳聞是否屬實(shí),但把整篇生肉都啃完的效率實(shí)在太低,所以我才想到要不把整篇視頻都語音轉(zhuǎn)文字一下,根據(jù)日文字幕來尋找相關(guān)內(nèi)容,于是搜尋了一下支持日文的語音轉(zhuǎn)文字工具,然后便找到了Whisper。

沒空看的大西兔的網(wǎng)簽會(huì)我也是這么干的

后來才發(fā)現(xiàn)這東西自己都支持導(dǎo)出srt了,日文識(shí)別率也確實(shí)有實(shí)打?qū)嵉?0%,那是不是可以拿來輔助字幕制作呢

于是我就自己摸索出了以下流程,當(dāng)然這也只是自己的流程,也許會(huì)有更加高效率的流程,所以這里僅僅是拿來拋磚引玉:


Whisper跑一遍聽寫出日文

如果是較短的視頻,三四分鐘內(nèi)那種的 可以考慮導(dǎo)出SRT文件保留時(shí)間軸,改起來消耗的精力并不大

但如果是較長的視頻,調(diào)整Whisper錯(cuò)位與漏下的時(shí)間軸的時(shí)間消耗之大,還不如讓打軸熟練的人重打一遍,所以直接導(dǎo)出txt文件更好

將導(dǎo)出的txt文件導(dǎo)入Aegisub,以Whisper聽寫出來的日文文本為參照進(jìn)行打軸,如果Whisper有錯(cuò)漏的臺(tái)詞,在打軸的時(shí)候補(bǔ)上對(duì)應(yīng)的軸,內(nèi)容的話就隨便了,我一般是拿前后臺(tái)詞復(fù)制一條掛上去。

這么做的理由是,在聽譯的時(shí)候有一個(gè)重復(fù)操作消耗大量成本的行為:來回拉進(jìn)度條。

在已經(jīng)打好軸的基礎(chǔ)上,以90%準(zhǔn)確率的日文聽寫為參照進(jìn)行的字幕翻譯工作,效率非常高,因?yàn)橐g的軸位已經(jīng)定死了,單獨(dú)聽譯這一句的話,只要按下「播放這條軸的音頻」對(duì)應(yīng)的快捷鍵就可以了。

這里翻譯的時(shí)候我會(huì)建議使用aegisub自帶的翻譯助手:

如果是普通的字幕輸入框,你要多一個(gè)「先全選原有的字幕,刪除,再鍵入翻譯后的字幕」這個(gè)枯燥流程,而且刪掉原有的日文聽寫之后,文字參照就沒了,有的時(shí)候我還得愣一下原文是什么,然后點(diǎn)一下快捷鍵再聽一遍這句話,浪費(fèi)了幾秒鐘時(shí)間。

翻譯助手在這里會(huì)保留原文,而且你直接輸入就行,省去「全選再刪除」這個(gè)枯燥重復(fù)步驟,翻譯完之后按下回車,就編輯完成,進(jìn)入下一行了。

因?yàn)锳egisub會(huì)因?yàn)楣ぷ鲄^(qū)域的不同而有著不同的快捷鍵,翻譯助手雖然也有像如圖所示的自帶快捷鍵,但我還是建議打開美杜莎模式,這個(gè)時(shí)候無論你的工作區(qū)域是在字幕編輯框還是在字幕欄還是在翻譯助手上,快捷鍵都是共通的,不會(huì)出現(xiàn)你焦點(diǎn)在字幕編輯框卻按出只有在字幕欄上才起作用的快捷鍵了。

而翻譯助手的默認(rèn)快捷鍵也有一些設(shè)計(jì)不合理的地方,比如我打字的時(shí)候經(jīng)常用home和end來定位輸入光標(biāo),但home和end在翻譯助手的默認(rèn)設(shè)置里記得好像是上一句下一句?總之,自定義快捷鍵迫在眉睫。

Aegisub的快捷鍵自定義有個(gè)bug,你得把語言界面先改成英文,再修改快捷鍵,改完保存之后,再把界面改回中文。但改完就一勞永逸了,至于快捷鍵怎么改,自然是各有各的習(xí)慣,我就不多說了。

無論嵌字還是打軸,這種高重復(fù)度且枯燥乏味又工作量大的作業(yè)上,提升效率的中心思路,便是減少枯燥乏味的重復(fù)工作。聽譯工作里最影響效率的便是來回拉進(jìn)度條,先軸后翻解決了來回拉進(jìn)度條的問題,而以工具聽寫出來的日文為參照進(jìn)行的打軸工作也會(huì)因此提升效率。當(dāng)然這個(gè)工具聽寫出來的日文還有10%左右的錯(cuò)誤,所以這里聽寫出來的日文只能是拿來作為參照,大多數(shù)時(shí)候我還是會(huì)重復(fù)聽原話以確認(rèn)一些不太確定的內(nèi)容,Whisper有的時(shí)候甚至?xí)[爛,一大段一大段的重復(fù)語句,所以整個(gè)流程依舊是人工翻譯為中心,深度學(xué)習(xí)工具的聽寫為輔助的。簡單來說,根據(jù)工具聽寫出日文,先軸后翻,檢查完再送去壓制。



one more thing

這個(gè)本地的Whisper還有個(gè)功能:根據(jù)音頻輸入設(shè)備進(jìn)行實(shí)時(shí)語音轉(zhuǎn)文字

音頻輸入設(shè)備用簡單點(diǎn)的話來講,就是你的麥克風(fēng),把音頻從外部輸入到PC內(nèi)部,Whisper這個(gè)功能一開始設(shè)計(jì)出來是為了讓你實(shí)時(shí)說話的時(shí)候轉(zhuǎn)成文字。但實(shí)際上我大多數(shù)時(shí)候需要用到語音轉(zhuǎn)文字的情況,多半是來自女聲優(yōu)們——也就是電腦內(nèi)部的聲音,可惜這個(gè)軟件不支持輸入電腦內(nèi)部的音頻,雖然我覺得找軟件開發(fā)者改一下設(shè)定應(yīng)該麻煩不了多少,不過還是決定自己解決。

應(yīng)該只有一部分朋友的PC聲卡有這個(gè)選項(xiàng):立體聲混音。立體聲混音在設(shè)定上是一個(gè)「音頻輸入設(shè)備」,但本質(zhì)上它會(huì)把你PC中通過自帶聲卡播放的音頻,原原本本地從立體聲混音里輸出來,也就是說,你可以通過立體聲混音,把在聲卡里播放的女聲優(yōu)聲音輸入到Whisper,然后Whisper給你實(shí)時(shí)輸出成文本。

當(dāng)然還有一部分朋友PC不支持立體聲混音輸出,可以使用最新版的Virtual Audio Cable,會(huì)建立兩個(gè)虛擬音頻設(shè)備,一個(gè)輸入設(shè)備,一個(gè)輸出設(shè)備,在輸出設(shè)備上播放的音頻也會(huì)同步在輸出設(shè)備上播放,但這時(shí)候其實(shí)會(huì)聽不見輸入到虛擬輸入設(shè)備里的聲音了,這個(gè)時(shí)候進(jìn)入輸出設(shè)備設(shè)置,把監(jiān)聽此設(shè)備打開就行。

Virtual Audio Cable下載:https://vac.muzychenko.net/en/



win11打開音量合成器
可以這樣單獨(dú)選擇某個(gè)應(yīng)用從哪個(gè)音頻設(shè)備輸出


這個(gè)時(shí)候用最新版的VScode打開用來輸出的txt文本文檔,就能實(shí)時(shí)看到Whisper輸出的內(nèi)容了。我試了一些文本編輯器,貌似只有VScode支持實(shí)時(shí)更新文本內(nèi)容,很神必,如果有別的文編編輯器支持實(shí)時(shí)更新的話可以告訴我(或者你自己用也行(?

以語音轉(zhuǎn)文字工具Whisper為輔助的個(gè)人字幕制作工作流程的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
无锡市| 平昌县| 教育| 祥云县| 西盟| 靖宇县| 夹江县| 承德市| 普安县| 潜山县| 景泰县| 潮州市| 马尔康县| 专栏| 蓝田县| 庆元县| 贡嘎县| 林甸县| 乐昌市| 清徐县| 泽普县| 宜良县| 汾西县| 阿拉善盟| 深水埗区| 芜湖县| 清苑县| 木兰县| 将乐县| 军事| 金昌市| 黎城县| 衡山县| 南京市| 苏尼特右旗| 沿河| 合阳县| 东兴市| 绿春县| 廊坊市| 福鼎市|