好用的字幕/打軸工具:Openai whisper
上個視頻實踐了下?OpenAI Whisper ,這個工具拿來打軸真的好用,其中的 large、medium 模型相較網易見外、剪映對于英文字幕稀碎的斷句有極大的提升(差不多 90% 以上的句子不需要重新調時間軸),極大減少調整時間軸的工作量。單詞準確性方面甚至比 youtube 的自動字幕更強一點(甚至可以識別出很大一部分例如 Baneling 、 Auto-Turret 這類游戲內專有名詞,而國內的服務完全不行),進一步減少調整字幕的耗時。
目前網易見外字幕生成已經不免費,剪映則是要第三方工具來導出字幕,而且兩者和 Google 、微軟的服務一樣,都需要上傳自己的數據。而 OpenAI Whisper 完全開源免費,所有的數據不需要上傳,在本地即可處理,速度更是完全超越網易見外,比剪映也快不少(顯卡不同,速度也不同。CPU也可以處理,就是慢一點。medium 模型顯存占用 6G,large 顯存占用在 12G 以內)。
缺點是它的多語言的翻譯支持只能是其他語言翻譯為英文,官方說暫時還不能完成英文翻譯到中文這種任務(中文語音生成中文字幕還是可以的)。如果中間有大段(20秒以上)的無對話片段,識別時會重復之前的字幕,需要用其他手段識別字幕區(qū)間。而且有時候 large 模型的斷句反而不如 medium,這種情況多出現(xiàn)在剪輯過的片段中。推測可能的原因是 large 模型需要聯(lián)系較長的上下文,如果視頻由較短的片段拼湊起來,那么上下文就會比較混亂,導致 medium 的斷句反而更優(yōu)。
即便如此,OpenAI Whisper 也是做英文字幕/打軸首選的工具。這大概是普通人能享受到的為數不多的紅利了吧。
標簽: