烤肉man輔助腳本,AI聽寫轉ASS字幕

烤肉的人里似乎有不少都在用AI了,AI流水線一條龍產(chǎn)出的大概也不少。
所以這個東西嘛不用是真的虧,烤肉人虧欠自己的夠多了,還是要對自己好一點。
如果還有沒用上的,可以試試下面介紹的腳本。
ykw-whisper
項目地址,https://github.com/tsukasalx/ykw-whisper
為音視頻文件生成AI識別的ass字幕,當然是帶時軸的。
前提是你有?win10 或 win11系統(tǒng),并且安裝的是nvidia顯卡
至于安裝,項目的說明應該寫的很具體了,懂的人不用看,看的人不用懂
(概括起來就是在WSL2上跑Docker Desktop的容器,其他環(huán)境docker沒有試,不好說能不能跑)
如果已經(jīng)在用Docker Desktop了直接從 準備工作 的克隆倉庫及其子模塊開始就好。
只是安裝的時候需要確認的有幾點:
N卡驅(qū)動要更新
Docker Desktop不要安裝4.17.1,會卡死,4.18已修復
wsl最終使用的是ubuntu系統(tǒng)
在所有準備工作完成后,
首次使用之前,先進入項目里的src目錄,在wsl里運行 ./add_whisper_alias.sh 并關閉終端,之后就可以在本地的其他目錄上方便的使用了。
屆時只要在wsl運行諸如下列命令,就可以生成各個文件對應的ass文件了。
ykw-whisper file.mp4
ykw-whisper file.mp4 file2.mp3 file3.wav "honey file.ts"
ykw-whisper --model tiny file.mp4
一般來說需要修改的選項就 --model,這個是指AI模型大小,有從 tiny 到 large 的好幾個級別,模型越大識別效果就越好,當然內(nèi)存或顯存占用也就越高。默認是使用gpu所以占用的是顯存空間。

默認是 large,會占用10G空間,掂量下自己的硬件條件來選擇合適的就行,90級別那種大顯存的卡,直接省略這個參數(shù)就行。如果是顯存比較捉急,但是內(nèi)存有很多富余的話,也可以選擇使用cpu來運行,那么就會使用的是內(nèi)存的空間,但是耗費時間就自行體會吧。。。
ykw-whisper --device cpu file.mp4
whisper本身的其他選項都可以正常使用的,有特殊需求可以自行查看--help幫助。
在windows運行docker desktop本身也會占據(jù)一定的內(nèi)存,在沒有使用需求的時候可以自行關閉,但是下次要使用的時候記得讓它保持運行狀態(tài),不然會報錯提示找不到docker。