烤肉man輔助腳本，AI聽寫轉ASS字幕

2023-04-08 08:35 作者:YussTaff戀 0人讀過 | 我要投稿

烤肉的人里似乎有不少都在用AI了，AI流水線一條龍產(chǎn)出的大概也不少。

所以這個東西嘛不用是真的虧，烤肉人虧欠自己的夠多了，還是要對自己好一點。

如果還有沒用上的，可以試試下面介紹的腳本。

ykw-whisper

項目地址，https://github.com/tsukasalx/ykw-whisper

為音視頻文件生成AI識別的ass字幕，當然是帶時軸的。

前提是你有?win10 或 win11系統(tǒng)，并且安裝的是nvidia顯卡

至于安裝，項目的說明應該寫的很具體了，懂的人不用看，看的人不用懂

（概括起來就是在WSL2上跑Docker Desktop的容器，其他環(huán)境docker沒有試，不好說能不能跑）

如果已經(jīng)在用Docker Desktop了直接從準備工作的克隆倉庫及其子模塊開始就好。

只是安裝的時候需要確認的有幾點：

在所有準備工作完成后，

首次使用之前，先進入項目里的src目錄，在wsl里運行 ./add_whisper_alias.sh 并關閉終端，之后就可以在本地的其他目錄上方便的使用了。

屆時只要在wsl運行諸如下列命令，就可以生成各個文件對應的ass文件了。

ykw-whisper file.mp4

ykw-whisper file.mp4 file2.mp3 file3.wav "honey file.ts"

ykw-whisper --model tiny file.mp4

一般來說需要修改的選項就 --model，這個是指AI模型大小，有從 tiny 到 large 的好幾個級別，模型越大識別效果就越好，當然內(nèi)存或顯存占用也就越高。默認是使用gpu所以占用的是顯存空間。

默認是 large，會占用10G空間，掂量下自己的硬件條件來選擇合適的就行，90級別那種大顯存的卡，直接省略這個參數(shù)就行。如果是顯存比較捉急，但是內(nèi)存有很多富余的話，也可以選擇使用cpu來運行，那么就會使用的是內(nèi)存的空間，但是耗費時間就自行體會吧。。。

ykw-whisper --device cpu file.mp4

whisper本身的其他選項都可以正常使用的，有特殊需求可以自行查看--help幫助。

在windows運行docker desktop本身也會占據(jù)一定的內(nèi)存，在沒有使用需求的時候可以自行關閉，但是下次要使用的時候記得讓它保持運行狀態(tài)，不然會報錯提示找不到docker。

標簽：

烤肉man輔助腳本，AI聽寫轉ASS字幕的評論 (共條)