【達(dá)芬奇jio本系列】AI:你們?cè)诹氖裁矗?/h1>
今天來給大家安利一個(gè)大佬的開源項(xiàng)目
AI自動(dòng)音頻轉(zhuǎn)寫
幫助剪輯整理素材/搭時(shí)間線/拍字幕

Github項(xiàng)目指路
~~~~ github.com/octimot/StoryToolkitAI ~~~~
提到音頻的轉(zhuǎn)寫,也就是拿音頻來生成字幕的過程已經(jīng)有很多現(xiàn)成的方案,小編此前就用過訊飛(收費(fèi)、油管(白piao,到現(xiàn)在還有?Arctime,以及0成本的剪映。
它們用到的技術(shù)也越發(fā)先進(jìn),尤其是現(xiàn)在在AI的加持下,準(zhǔn)確性也越來越高。所以今天的主角就叫做?StoryToolkitAI?,簡(jiǎn)單說來你可以看成是剪映的橫向替代品,如果你和我一樣也是有某種潔癖不想在電腦上安裝它們的話
基礎(chǔ)用法
類似其他各種解決方案那樣,StoryToolkitAI 也需要你把工作時(shí)間線的聲音單獨(dú)輸出(實(shí)時(shí)讀取時(shí)間線上零零碎碎的各種編碼的聲音要求怕是太高了),當(dāng)然是自動(dòng)地,接下來會(huì)調(diào)用一個(gè)開源的識(shí)別引擎來分析聲音,隨后根據(jù)你的設(shè)定,把文字轉(zhuǎn)寫出來

作為一款針對(duì)達(dá)芬奇開發(fā)的工具而言,各種密切貼合達(dá)芬奇本體的功能自然少不了的
像是上圖所示,識(shí)別到的句子默認(rèn)情況下點(diǎn)擊就能跳轉(zhuǎn)到所在地;可以篩查/模糊查找所需的句子,或者應(yīng)該說時(shí)間線上所需的時(shí)間點(diǎn);或者按快捷鍵M給當(dāng)前句子所在段落打上區(qū)間標(biāo)記點(diǎn)

這些功能自然就能替代剪映這種完全屬于外部的工具,能更好地幫助剪輯師(助理其實(shí))整理一堆素材,尤其是紀(jì)錄片、尤其是人物訪談這類內(nèi)容;當(dāng)然也可以導(dǎo)入現(xiàn)有的srt來幫助你改剪或者細(xì)化調(diào)整現(xiàn)有的對(duì)白字幕,從而滿足審查要求之類的修改意見
這么厲害的工具怎么之前沒有

這里頭當(dāng)然得益于達(dá)芬奇如今開放的幾個(gè)API,能實(shí)現(xiàn)這些操作上的互通;關(guān)鍵是今年9月底發(fā)布的,看上去非常厲害的?OpenAI 的開源語音識(shí)別模型 Whisper。如果你之前用過剪映的語音識(shí)別效果的話,可以說 Whisper 的識(shí)別能力肯定不會(huì)比它弱

和剪映的結(jié)果相比主要差在斷句的方法上
單看內(nèi)容幾乎一模一樣
最近?StoryToolkitAI 的作者還給這個(gè)工具加上了 Prompt 一欄參數(shù)。了解過其他比如 AI 繪畫的朋友們就可能知道你能靠 Prompt 來指引 AI 從而得到一個(gè)你期望的結(jié)果。但這個(gè)過程沒有人知道會(huì)發(fā)生什么,AI 聽不聽你的話就很難說(歡迎來到人工智能的奇妙世界)
這還不火?
先端一杯冷水來)畢竟這個(gè)工具還只是作者剛發(fā)布不久的初具成效的版本,可能你看到這篇文章的時(shí)候已經(jīng)更新不少內(nèi)容了,所以大家可以先去項(xiàng)目主頁看看作者寫的超詳細(xì)說明,以及對(duì)于軟件產(chǎn)生的 bug 更多的寬容和理解
此外,軟件的安裝過程還需要一點(diǎn)額外的準(zhǔn)備工作(ffmpeg),對(duì)于不熟悉這方面知識(shí)的人自然會(huì)有很多障礙,也就是還沒能做到開箱即用,目前為止甚至開始識(shí)別之后才開始在后臺(tái)下載識(shí)別模型文件,所以會(huì)讓你第一次用的時(shí)候需要多等待一些時(shí)間
