【圖吧小白教程】手把手教你提取視頻網(wǎng)站AI自動生成字幕
額……老鐵們,我圖吧老撿垃圾的了。最近咱在很長時間里一直都在擺爛懶得寫文章都在發(fā)視頻了,然后發(fā)現(xiàn)最近的視頻網(wǎng)站有些也上了YouTube同款的AI自動字幕,這個技術(shù)咱記得18年左右當科技區(qū)UP的時候就見過了,但是苦于一直沒有方法提取下載,而如今咱們找到了B站AI字幕的提取下載方法,簡單給各位說明一下。
其實這個方法來自與B站CC字幕的提取套路,最近剛剛成熟出現(xiàn)了在線工具以及大量的視頻教程,之前我們在年前想要搞的時候還是沒有的。

總之我們的需求就是當時出的一些雜談視頻有評論反饋說咱用的耳麥錄音效果差聽不太清,然后咱感覺還是有點重要的所以需要想辦法弄了字幕。

彈幕倒是只有UP可以查到來源但是咱一看明顯是龍芯圈那種貼吧段位的開團咱直接選擇理都不理。但是當時錄這期節(jié)目的時候咱可能確實還沒太認真所以也沒選擇什么好麥不像最近談低溫錫的時候選用的是羅技的H110,而是家里祖?zhèn)鞯牡羝ざ鷻C,那效果不好就可想而知了。

但是其實咱們發(fā)現(xiàn)這個視頻的觀看是可以選擇AI字幕的,雖然很多時候冷門詞語或者發(fā)音不準確的時候識別效果非常的感人但是至少它是現(xiàn)成的可以改的字幕,然而當時咱看了半天結(jié)果發(fā)現(xiàn)并沒有什么辦法能直接下載這個字幕,行吧。

結(jié)果最近出現(xiàn)了轉(zhuǎn)機,就像咱剛才說的一樣,B站出現(xiàn)了做CC字幕提取的UP然后他們的提供的方法經(jīng)過簡單改進就可以提取AI字幕,對于咱這種做視頻也好寫文章也好想到哪說哪根本不打草稿的老UP非常方便。咱現(xiàn)在就是面臨這種情況因為做視頻怎么方便怎么來根本就沒有工程文件視頻一刪本地連個檔都沒有,就導致如果回頭需要引用自己視頻的文案還得手動提取AI識別字幕,屬于是非常麻煩的一個問題?,F(xiàn)在這個需求也能解決

簡單來說提取B站AI字幕的方法就是開F12然后直接關(guān)閉播放器字幕點刷新或者F5,然后在開發(fā)者工具里面選Network然后從Filter搜索框里面輸入關(guān)鍵詞就可以找到JSON格式的CC字幕

這個鏈接帶subtitle的就是

然后這個鏈接直接打開就能看見JSON格式的字幕,可以雙擊也可以復(fù)制鏈接再開怎么都一樣

至于AI字幕只需要把關(guān)鍵詞換成ai_subtitle就可以了
然后說下這個問題,簡單來說這樣的JSON字幕咱是沒法直接拿來就用的,因為正常的非編軟件也好字幕軟件也好都是認傳統(tǒng)的ASS SSA SRT甚至LRC之類的字幕的,它們不認這種JSON格式的字幕

但是之前咱說什么來著,最近搞CC字幕的UP才剛開始把這套工藝成熟化,當時咱發(fā)那個雜談視頻的時候是還沒有出現(xiàn)轉(zhuǎn)換工具的,而現(xiàn)在隨便把JSON字幕鏈接頁面上的內(nèi)容Ctrl+A全選之后再Ctrl+C+V就可以導入到在線工具里轉(zhuǎn)換了,連下載.JSON文件都不需要

這里我們可以看到無論是AI生成的JSON字幕還是上傳的CC字幕都可以直接轉(zhuǎn)成標準播放器和非編軟件支持的格式,如果你下載了.JSON文件還可以直接上傳。

選擇TXT格式的話還可以出不帶時間軸的純文字,然后選擇保存到本地就可以直接用記事本打開了

SRT格式導入播放器也能直接以外掛字幕的形式存在,更改字體什么的也很容易就能做到,如果想轉(zhuǎn)內(nèi)嵌字幕簡單修改一下AI字幕中識別錯誤的部分再保存然后就可以直接導入非編或者壓制工具用軟件壓制了

這個校對的活可以直接用記事本干也可以開其他字幕軟件之類的


這里我們需要說明的是經(jīng)過實踐發(fā)現(xiàn)B站AI生成字幕提取轉(zhuǎn)換之后嘗試導入AEGIS或者小丸工具箱之類的可能會出現(xiàn)打不開報錯卡BUG,比如時間軸上有零時長的片段或者語法錯誤之類的,但是這種問題的解決方法也比較簡單

可以先把AI生成轉(zhuǎn)換出來的字幕投稿到視頻

然后通過之后再提取下來的字幕轉(zhuǎn)出來就基本沒什么問題了,可以直接塞進小丸工具箱之類的進行壓制,就不會再卡BUG了(然而AEGIS還是報錯)

然后用小丸工具箱壓制的話是可以直接做內(nèi)嵌字幕在里面的,但是經(jīng)過實測我們發(fā)現(xiàn)10多分鐘的1080P視頻也得壓個至少10分鐘以上,效率比較低,而且這期間還存在沒標注字體的字幕只使用默認字體的情況。

所以咱還有一種解決方案做字幕也好文字轉(zhuǎn)語音也罷比較簡單粗暴就直接開錄屏就行了,現(xiàn)代GPU普遍集成視頻編碼器可以實現(xiàn)硬件編碼視頻,它用來錄屏的效果其實畫質(zhì)損耗相比用CPU壓制不算特別大屬于可以接受的水平,除非你在做畫質(zhì)展示不然這種雜談類的肯定是沒問題。
簡單來說咱就是用這種方法給之前在年前的雜談視頻做出來了內(nèi)嵌字幕視頻+外掛字幕更新順帶捎帶手的還提供了純文字版:


然后咱們自己這邊其實就已經(jīng)完活了,這期教程可以完事了。但是咱本著好奇的心理嘗試對隔壁UP也進行了AI字幕的提取,結(jié)果發(fā)現(xiàn)居然也能提出來:


這距離視頻轉(zhuǎn)文章只有一步之遙了,雖然這個視頻UP做了內(nèi)嵌字幕然后也壓根不知道AI字幕的存在甚至還得是咱提醒之后才想起去關(guān)但是現(xiàn)在這個情況就比較危了,過去我們常說文字轉(zhuǎn)語音普及之后給了大量營銷號洗稿的機會,一兩個人上網(wǎng)到處扒文章出視頻就能維護好幾個營銷號了,過去咱甚至還參加過AB站的營銷號戰(zhàn)爭,當然最后的結(jié)局是戰(zhàn)敗咱就不提了,反正現(xiàn)在B站的所謂激勵計劃已經(jīng)名存實亡了之前咱也預(yù)見并退了,這年景壓根沒法靠做視頻養(yǎng)活人。
咱相比隔壁UP的處境其實好很多,當年營銷號戰(zhàn)爭的時候咱心態(tài)好做視頻寫文章從來不強求有多火要多少曝光自己漲粉多快雖然咱也能高產(chǎn)但是咱不整那些沒用的所以最后能甘于平凡沒有選擇自取滅亡。最近發(fā)現(xiàn)龍芯圈大舉進攻兆芯和其他國產(chǎn)芯片需要測游戲體驗為國產(chǎn)正名的時候正好國產(chǎn)采集卡MS2130大量鋪貨,錄制效果相當不錯性價比直接起飛,需要把過去脫稿直接錄的視頻轉(zhuǎn)文字就可以直接扒AI字幕,屬于是想睡覺就來枕頭。但是對于一般人來說這個技術(shù)的普及可就沒那么妙了。
過去我們需要做語音轉(zhuǎn)文字做識別字幕需要開ARCTIMEPRO然后每天簽到或者買會員才能實現(xiàn)普通視頻長度的語音自動識別的(前作:全自動語音識別生成字幕打軸軟件ARCTIME使用簡介),因為這玩意的語音識別應(yīng)該是在線識別,并不是離線本機就能做到的。

現(xiàn)在我們這套操作完全不需要任何成本,相當于把語音轉(zhuǎn)文字的算力需求托管給了視頻平臺。然后所有用戶都能下載和使用,屬于無CD無限藍的技能了,這東西的擴散勢必引發(fā)新一輪的洗牌。就像AI畫畫一樣,未來這種技術(shù)大范圍擴展的直接結(jié)果可能導致的后果就是卷死低端重復(fù)勞動只能留下精英配合AI操作,成為AI操作工+技師,未來很多搬運油管視頻的字幕組可能會和畫師一樣選擇使用AI識別+人工校對修正的方法制作字幕,節(jié)省下大量的手工打軸和聽譯時間和人工成本。這也是我們比較期待的一個未來,所有漢化組都不需要耗費大量的時間去進行簡單重復(fù)操作直接交給軟件或者說AI,只留下一些對人的智能要求比較高的工序使用人工就可以實現(xiàn)整個流程。未來收費漢化絕對會被卷死的,收費字幕組也大差不差,只有一些情況會比較常見就是用AI生成以次充好相當于賣高級機翻漢化,和現(xiàn)在的畫師嘴上喊著反對AI實際上商業(yè)稿件使用AI最為積極是一個道理,面對實際需求和利益相關(guān)的時候人往往是比較現(xiàn)實的??傊畬τ趥€人UP來說保護好自己的知識產(chǎn)權(quán)的時候到了,不要被人用AI當成數(shù)據(jù)庫或者洗稿來源就好。
總之這個技術(shù)的風險咱已經(jīng)提醒隔壁的UP了,希望他們沒事或者至少心態(tài)還好。

目前來看這套操作對于B站不生成AI字幕的視頻無效


當年和快視頻一起脫庫B站的西瓜視頻如今活得害挺不錯,自從巫師財經(jīng)之后也算是慢慢成為主流平臺了,相當于抖音的長視頻平臺。它們對AI字幕的生成門檻就比較高反正咱自己的視頻需要AI字幕的看了下一個沒有,估計還在內(nèi)測階段沒有大范圍實用,用B站的關(guān)鍵詞在F12里面搜索也沒找到能直接用的JSON字幕,估計用的是別的方案。所以目前這個教程主要還是對B站有效,西瓜視頻還有待進一步的觀察估計未來被抓字幕也只是時間問題畢竟只要能提供理論上就能抓。所以各位創(chuàng)作者還是得盡量保護好自己。
目前好像咱知道的有AI字幕開放的就這兩家,AcFun現(xiàn)在是一步錯步步錯一步慢步步慢,估計快手也早已沒有進軍長視頻的信心了?,F(xiàn)在回頭看A站真是2018年什么樣現(xiàn)在還什么樣,就是人越來越少了。所以說咱是衷心感謝對面在知道自己不行了之后先用無故封咱所有賬號刪稿的方法得罪了咱讓咱離開的時候心里沒有一點愧疚,不然其實咱很多時候可能會和隔壁的一些UP一樣死守在那然后最后實在是混不下去再回B站這就很難受了。
就這樣,謝謝朋友們!