【優(yōu)秀UP小講堂】一鍵提取B站CC字幕、AI自動(dòng)生成字幕
額……老鐵們,我圖吧老撿垃圾的了。最近咱大量出雜談視頻然而還懶得打字幕,之前傳統(tǒng)的視頻下載器雖然能下載彈幕但是對(duì)字幕卻無(wú)能為力。
修改自動(dòng)生成字幕可是比自己手敲字幕簡(jiǎn)單得多,成本也比之前的自動(dòng)字幕軟件低很多。所以咱就大量使用了上期說(shuō)到的提取AI字幕手動(dòng)修改的方法。而經(jīng)過(guò)簡(jiǎn)單迭代咱確實(shí)找到了上期提取AI字幕操作的簡(jiǎn)化版本,支持本地運(yùn)行,簡(jiǎn)單說(shuō)明一下方法。
其實(shí)本質(zhì)原理是沒(méi)有區(qū)別,只是手動(dòng)提取視頻網(wǎng)站AI自動(dòng)生成字幕 的自動(dòng)化版本,需要兩個(gè)條件:

一是需要瀏覽器有Tampermonkey插件,二是需要支持HTML5播放器
腳本地址:greasyfork.org/zh-CN/scripts/378513-bilibili-cc字幕工具
GitHub:/indefined/UserScripts
本質(zhì)上是個(gè)JS腳本,所以支持本地運(yùn)行不需要F12再手動(dòng)復(fù)制粘貼到在線工具轉(zhuǎn)換格式
原介紹:使用說(shuō)明 原理上來(lái)說(shuō)使用Tampermonkey、Violentmonkey安裝應(yīng)該可以正常使用 但不知道為什么似乎還是會(huì)有可能由于安全沙盒問(wèn)題被隔離從而導(dǎo)致一些(海外)番劇解析字幕信息失敗 如果只是某個(gè)番劇臨時(shí)想下載一下的話……可以不使用腳本管理器安裝,新建一個(gè)書簽,地址寫上 javascript:(function(){document.head.appendChild(document.createElement('script')).src = "https://greasyfork.org/scripts/378513-bilibili-cc字幕工具/code/Bilibili CC字幕工具.user.js"})()想下載的時(shí)候在那個(gè)番劇頁(yè)面點(diǎn)擊這個(gè)書簽就可以加載腳本了,因?yàn)椴煌ㄟ^(guò)腳本管理器這個(gè)方法理論上不會(huì)有沙盒問(wèn)題 功能 舊版HTML5播放器支持使用CC字幕 可配置語(yǔ)言/字體/背景/陰影等 CC字幕下載 新/舊版HTML5播放器可用 支持ASS/SRT/LRC/BCC/TXT純文本格式 按住ctrl點(diǎn)擊下載可直接下載上一次選擇的格式 默認(rèn)系統(tǒng)編碼,CR/LF換行 載入本地字幕 僅支持3.0以下HTML5播放器內(nèi)核,新版3.x以上播放器已失效支持ASS/SSA/SRT/LRC/BCC/SBV/VTT格式 支持字幕偏移調(diào)整,支持讀取LRC歌詞內(nèi)置偏移 支持UTF-8/GB18030/BIG5/UNICODE/JIS/EUC-KR編碼 目前在多數(shù)視頻可啟用,但可能會(huì)有異常情況,如果遇到異常情況請(qǐng)先查看是否為已知問(wèn)題兼容性 本腳本使用了較新的ES6+和HTML5 API,比較舊的瀏覽器版本可能不兼容 chrome 72 @ Tampermonkey 4.7/4.8 測(cè)試通過(guò) firefox 64 @ Tampermonkey 4.8 、Violentmonkey v2.10 測(cè)試通過(guò) 不兼容GreaseMonkey4+…… 其它瀏覽器和腳本管理器未知 已知問(wèn)題 僅支持HTML5播放器,不支持FLASH播放器 在收藏播放列表/稍后再看列表中第一個(gè)加載的視頻不會(huì)生效,要點(diǎn)擊一次右側(cè)播放列表里的視頻才會(huì)生效 字幕下載 應(yīng)該只支持瀏覽器自身下載,外部下載工具無(wú)效 ASS格式字幕如果遇到字體/樣式顯示不正常或不順眼請(qǐng)使用SRT格式 LRC歌詞格式不支持結(jié)束時(shí)間戳和內(nèi)容換行,會(huì)丟棄字幕結(jié)束時(shí)間,如果字幕中有換行將替換為空格 如果有其它下載后的字幕使用顯示不正常情況請(qǐng)?zhí)峤环答佉曨l鏈接 本地字幕 加載可能會(huì)亂碼,如果嘗試完下拉框中的編碼仍然亂碼,請(qǐng)將文件轉(zhuǎn)為UTF-8編碼 可能會(huì)無(wú)提示加載失敗,如遇到未提示加載失敗有詳細(xì)可復(fù)現(xiàn)失敗步驟或其它頭緒請(qǐng)到這里提交反饋B站的CC字幕不支持內(nèi)置樣式和特效,所有字幕內(nèi)置的樣式和{\code}格式的字幕特效將會(huì)被替換忽略 VTT格式字幕僅支持簡(jiǎn)單文本,如果文件中存在內(nèi)聯(lián)樣式或者結(jié)構(gòu)化數(shù)據(jù)將會(huì)被忽略或者表現(xiàn)亂碼 LRC歌詞格式本身沒(méi)有結(jié)束時(shí)間戳,所有歌詞字幕會(huì)持續(xù)到下一條字幕開(kāi)始或者最后一條結(jié)束后20秒 不支持XLRC格式,如果使用XLRC所有翻譯行將會(huì)被丟棄且卡拉OK特效會(huì)表現(xiàn)為亂碼 如果有除了以上列出的其它類似特效代碼殘留亂碼或者字幕內(nèi)容丟失請(qǐng)反饋提供原始字幕內(nèi)容 設(shè)置存儲(chǔ)相關(guān) 本腳本使用瀏覽器自身的localStorage存儲(chǔ)設(shè)置數(shù)據(jù) 包含播放器其它設(shè)置數(shù)據(jù)所有網(wǎng)頁(yè)新舊版通用 新版播放器的設(shè)置保存讀取由播放器自身維護(hù) 舊版播放器設(shè)置保存讀取由腳本自身維護(hù) 腳本在初始化時(shí)讀取播放器設(shè)置內(nèi)的字幕設(shè)置 如果以前沒(méi)有在新版頁(yè)面使用過(guò)CC字幕會(huì)自動(dòng)生成一個(gè)默認(rèn)設(shè)置,有沒(méi)有效果就不知道了 頁(yè)面關(guān)閉時(shí)重新讀取整個(gè)播放器設(shè)置并替換字幕設(shè)置為設(shè)置面板內(nèi)容 如果開(kāi)啟多個(gè)舊版播放器網(wǎng)頁(yè),最后一個(gè)關(guān)閉的頁(yè)面設(shè)置有效
使用演示

首先確保瀏覽器有Tampermonkey或者同類插件,然后直接通過(guò)腳本發(fā)布頁(yè)安裝腳本

然后再打開(kāi)B站的視頻就可以直接選擇下載字幕(如果有字幕,沒(méi)有無(wú)解)





然后就可以直接在彈出的窗口界面中選擇格式進(jìn)行下載,根據(jù)用途不同格式也很多,當(dāng)然原則上有SRT就能實(shí)現(xiàn)對(duì)其他格式的轉(zhuǎn)換。這個(gè)腳本相比之前的在線工具只支持SRT TXT支持的格式更多而且能一鍵按視頻標(biāo)題命名,非常的方便。

下載出來(lái)的字幕都是帶標(biāo)題命名的,而且格式和F12再用在線工具轉(zhuǎn)換的效果都是一樣的,相當(dāng)于省去了JSON字幕轉(zhuǎn)換的工序。

可以看到現(xiàn)在AI字幕的識(shí)別率還是相當(dāng)不錯(cuò)的,比人耳朵好使。在咱視頻底下很多觀眾反饋聽(tīng)不清咱說(shuō)啥的內(nèi)容AI都能正確識(shí)別,所以只需要少量的校對(duì)工作就可以得到完美的字幕。現(xiàn)在已知B站AI自動(dòng)識(shí)別字幕有以下的問(wèn)題:對(duì)于一些冷門詞匯比如兆芯并不能正常識(shí)別,對(duì)于龍芯則正好相反,龍芯的詞匯應(yīng)該在B站的AI字幕庫(kù)有標(biāo)記,所以無(wú)論發(fā)音是否標(biāo)準(zhǔn)都不能正確識(shí)別,癥狀為要么識(shí)別出錯(cuò)誤的同音結(jié)果要么干脆整句話直接不顯示,如果詞匯出現(xiàn)頻次過(guò)高甚至整個(gè)視頻都無(wú)法輸出AI字幕,如這期:【圖吧日?!?50包郵的兆芯U6780A主機(jī)安裝六管塔式散熱器 BV1yv4y1e7ae
所以說(shuō)現(xiàn)在國(guó)內(nèi)的AI字幕實(shí)際應(yīng)用起來(lái)還是多有問(wèn)題。校對(duì)的時(shí)候最好多注意自己對(duì)一遍原視頻聽(tīng)聽(tīng)情況才能確保沒(méi)有丟句落句或者縮句,這些問(wèn)題AI字幕都有如果想當(dāng)然的通過(guò)語(yǔ)義來(lái)進(jìn)行校對(duì)很可能就直接會(huì)漏過(guò)去,要對(duì)照原視頻。
之前咱做漢化的時(shí)候其實(shí)就特別討厭有的漢化組對(duì)于原作品的翻譯相當(dāng)?shù)牟萋?,前言后記不翻,框外不翻擬聲詞不做哪怕標(biāo)記一下也行啊,所以咱覺(jué)得特別重要的作品才會(huì)自己下場(chǎng)處理,現(xiàn)在沒(méi)想到回到字幕組的工作之后發(fā)現(xiàn)AI居然也有這個(gè)毛病,所以說(shuō)做事還得認(rèn)真還得細(xì)致才行,就怕想當(dāng)然不認(rèn)真那就很容易中招甚至上當(dāng)。比如咱最近出的視頻就有很多觀眾反饋雀食之前太想當(dāng)然了沒(méi)有進(jìn)行辯證思考所以才會(huì)上了龍芯圈的邪當(dāng),這個(gè)確實(shí)是人性的弱點(diǎn)畢竟咱作為圖吧垃圾佬撿垃圾多年手上還有兆芯的機(jī)器一開(kāi)始也選擇相信了龍芯的節(jié)奏視頻,但是現(xiàn)在想想時(shí)間是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)這話還真不算錯(cuò),不試試永遠(yuǎn)不知道怎么回事。飛騰咱不知道沒(méi)查過(guò),好在兆芯的機(jī)器非常便宜幾百塊錢很容易就能買到八核的機(jī)器回來(lái)試一下看看水平,所以其實(shí)各位也可以自己試試,確實(shí)沒(méi)有傳說(shuō)中的那么弱。
回到字幕



這個(gè)AI字幕的生成因?yàn)槁浜罅藝?guó)際服好幾個(gè)大版本所以和咱18年在油管直接改DNS就能直連然后通過(guò)錄屏搬運(yùn)視頻的年代肯定是要差很多意思的,但是國(guó)服反正22年以前的視頻無(wú)論播放多少 UP等級(jí)如何或者說(shuō)熱度高低都是沒(méi)有任何AI字幕的。所以說(shuō)這個(gè)功能終究是有個(gè)極限的,雖然理論上B站可以支持原地套娃想辦法給原視頻音頻保留重復(fù)投稿就能出AI字幕,但是啊這里我們還是想說(shuō)一下之前咱擔(dān)心的問(wèn)題。

各位如果仔細(xì)看上面的截圖的話就能發(fā)現(xiàn)這期我們使用插件下載字幕的并不全都是自己的視頻,而之前咱已經(jīng)警告過(guò)隔壁UP了如果自己辛苦肝了很長(zhǎng)時(shí)間的視頻只出了視頻的話,就很容易被人用這種方法扒文案出文章,所以建議是自己也出文章把對(duì)面的路堵死。但是現(xiàn)在想想這么整果然不是很現(xiàn)實(shí),畢竟不是每個(gè)UP都像死耗子一樣有專業(yè)團(tuán)隊(duì)伺候的,他們?nèi)绻麤](méi)有足夠的時(shí)間或者精力的話就很容易出完視頻文案做不出來(lái)或者不想做。
那么面對(duì)這種威脅難道就沒(méi)有什么辦法可以解決嗎?目前來(lái)看完全解決的方法是沒(méi)有的,畢竟視頻放出來(lái)只要讓人觀看了就有辦法保留音頻提取字幕逆向文案,這個(gè)就好像畫師自己放出來(lái)的私稿或者平時(shí)練手的摸魚作就放在網(wǎng)絡(luò)空間上想要避免被人臨摹描畫學(xué)習(xí)或者AI訓(xùn)練上不可能的,除非你不發(fā),發(fā)了就有這個(gè)風(fēng)險(xiǎn),不存在什么加密之后就可以只供人看不可能被人扒,那是不可能的。

但是確實(shí)可以通過(guò)被動(dòng)方法關(guān)閉不需要的AI字幕尤其是自己的視頻做了字幕的情況下一定程度上避免這種裝了插件直接就能下載字幕的,b站確實(shí)上給了這個(gè)AI字幕的關(guān)閉通道的

這樣之前咱們警告過(guò)的隔壁UP就可以把之前的視頻刪了重投平臺(tái)不產(chǎn)生AI字幕,相對(duì)比較安全。但是如果無(wú)論如何都想扒文案比如對(duì)面龍芯圈之前就在搞的玩套娃給視頻錄屏或者緩存之后投自制或者把音頻摘出來(lái)用自己的號(hào)投稿就沒(méi)法解決了。
所以AI這種東西本身就是雙刃劍,現(xiàn)在看來(lái)肯定會(huì)造成一時(shí)一刻一刻的混亂,但是未來(lái)對(duì)于人類長(zhǎng)遠(yuǎn)的發(fā)展肯定是有益無(wú)害的。正如之前咱在AI作畫會(huì)毀滅藝術(shù)行業(yè)嗎? 中說(shuō)的一樣,現(xiàn)在對(duì)AI繪畫抵制最為強(qiáng)烈的基本都是底層的畫師,他們畫風(fēng)小眾出稿慢成本高雀食卷不過(guò)AI,但是咱認(rèn)識(shí)的畫師里面真正實(shí)力在線辨識(shí)度高人氣旺工作穩(wěn)定的基本都對(duì)AI表示無(wú)所謂的態(tài)度,甚至有些還在積極參與應(yīng)用輔助作畫,這就是市場(chǎng)規(guī)律了,當(dāng)一個(gè)東西成本低效率高應(yīng)用廣的時(shí)候肯定會(huì)影響一部分人,但是對(duì)于絕大多數(shù)人來(lái)說(shuō)這種東西的出現(xiàn)都是有利的。所以即使咱作為UP也不能否定AI字幕本身對(duì)于咱來(lái)說(shuō)確實(shí)極大程度的降低了制作字幕的成本,甚至未來(lái)AI可能會(huì)直接參與翻譯接手原有的漢化組字幕組之類的工作都有可能,但是無(wú)論如何還是那句話,技術(shù)無(wú)罪,主要還是看使用技術(shù)的人的選擇。我們作為圖吧垃圾佬不利用自己的知識(shí)去帶節(jié)奏坑小白詆毀國(guó)產(chǎn)就是在行善積德,善有善報(bào)惡有惡報(bào)不是不報(bào)時(shí)候未到,希望各位不忘初心永不迷茫。
謝謝朋友們!