散文網(wǎng) » 科技 »學(xué)習(xí) » 高效制作主播二創(chuàng)語音素材

高效制作主播二創(chuàng)語音素材

2021-12-26 19:58 作者:那個(gè)啥和那個(gè)啥 0人讀過 | 我要投稿

截取主播直播時(shí)的音頻制作二創(chuàng)是一個(gè)非常辛苦的體力活。如果要制作長篇幅的二創(chuàng)配音視頻，除印象深刻的名場面外，還需要大量直播中主播的語音作為備選素材，整個(gè)過程與最喜歡的歌當(dāng)作起床鬧鐘的討厭程度相比有過之無不及。

明確的制作思路能節(jié)約大量的時(shí)間，我將盡可能輕松詳細(xì)的描述我的制作思路，方便讀者按圖索驥。

在講解本文的方法前，請讀者們想一想，如果制作語音素材包，應(yīng)該采用什么步驟？是用Audition選中音頻逐個(gè)右鍵導(dǎo)出？需不需要用中置聲道提取人聲？在確定自己的制作思路后，不如看看下面別人是怎么想的。

想好了嗎？現(xiàn)在看看其他人是怎么想的。

感謝群友 cdd 提供的制作思路：花錢外包

感謝群友 DMC 提供的制作思路：AI克隆聲音

感謝群友?內(nèi)志漢志提供的制作思路：發(fā)彈幕騙

感謝群友春を惜しむ提供的制作思路：搖人白嫖

感謝群友?七七的喵叔?提供的制作思路：主播自己錄

感謝群友碎片手雷提供的制作思路：花錢SC讓她自己念

上面都是好思路（笑），都有可實(shí)施性但效果看運(yùn)氣，有條件的建議在按本文制作前優(yōu)先考慮上面的方法。

AI克隆聲音有技術(shù)門檻，效果不理想。
發(fā)彈幕騙、花錢SC讓她自己念，確實(shí)有人這么做。~~非要說缺點(diǎn)的話一是素材量很大，主播愿不愿意是個(gè)問題。二是容易棒讀，沒有情緒~~一點(diǎn)點(diǎn)缺點(diǎn)算什么，這是最省時(shí)省力的方法了！
主播自己錄我沒見過，只見過發(fā)布節(jié)目人聲素材，如果要作為素材使用還是需要分段處理，可以按本文的方法加快速度。
花錢外包、搖人白嫖更合適不過了（笑）本人接外包，聯(lián)系方式***

不開玩笑，下面介紹我的制作二創(chuàng)語音素材整理方法，用語音識別確定時(shí)間軸和內(nèi)容，根據(jù)時(shí)間軸批量分割導(dǎo)出，批處理批量重命名。

這種方法適合大批量長時(shí)間的情況，在硬盤損壞之前，我曾用這種方法在一星期左右的時(shí)間截取了近3000段音頻。

首先我們要明確基本的制作路徑：

音頻分段
人聲分離（去除背景音樂）
語音識別
校對截取
導(dǎo)出命名

不一定非要用文章中的軟件，人聲分離（去除背景音樂）和語音識別可以互換位置，如果沒有BGM或者BGM不影響，可以直接去掉人聲分離節(jié)約時(shí)間。讀者可以基于上面的路徑按照自己的習(xí)慣修改，適合自己的才是最好的。

音頻分段

做好音頻分段將會(huì)節(jié)省大量時(shí)間和精力，如果沒有進(jìn)行音頻分段預(yù)處理，你將會(huì)遇到并且不局限于：人聲分離消耗大量算力和時(shí)間在不能用的片段上、人聲分離死機(jī)失敗、語音識別耗時(shí)很久時(shí)間后報(bào)錯(cuò)失敗。每一個(gè)都能將制作語音包的熱情迅速澆滅，另外面對一堆動(dòng)輒三四個(gè)小時(shí)的錄播，很容易讓人沉浸怎么也做不完的絕望。進(jìn)行音頻分段也有利于我們設(shè)立多個(gè)小目標(biāo)，了解制作進(jìn)度。

要想進(jìn)行音頻分段，首先要看一遍錄播。當(dāng)然不能老老實(shí)實(shí)地看一遍錄播，我們需要有長時(shí)間跳轉(zhuǎn)、倍速播放功能的視頻播放器。比如PotPlayer、VLC等等，按照個(gè)人使用體驗(yàn)，四倍速是人和軟件都能接受的速度。PotPlayer超過四倍速播放會(huì)音畫不同步，快捷鍵C加速，快捷鍵X減速，快捷鍵Z快速切換正常/倍速狀態(tài)。VLC超過四倍速會(huì)靜音播放，小鍵盤加和減鍵按整數(shù)增加或減少速率，"[“鍵和”]“鍵按小數(shù)調(diào)整速率，”="恢復(fù)正常速率。

除此之外，唱歌部分不需要保留。一首歌大約三到五分鐘，我們可以直接用快捷鍵跳轉(zhuǎn)時(shí)間，PotPlayer的時(shí)間跨度快捷鍵如圖所示：

如果遇到主播唱歌，多按幾次Shift+方向鍵跳轉(zhuǎn)到歌曲結(jié)尾節(jié)約時(shí)間。

VLC的跳轉(zhuǎn)快捷鍵如圖所示：

通常我們不需要的是直播開場動(dòng)畫、主播唱歌片段、背景音樂含人聲的片段、直播結(jié)束結(jié)尾曲等等，四倍速快速播放錄播的過程中記下這些時(shí)間節(jié)點(diǎn)，注意，記下的時(shí)間最好為保留幾分幾秒到幾分幾秒。如：主播3分15秒正常說話，3分40秒開始唱歌，6分30秒唱完歌繼續(xù)說話。那么我們應(yīng)該記下的時(shí)間段是03:15-3:40、6:30-下一次說話結(jié)束的時(shí)間。而不是記3:40-6:30唱歌的時(shí)間。

多按幾次長時(shí)間跳轉(zhuǎn)快捷鍵，迅速的瀏覽錄播視頻，記下這些時(shí)間后，使用ffmpeg命令進(jìn)行批量修剪，沒下載ffmpeg的建議看以前的專欄，看ffmpeg的下載，自行搜索"ffmpeg 環(huán)境變量"關(guān)鍵詞，設(shè)置環(huán)境變量失敗的，將下文中所有ffmpeg替換為"磁盤\文件夾\ffmpeg.exe"的格式。

ffmpeg -ss 開始時(shí)間 -to 結(jié)束時(shí)間 -i 源視頻路徑 -vn -c copy 導(dǎo)出視頻路徑（后綴名為mp4）

-vn表示無視頻流，-c copy表示復(fù)制流，假設(shè)環(huán)境變量沒設(shè)置成功，將ffmpeg解壓到D盤，那么應(yīng)該是這樣寫的

?"D:\ffmpeg.exe" -ss 00:03 -to 06:10 -hide_banner -i "D:\64.flv" -vn -c copy "D:\新建文件夾\001.mp4"
?"D:\ffmpeg.exe" -ss 09:30 -to 14:52 -hide_banner -i "D:\64.flv" -vn -c copy "D:\新建文件夾\002.mp4"
?……

復(fù)制指令到記事本，點(diǎn)擊文件-另存為

保存類型改為所有文件，手動(dòng)添加后綴為bat，編碼改為ANSI

雙擊新建的批處理文件，會(huì)彈出cmd窗口進(jìn)行剪切處理

以上操作為第一次粗剪，目的是刪除不需要的片段，節(jié)省人聲分離的算力和時(shí)間

如果第一次粗剪的音頻片段過長（單個(gè)片段時(shí)長半小時(shí)以上），需要第二次粗剪控制視頻時(shí)長，防止語音識別階段等待時(shí)間過長

第二次粗剪除用上面的ffmpeg修剪命令精確修剪外，也可以用軟件直接批量修剪為固定長度的音頻，比如用Quickcut將視頻裁剪為10分鐘的長度

兩次粗剪后音頻分段完成

人聲分離

根據(jù)筆者的個(gè)人制作經(jīng)驗(yàn)看，如果語音素材只是給自己使用的話，完全可以在二創(chuàng)結(jié)束時(shí)對使用的音頻去除BGM，這樣可以節(jié)約相當(dāng)數(shù)量的時(shí)間和算力。

之所以放在第二環(huán)節(jié)，是因?yàn)楣P者當(dāng)時(shí)制作語音素材是本著所有人都可以分享的目的制作的，教程也將遵循當(dāng)時(shí)的步驟。

人聲分離的軟件也有很多選擇，如RX7、iZotope、SpleeterGUI。我習(xí)慣SpleeterGUI因?yàn)槊赓M(fèi)，還可以把多個(gè)音頻一股腦的全部拖進(jìn)去，然后離開電腦等待

SpleeterGUI有繁體中文，使用前記務(wù)必把最大歌曲長度從默認(rèn)的600改為更長的時(shí)間

有余力的讀者可以去官網(wǎng)自行研究安裝GPU版本

https://makenweb.com/spleeter_help.php

接下來就是漫長的等待，這段時(shí)間可以離開電腦做別的事情。所有任務(wù)跑完后，人聲分離完成。

語音識別

需要注意的是，無論是哪家的語音識別服務(wù)，都達(dá)不到讓人滿意的程度，必定需要大量手動(dòng)修改。

阿里云、騰訊云等云服務(wù)適合能接受付費(fèi)的用戶，我記得阿里云錄音語音識別大約是兩塊五一小時(shí)。

網(wǎng)易見外平臺(tái)免費(fèi)使用，但每天只有一個(gè)半小時(shí)的額度，如果合理規(guī)劃工程，每天只做1.5小時(shí)的語音包可以用這個(gè)方案，我最后沒有用這個(gè)

網(wǎng)易見外平臺(tái)網(wǎng)址： https://jianwai.youdao.com/

剪映PC版是我最終采用的方法，結(jié)合民間大神寫的剪映字幕提取插件，可以滿足語音識別的要求，本文就用剪映作為范例講解。

新的剪映PC版對電腦的要求更高，如果可能的話盡可能安裝最開始的舊版，我使用的版本是1.3.6版本。語音識別是從網(wǎng)絡(luò)返回的結(jié)果，無論新版舊版結(jié)果都是一樣。

剪映（最新版）官網(wǎng)下載網(wǎng)址：https://lv.ulikecam.com/

我前文中提到“人聲分離和語音識別可以互換位置”，如果按照文中的路徑先人聲分離再語音識別，就會(huì)發(fā)現(xiàn)人聲分離后的視頻是不能進(jìn)行語音識別的，會(huì)彈出請先開啟音量或添加音頻,再進(jìn)行識別的提示，這是因?yàn)榧粲持挥杏挟嬅鏁r(shí)才能進(jìn)行語音識別。

為解決這個(gè)問題，我們需要給純音頻增加視頻畫面，首先我們先制作一個(gè)4×4像素的圖片，點(diǎn)擊一下win鍵，敲擊一下空格鍵，直接搜索畫圖。

點(diǎn)開畫圖軟件，點(diǎn)擊左上角文件-屬性，

改成4×4像素，然后保存這張圖片為JPG或者其他能用的格式。

打開小丸工具箱，調(diào)到常用選項(xiàng)卡，拖入圖片和音頻，輸出后綴名改為mp4方便播放和編輯，FPS設(shè)為1，勾選復(fù)制音頻，時(shí)間長度不用改不影響。設(shè)置好點(diǎn)擊壓制，就能得到一個(gè)一圖流視頻。

為什么要用4×4像素的圖片？因?yàn)檫@一步主要靠CPU生成，越大的圖片消耗的時(shí)間越長。

得到視頻之后就可以拖入剪映中，文本-識別字幕-開始識別，等一段時(shí)間識別完成。

識別完成后退出剪映，打開剪映工具箱或者其他能提取剪映字幕的工具

剪映工具箱下載地址：http://39.96.28.241/

下面的步驟摘自剪映工具箱網(wǎng)站

打開軟件，在首頁單機(jī)你要提取的工程文件即可完成提取

修改導(dǎo)出格式

默認(rèn)為SRT格式。

點(diǎn)擊側(cè)邊菜單設(shè)置，在導(dǎo)出格式中選擇SRT或TXT格式，或者在字幕頁下方更換格式。

導(dǎo)出字幕

點(diǎn)擊側(cè)邊菜單字幕，點(diǎn)擊保存選擇導(dǎo)出目錄后即可完成導(dǎo)出。

導(dǎo)出SRT文件后，語音識別工作完成，進(jìn)入最讓人血壓飆升的校對截取環(huán)節(jié)

校對截取

錄播組中的校對為何七竅生煙？本環(huán)節(jié)可體驗(yàn)一二。

前面說過無論是哪家的語音識別服務(wù)，即使主播是新聞主播那種級別的普通話，也不可能稍微修改一下就完成，只能手動(dòng)修改。

另外更讓人生氣的是打軸，語音識別的字幕基本上是話還沒說完字幕就沒了，或者斷句斷的像外國人說話一樣，也只能手動(dòng)修改。

用Aegisub打開SRT字幕，拖入視頻，進(jìn)行修改。

用鼠標(biāo)拖拽右上區(qū)域，修改文字框中的錯(cuò)字。合理使用快捷鍵能大幅度加快速度，確保時(shí)間軸完整覆蓋到音頻。

注意：為了能夠成功導(dǎo)出，字幕中不要含有英文符號，重復(fù)的字幕加上編號讓內(nèi)容不重復(fù)，不要用任何ass特效

等所有修改完成后，另存為字幕文件。

導(dǎo)出命名

勝利的曙光就在前方，只要成功導(dǎo)出，第一段就完成了！

在Aegisub中校對時(shí)，有幾句話效果特別好，想單獨(dú)提取出來放在優(yōu)先位置。所以在講批量導(dǎo)出前，先講一下在Aegisub的單個(gè)導(dǎo)出

單個(gè)導(dǎo)出

選中要單獨(dú)提取的字幕，右鍵-創(chuàng)建音頻剪輯

會(huì)導(dǎo)出為wav格式的音頻，需要手動(dòng)輸入名稱（因此此方法只適合做單個(gè)導(dǎo)出）

批量導(dǎo)出

重點(diǎn)在導(dǎo)出和重命名，需要用到的軟件是Quickcut和Office軟件

打開Quickcut，調(diào)整到分割視頻選項(xiàng)卡，總選項(xiàng)填寫-vn -c copy ，-vn的作用是禁用視頻流，-c copy的意思是直接復(fù)制不重新編碼，這樣速度會(huì)快得多。

把視頻和字幕拖入對應(yīng)選項(xiàng)框，點(diǎn)擊運(yùn)行會(huì)在相應(yīng)目錄生成文件

剪完之后會(huì)發(fā)現(xiàn)文件名都是這個(gè)鬼樣子，壓根沒法用，我們要用office軟件編寫批處理命令一對一重命名。

首先打開Aegisub，CTRL+A全選所有字幕，CTRL+C復(fù)制。

來到WPS或者EXCEL里，CTRL+V粘貼，選中這一列，使用數(shù)據(jù)-分列功能。

選擇固定寬度，點(diǎn)下一步，

將分列線移動(dòng)到合適位置，點(diǎn)下一步，

點(diǎn)完成，

字幕內(nèi)容被單獨(dú)分離出來。

在C1中輸入=TEXT(ROW(),"000000")，雙擊右下角綠點(diǎn)快速填充表格

考慮到有些函數(shù)看不懂，我會(huì)在介紹完Excel函數(shù)和ren重命名后，再介紹一種簡單的方法

方法1?EXCEL組合函數(shù)

在操作之前，先分別講解原理：

在CMD命令中，ren file1 file2表示將file1文件重命名為file2，因?yàn)樽帜粫?huì)中帶有空格，所以我們把命令改為ren "file1" "file2"防止命令出錯(cuò)

也就是說，我們要用得的其中一條命令是這樣寫的：

ren "000001..mp4" "打個(gè)比方，舉個(gè)例子1.mp4"

雙引號是語法的一部分，沒有辦法直接輸入，所以我們使用EXCEL中的絕對引用，在E1輸入英文的雙引號

英文符號&在表格中表示連接的意思，既可以連接文本，也可以鏈接框

D1要填寫的命令是這個(gè)樣子的（注意ren后面的空格，雙引號之間的空格）：

="ren "&($E$1)&C1&"..mp4"&($E$1)&" "&($E$1)&B1&".mp4"&($E$1)

不要怕，我?guī)Т蠹曳治鲆幌?，首先把所有字母和?shù)字帶入，B1的內(nèi)容是“打個(gè)比方，舉個(gè)例子1”

="ren "&($E$1)&C1&"..mp4"&($E$1)&" "&($E$1)&B1&".mp4"&($E$1)

="ren "&($E$1)&000001&"..mp4"&($E$1)&" "&($E$1)&打個(gè)比方，舉個(gè)例子1&".mp4"&($E$1)

所有雙引號的內(nèi)容都是文本內(nèi)容，英文符號&表示連接，因此去掉雙引號公式是這個(gè)樣子的

=ren &($E$1)&000001&..mp4&($E$1)& &($E$1)&打個(gè)比方，舉個(gè)例子1&.mp4&($E$1)

前面說過了英文的雙引號是語法的一部分，所以沒辦法直接打出來，我在E1填寫了一個(gè)雙引號作為絕對引用，公式中所有的($E$1)都是文本類型的雙引號，消掉&，并代入($E$1)后公式是這樣的：

=ren "000001..mp4" "打個(gè)比方，舉個(gè)例子1.mp4"

雙擊D1右下角的綠點(diǎn)，快速填充表格

復(fù)制這一列到記事本中，另存為到音頻文件夾，保存類型改為所有文件，后綴名改為bat，編碼ANSI，點(diǎn)擊保存

方法2?直接連接法

如果實(shí)在是沒看懂上面的="ren "&($E$1)&C1&"..mp4"&($E$1)&" "&($E$1)&B1&".mp4"&($E$1)到底是什么意思，那就簡單粗暴的用快速填充來填寫

首先我們回到圖中這一步驟：

在D1填寫ren（注意ren后面有一個(gè)空格）

雙擊綠點(diǎn)快速填充表格

E1填英文狀態(tài)的雙引號，快速填充

F1填寫=C1，然后快速填充

重復(fù)填寫、等于、快速填充的方法，讓表格成圖中的這個(gè)樣子（注意空格）

在L1填寫=D1&E1&F1&G1&H1&I1&J1&K1，使用快速填充，也能得到函數(shù)法的最終結(jié)果

復(fù)制L列到記事本中，另存為到音頻文件夾，保存類型改為所有文件，后綴名改為bat，編碼ANSI，點(diǎn)擊保存

找到批處理文件，雙擊運(yùn)行

一切完成！注意如果字幕存在問題（比如使用了ass標(biāo)簽、使用了英文符號）重命名可能失敗，需要手動(dòng)修改

補(bǔ)充鏈接：

網(wǎng)盤（內(nèi)含ffmpeg.exe、小丸工具箱R236、Aegisub-3.2.2-32.exe、剪映1.3.6） https://www.aliyundrive.com/s/tpVYQ1415XZ 提取碼：ANFx
ffmpeg下載地址 http://ffmpeg.org/download.html#build-windows
小丸工具箱官網(wǎng)下載鏈接已失效
Aegisub https://aegi.vmoe.info/downloads/
剪映PC版下載官網(wǎng)（官網(wǎng)是最新版本，硬件要求更高，教程中是1.3.6版） https://lv.ulikecam.com/
Quickcut下載地址 https://gitee.com/haujet/QuickCut/releases
網(wǎng)易見外工作臺(tái) https://jianwai.youdao.com/
剪映工具箱 http://39.96.28.241/
播放器自選

如果要做鬼畜音源（唱歌的那種），請看大白熊UTAU人力V教程（第二章），完整的五章節(jié)詳細(xì)講解怎樣把主播說話的素材變成唱歌的音源

標(biāo)簽：