火爆全網(wǎng)的AI孫燕姿!超詳細(xì)干貨教程,讓你也能做出AI聲音克??!
大家好,用爺爺都能聽懂的方式分享可以落地實操的干貨
前段時間AI孫燕姿火爆全網(wǎng),我自己也跑了一遍全流程,然后寫了一個教程分享給大家
文章里面有一站式制作AI孫燕姿的方法,還包含了訓(xùn)練聲音模型的教程
讓大家除了AI孫燕姿外,還能做一個AI自己,讓你的聲音可以唱任何你喜歡的歌曲
同時每一步都是手把手教學(xué),大白話講解,確保你能聽懂,照著做也能做出來
另外,所有軟件的安裝包、整合包,甚至孫燕姿的聲音模型
都已經(jīng)打包好放在網(wǎng)盤分享給大家!
本作品僅作為娛樂目的發(fā)布,旨在讓大眾更快掌握AI相關(guān)應(yīng)用文章中的音樂使用AI合成技術(shù),視頻中演唱人聲并非孫燕姿本人,如有侵權(quán)告知刪除
一、AI孫燕姿是什么
最近這段時間,AI孫燕姿可以說是火爆全網(wǎng)了
在B站,一首AI孫燕姿演唱的《發(fā)如雪》就有180多萬的播放量
其他視頻也期期百萬播放

在抖音,一個AI孫燕姿的演唱合集有1600多萬的播放

那AI孫燕姿究竟是什么呢?
AI孫燕姿就是:
將大量孫燕姿本人的聲音喂給AI,AI自動學(xué)習(xí)之后形成了一個聲音的模型
然后用這個模型去唱別人的歌,出來的歌曲就真的跟孫燕姿翻唱了別人的歌一樣
二、如何制作AI孫燕姿
知道AI孫燕姿是什么之后
我們就知道如果我們自己要做一首AI孫燕姿演唱的歌曲
就要先做出一個孫燕姿的聲音模型
但煉模型是相對比較困難,需要有好一點的電腦配置,還要花大量的時間給AI學(xué)習(xí)
但是也不用擔(dān)心
網(wǎng)上已經(jīng)有大神將煉好的模型分享出來了
我們直接借用別人的模型,也能生成自己的AI孫燕姿
而且我最近還發(fā)現(xiàn)了一個軟件
在上面可以傻瓜式的生成出來一首AI孫燕姿的歌曲
總結(jié)一下上面所說的
就是目前我們制作一個AI孫燕姿有三種方法:①用傻瓜式軟件,一鍵式生成AI孫燕姿
②用別人的模型,做自己的AI孫燕姿
③自己煉一個模型來制作AI孫燕姿
接下來就給大家分享這三種方式的詳細(xì)制作流程
三、傻瓜式操作,三步生成AI孫燕姿
我們先看最簡單的最快的方法
這里我們用到的是一個叫TuneFlow的軟件
在這一個軟件里面,我們就可以直接生成出來一首AI孫燕姿的歌曲
而且只要三步簡單操作就可以完成:
①導(dǎo)入要演唱的歌曲,分離歌曲里面的人聲和伴奏
②把原歌曲的人聲換成孫燕姿的聲音
③導(dǎo)出一首孫燕姿歌聲+伴奏的新歌曲
現(xiàn)在我們就做一首AI孫燕姿唱的《后來》
以這個為例子,看看具體的操作步驟
1.軟件下載
首先先下載軟件
點擊下面的鏈接下載軟件TuneFlow
下載好了之后用郵箱注冊賬號,然后登陸
網(wǎng)頁端是不能用的,必須要下載桌面版才能制作AI孫燕姿
https://www.tuneflow.com/editor
2.導(dǎo)入音樂
軟件下載好了之后,我們就可以導(dǎo)入一首要AI孫燕姿演唱的歌曲
01.下載音樂
先在音樂軟件(酷狗、網(wǎng)易云等)上面下載一首歌曲
我這里下的是劉若英的《后來》
下載的音質(zhì)越高越好

這時候還會出現(xiàn)一個問題
像這些需要VIP才能下載的歌曲,下載出來的格式是用不了的
我們還有把格式轉(zhuǎn)換一下
點下面鏈接就可以進(jìn)行格式的轉(zhuǎn)換(網(wǎng)易云音樂也可以)https://kgm.worthsee.com/

02.把音樂導(dǎo)入到軟件
要唱的歌準(zhǔn)備好了,就可以把它導(dǎo)入到軟件里了
點擊“新建項目”開始創(chuàng)作

進(jìn)來之后會有一個默認(rèn)的新建軌道,這個對我們制作AI孫燕姿是沒什么用的,可以選擇刪掉(也可以不刪,沒什么影響)
鼠標(biāo)右鍵點擊左邊欄目——點擊“刪除軌道”

然后我們把劉若英的《后來》拖到軌道里面,或者直接點擊導(dǎo)入文件上傳

3.分離音頻
接下來就把這首歌里面人的聲音和伴奏給分離開來
鼠標(biāo)右鍵點擊音頻軌道
“運行插件”——“選中的片段”——點擊“智能音頻分軌”

點擊右邊的“啟用”,然后就會自動分離音頻
這里要稍微等一下

如果沒辦法運行,就要把音頻切割成幾個一分鐘左右的片段
再每一段單獨分離音頻
切割音頻的方法:
中間長長的那一條線可以拖動進(jìn)度條,最上面可以看到目前進(jìn)度條的時間
我們把進(jìn)度條拖到1分鐘左右,然后點擊綠色的軌道,選中它按“Ctrl+E”就可以切割音頻
同樣的方法,把整首歌切成幾段

運行完了之后,會多出來兩條軌道,一條是人聲,一條是伴奏

4.替換人聲
前面我們把音樂里劉若英的聲音和伴奏分離出來了
現(xiàn)在就是要把劉若英的聲音換成孫燕姿的聲音
在新增的兩條軌道里面,我們要先找到劉若英純唱歌的聲音
可以點左邊的“單”字來聽單獨某一個軌道(“靜”是把這條軌道靜音)

鼠標(biāo)右鍵點擊人聲的軌道
“運行插件”——“選中的片段”——“智能變聲器”

看到右邊的“聲線”,點擊就可以換聲音
目前可以換的聲音還比較少,“YZ”就是孫燕姿的聲音
然后點擊“啟用”

處理完了,我們的界面又多了一條軌道
可以單獨聽一下哪一條是孫燕姿聲音的軌道

然后把其他軌道都靜音
只留下孫燕姿的聲音軌道和伴奏
這樣就可以聽到AI孫燕姿唱《后來》啦!

5.導(dǎo)出音樂
試聽一下覺得沒問題就可以導(dǎo)出啦
這里是導(dǎo)出:孫燕姿的聲音+原來歌曲的伴奏
點擊右上角的“導(dǎo)出”——“導(dǎo)出音頻”——“整首歌曲”
注意:導(dǎo)出之前要先把其他軌道靜音,只留下孫燕姿的聲音軌道和伴奏?。?!
否則導(dǎo)出來的音樂就是全部軌道結(jié)合到一起的聲音

最后點擊“導(dǎo)出”就可以啦!

大家可以聽下導(dǎo)出后的效果
這個就是我們用第一種方法生成出來的AI孫燕姿
它直接在一個軟件平臺上面就可以完成所有的操作
但有一個缺點就是:
哪怕這個軟件是下載到我們電腦的,但它用的是官方的服務(wù)器,很多人同時在用的話,可能有些功能就沒法正常用了
在我寫這篇文章之前,就因為官方的顯存爆了,導(dǎo)致沒辦法進(jìn)行音頻分離
四、借用大神的模型,制作自己的AI孫燕姿
如果上面的軟件沒法用了
我們可以用接下來說的這一個方法
這個方法就是用別人煉好的模型來生成一個AI孫燕姿
可以分為以下三個步驟,每一個步驟需要用到不同的軟件
①選一首要演唱的歌曲,分離歌曲里面的人聲和伴奏:用到的軟件是 Ultimate Vocal Romover(后面簡稱uvr)
②把原歌曲的人聲換成孫燕姿的聲音:用到的軟件是 So-VITS-SVC(后面簡稱 sovits)
③將孫燕姿歌聲+伴奏合并到一起:用到的軟件是 剪映
可能細(xì)心的小伙伴就會發(fā)現(xiàn),這三個步驟跟前面第一個方法的步驟是差不多的
那為什么還要用這第二個方法呢?
那是因為uvr和sovits這兩個軟件是直接安裝在我們自己電腦上的
能不能正常運行只取決于我們自己的電腦配置
那就不會因為軟件官方出現(xiàn)問題,而影響到我們的使用
接下來就讓AI孫燕姿唱一首李榮浩的《烏梅子醬》
以這個為例子,看看具體的操作步驟
1.分離音頻
首先我們選好了一首讓AI孫燕姿演唱的歌曲:烏梅子醬
接下來就是分離這首歌的音頻,包含了下面3個步驟:
安裝軟件:uvr
分離歌曲中的人聲和伴奏
把人聲變得更加干凈
01.安裝軟件
uvr軟件的壓縮包放在網(wǎng)盤了(網(wǎng)盤鏈接在文章的最后面)
大家保存《1.UVR5》到自己電腦,先雙擊下載uvr的應(yīng)用程序

具體安裝步驟可以看圖




安裝好了之后,把文件夾里面的壓縮包解壓到 剛剛下載的uvr里面的models文件夾

這樣我們的軟件就安裝好啦!
02.分離伴奏
現(xiàn)在打開剛下載好的軟件進(jìn)行音頻分離
在“Select Input”里面放歌曲《烏梅子醬》
“Select Output”選擇分離后的人聲和伴奏放到哪個文件夾

其余的參數(shù)按照下面圖片里的去調(diào)就可以了
如果你的“GPU Conversion”沒辦法勾選也沒關(guān)系,只是導(dǎo)出會慢一點
參數(shù)調(diào)好了點擊“Start Processing”就會開始處理

這樣我們就把伴奏和人聲分離開來了
文件夾里面后綴是“Instrumental”的是伴奏
后綴是“Vocals”的就是人唱歌的聲音

03.讓聲音變得更加干凈
現(xiàn)在聽人聲的那一條音頻,聲音是還不夠干凈的
我們還要單獨把人聲重新處理一遍
我們這次導(dǎo)入的是剛剛分離出來的純?nèi)寺?/strong>的音頻
注意注意??!也就是后綴帶有“Vocals”的那個音頻
下面的參數(shù)要按照圖片重新修改
點擊“Start Processing”

等音頻處理好了之后,我們的文件夾會多一個后綴帶有兩個“Vocals”的音頻
這時候我們的音頻就處理好啦!

2.替換人聲
經(jīng)過剛剛的處理,我們得到一條比較干凈的李榮浩唱《烏梅子醬》的音頻
現(xiàn)在我們就要把李榮浩的聲音換成孫燕姿的聲音
這一步也分為了三個步驟:
安裝軟件:sovits
安裝模型:把孫燕姿的聲音模型放到sovits里面
替換聲音
01.安裝軟件
這里我們用到的是B站羽毛布団的整合包,整合包點擊鏈接就可以下載
下載鏈接里的《2.so-vits-svc》,保存到自己電腦
然后解壓sovits的壓縮包到D盤或者E盤不要裝到C盤!!小心C盤會被占滿!!

找到解壓后的文件夾,雙擊“啟動webui”就可以打開sovits的主界面

02.安裝模型
剛下載好的sovits里面是沒有聲音模型的
我們要自己把孫燕姿的模型放進(jìn)去
在網(wǎng)盤里面我已經(jīng)給大家準(zhǔn)備了一個孫燕姿的聲音模型
下載并且解壓網(wǎng)盤里的《3.AI孫燕姿》
里面有三個文件,復(fù)制“sun G_27200”和“sun Kmeans_10000”這兩個文件
來到sovits文件夾,找到logs文件夾里的44k文件夾,把這兩個文件粘貼進(jìn)去

再把剩下的“sun config”那個文件復(fù)制到sovits文件夾中的configs文件夾

這樣我們AI孫燕姿的聲音模型就安裝好啦!
03.替換聲音
接下來就是將李榮浩的聲音換成孫燕姿的聲音
打開sovits進(jìn)行聲音的替換,在這個軟件里面叫做“推理”

左邊的三個框框都要點進(jìn)去選擇模型
然后點擊“加載模型”

看到模型加載成功就可以上傳音頻了
這里上傳的音頻是我們處理過的干凈的人聲,也就是后綴帶有兩個“(Vocals)”的那條音頻


音頻上傳成功之后繼續(xù)往下設(shè)置
“f0預(yù)測器”選擇成crepe,其他參數(shù)不用動
最后點擊“音頻轉(zhuǎn)換”

轉(zhuǎn)換好了試聽覺得沒問題就可以點右邊的三個點,把音頻下載下來

3.合并人聲和伴奏
我們下載下來的是只有孫燕姿唱《烏梅子醬》聲音的一條音頻
要變成一首完整的音樂,還要讓這個音頻加上音樂的伴奏
這里用到的剪輯軟件就是剪映,大家可以點擊鏈接下載https://www.capcut.cn/
下載好了之后打開剪映,點擊“開始創(chuàng)作”

導(dǎo)入前面分離出來的《烏梅子醬》的伴奏,也就是后綴帶有“Instrumental”的那條音頻
還有剛剛在sovits導(dǎo)出的孫燕姿的聲音


把導(dǎo)入的兩條音頻拖到下面的編輯框里面
一定要把開頭對齊?。?/span>
最后點擊右上角的“導(dǎo)出”就可以保存音頻了

如果需要的話還可以導(dǎo)入一些照片和視頻,這樣就變成一個MV了
網(wǎng)盤里還給大家分享了3個黑膠唱片轉(zhuǎn)動的視頻素材,讓你更好地做視頻



這樣就完成啦?。。?/span>
大家可以聽一下效果
暫時無法在飛書文檔外展示此內(nèi)容
五、煉制自己的專屬聲音模型
前面的兩個方法用的都是別人的模型
現(xiàn)在第三個方法就是自己煉一個聲音模型出來
然后用自己煉出來的模型去生成一首歌曲
分為兩個大的步驟就是:1.煉模型 ? 2.生成歌曲
1.前提條件
煉模型對電腦配置是有要求的
所以在正式開始之前,我們要確保自己的電腦符合以下的配置:
是NVIDIA的顯卡(也就是N卡)
顯卡的專用內(nèi)存6GB以上
如果是A卡或者顯存不夠的朋友們,我們可以去云端訓(xùn)練
也就是租用別人的電腦,遠(yuǎn)程控制別人配置好的電腦
云端訓(xùn)練可以看這個視頻https://www.bilibili.com/video/BV1324y1572U/?vd_source=6f836e2ab17b1bdb4fc5ea98f38df761
2.煉模型
電腦配置符合要求的朋友們,接下來我們就要開始煉模型啦
煉模型可以分為兩步:
制作素材庫
訓(xùn)練模型
接下來我們就做一個孫燕姿的聲音模型
以這個為例子,看看詳細(xì)的操作流程
01.制作素材庫
AI要模仿孫燕姿的聲音,我們就要給它孫燕姿本人的聲音素材
這個素材就相當(dāng)于是它的學(xué)習(xí)資料
有了學(xué)習(xí)資料,它就會自己進(jìn)行學(xué)習(xí)
制作一個素材庫,包括了以下三個步驟:
收集素材
處理素材
切割素材
①收集素材
素材庫的質(zhì)量非常重要!!
質(zhì)量越高,出來的模型聲音才越像本人
素材的來源:
如果是做某個歌手的模型,那我們就可以找他們的歌曲、訪談、采訪、電視劇等等..
最簡單直接的辦法就是下載足夠多的歌曲,因為訪談和電視劇之類的還要先把別人的聲音剪掉
如果是做自己的聲音模型,那就把自己唱歌的聲音錄下來
素材的要求:
時長:至少在30分鐘以上
素材要盡量的干凈清晰(至少后期能處理干凈)
不要為了湊素材時長加一些低質(zhì)量的聲音??!
這里給大家做演示,我就只收集了孫燕姿的兩首歌曲

02.處理素材
素材收集好了之后我們就要把這些素材處理干凈
保證處理之后的素材只有人的聲音,不要有bgm、其他人說話的聲音或者雜音
提取聲音用的還是這個軟件:Ultimate Vocal Romover(uvr)
①分離伴奏
首先把歌曲里面的伴奏去掉
具體操作步驟:
1.把我們收集到的聲音素材放到一個文件夾里面
2.把整個文件夾拖動到最上面的框框里
3.選擇一個保存音頻的文件夾
4.參數(shù)按照圖片中的設(shè)置
5.最后點擊“Start Processing”

②讓聲音變得更加干凈
上面的操作是把歌聲里面的人聲和伴奏分離開來
下一步就是把人聲處理得更加干凈
具體操作步驟:
1.打開前面輸出的文件夾,把后綴有“vocals”的音頻拖動到一個新的文件夾里面
2.把整個文件夾拖動到uvr最上面的框框里
3.選擇一個輸出文件夾
4.按照圖片重新設(shè)置參數(shù)
5.點擊“Start Processing”

這樣我們干凈的聲音素材就處理好啦!
03.切割素材
現(xiàn)在素材處理干凈了,但是一條音頻有4~5分鐘
我們需要把這些音頻全部切成3~15秒左右的小片段
這樣才能保證模型訓(xùn)練的質(zhì)量和速度
在處理之前,我們還要把剛剛處理好的音頻文件改一下名
這些文件名不能包含中文
最好最用數(shù)字字母、下劃線
把前面處理好的后綴帶有兩個“vocals”的音頻名字改成“sun1”


打開sovits,在最新版本里面更新了一個音頻切片的工具
在這里我們就可以直接把音頻切成小片段

復(fù)制文件夾的保存路徑

粘貼路徑到sovits,然后點擊“加載原始音頻”

顯示成功加載之后,復(fù)制一個空文件夾的路徑到“輸出目錄”
這個文件夾是用來放切成小片段的音頻的
然后點擊開始切片

看到成功就是已經(jīng)切片成功啦!

這時候空文件夾里面就會多了很多只有3~15秒的音頻

02.煉模型
到這里我們就做好素材庫的準(zhǔn)備工作啦
接下來才是我們的重頭戲——開始煉丹(煉模型)
①將素材庫喂給AI
先把我們準(zhǔn)備好的學(xué)習(xí)資料(素材庫)喂給AI
把剛剛保存切片的文件夾重命名,用英文字母命名
然后復(fù)制整個文件夾,放到sovits文件夾里的“dataset_raw”文件夾
注意注意??!是整個文件夾放進(jìn)來,而不是只把音頻切片復(fù)制進(jìn)來

②設(shè)置參數(shù)
確保素材庫放在正確的文件夾里面
現(xiàn)在就要設(shè)置一下訓(xùn)練的參數(shù)
接下來打開sovits
在“訓(xùn)練”的界面開始訓(xùn)練我們的模型

點擊“識別數(shù)據(jù)集”,文本框就會出現(xiàn)我們剛剛制作的素材庫名字

接下來選擇
“編碼器”——vec768l12
“f0預(yù)測器”——crepe
然后點擊“數(shù)據(jù)預(yù)處理”

處理的信息會在下面的框框里顯示
等進(jìn)度條到100%就處理好了
點擊“清空輸出信息”

接下來就是設(shè)置參數(shù)
注意“批量大小”的參數(shù),6G顯存就要填“4”,不然會出現(xiàn)顯存報錯
全部參數(shù)設(shè)置好了之后就點擊“寫入配置文件”

顯示配置寫入完成就點擊“從頭開始訓(xùn)練”

接下來AI就會自己進(jìn)行學(xué)習(xí)了
③觀察訓(xùn)練進(jìn)度
當(dāng)我們開始訓(xùn)練,就會彈出一個黑色框框,這個框框就是我們的訓(xùn)練日志
訓(xùn)練的信息都會顯示在這里,我們要實時注意
這一步就不用我們再去操作什么了,只要觀察這個黑色框框就可以
訓(xùn)練的時候會占用大量的顯存
所以訓(xùn)練的時候就不要用電腦去做一些消耗電腦顯存的事情了(比如打游戲)

看到每訓(xùn)練200步就會出現(xiàn)一條比較長的信息
“step:200”就是煉了200步的意思
這里面我們只要關(guān)注最后面的“reference_loss”的值
這個數(shù)字越小,說明模型訓(xùn)練的越好,模型的聲音越接近本人
loss值是40多:殘次品,不能用loss值是30多:勉強能用loss值是20多:已經(jīng)很不錯了如果loss值是10多,那就是一個很好的模型了

我這里素材只有2首歌和只煉了200步,所以出來是殘次品
一個好的模型訓(xùn)練1萬步左右就差不多了
具體還是關(guān)注loss值,達(dá)到你們的預(yù)期(一般10多20多)就可以暫停
大家做好耐心等待的準(zhǔn)備
暫停的方法:1.按Ctrl+C ? ? 2.關(guān)掉黑色框框
訓(xùn)練完回到推理的頁面就可以看到我們煉出來的模型,G后面的數(shù)字就是訓(xùn)練的步數(shù)

祝大家煉丹成功?。?/span>
3.生成新歌曲
練好模型之后我們就可以拿來生成一首歌曲啦
制作的方法跟文章的第四部分是一樣的:
1.選好要唱的歌,分離歌曲的人聲和伴奏2.替換人的聲音3.將新生成的聲音和伴奏合并起來
六、結(jié)尾
三個方法都已經(jīng)講完啦
每個方法都有利有弊,大家根據(jù)自己的實際情況選擇
或者都試試也可以!
