散文網(wǎng) » 科技 »學(xué)習(xí) » 關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response

2023-06-26 16:55 作者:星璇の天空 0人讀過 | 我要投稿

首先，這是周刊改版后的一個(gè)老聲常談的問題了：引擎和歌姬標(biāo)簽錯(cuò)誤問題。

從中文虛擬歌手中文曲排行榜的角度看，作為一個(gè)不區(qū)分引擎的“全榜單”來說引擎的標(biāo)簽問題干擾的可能只是引擎小榜標(biāo)記問題，目前的策略一般是被提出之后進(jìn)行標(biāo)記修正，確保后續(xù)小榜排名正常。

但是從周刊VOCALOID中文新曲榜的角度來說，問題可能就大了：VOCALOID引擎如果標(biāo)記多了或者少了，曲子就完整的Miss掉了，比如這位：

同樣的，歌姬標(biāo)簽的問題也一樣存在：

所以，引擎和歌姬標(biāo)簽錯(cuò)誤的問題，刊組其實(shí)一直是在想辦法解決的。但是效果就目前來看，并不是很理想。

不過，寫這些并不是為了說這個(gè)問題有多嚴(yán)重，而是探討一下解決的方案。

在討論手段之前，首先插一段說說目前刊組數(shù)據(jù)形成過程：

整體流程如下圖所示：

從流程圖上能夠看出來，整個(gè)過程能夠處理和修正引擎和歌姬錯(cuò)誤的環(huán)節(jié)，主要是2個(gè)：

AI換聲排除環(huán)節(jié)之后的標(biāo)記過程
收錄的人工核定和信息補(bǔ)充過程

對(duì)于前者，我雖然們目前在開發(fā)一套基于音頻特征識(shí)別的AI模型用于識(shí)別所使用的引擎和歌姬。不過這是一個(gè)漫長(zhǎng)的訓(xùn)練過程。所以暫時(shí)情況下這一塊兒的識(shí)別是基于NLP和Keywords的。

說到NLP，自然就是基于文本了，所以識(shí)別的邏輯大概是這樣的（實(shí)際要復(fù)雜，大概舉個(gè)例子）：

從邏輯上，就會(huì)發(fā)現(xiàn)，如果在簡(jiǎn)介或者標(biāo)題上玩一些“很新的東西”顯然是會(huì)影響到判斷的。

有沒有更好的判斷方式呢？

我們?cè)?jīng)想過，通過強(qiáng)制引擎TAG來判定。比如Utau引擎的歌姬一定是有Utau標(biāo)簽或者Utau中華組標(biāo)簽，SV引擎的歌姬一定是有SynthV或者SynthesizerV標(biāo)簽……

但是，實(shí)際測(cè)試中，VOCALOID和VOCALOID中文曲標(biāo)簽它不屬于VOCALOID了！不屬于VOCALOID了！不屬于VOCALOID了！重復(fù)三遍表達(dá)情緒！

這個(gè)分區(qū)標(biāo)簽作為最早的VU區(qū)標(biāo)簽，也是VU區(qū)在下分Tag之前的“根分區(qū)”。目前里面什么牛鬼蛇神都有。用了VOCALOID往里放，ACE的往里放，AI換聲的往里放，AISinger，Vogen什么的熱度較低的引擎的往里放，XStudio的作品也往里放……所以什么都至少加一個(gè)VOCALOID標(biāo)簽的結(jié)局就是：VOCALOID自己沒標(biāo)簽了。

然后，VOCALOID標(biāo)簽成了各種IF {ENGINE TAG} in TAGS執(zhí)行過后的ELSE選項(xiàng)（解釋給非CS的童鞋們：判斷別的標(biāo)簽不在的時(shí)候，最后剩下的留給VOCALOID）

這就導(dǎo)致了VOCALOID引擎的標(biāo)記反而混亂不堪。

而最大的影響是誰呢？Vsinger家的幾位！

星塵一般情況下SV版本的星塵被標(biāo)作星塵Infinity，所以直接識(shí)別歌姬就好。只有較少的情況是標(biāo)簽里歌姬標(biāo)簽和SV標(biāo)簽都沒有的。所以判斷相對(duì)容易，如果不是SV星塵，就當(dāng)V星塵好了。

然鵝，洛天依呢？綾呢？還有其他ACE和V雙引擎的歌姬呢？

洛天依V3+ACE你怎么識(shí)別引擎？

洛天依V3+言和ACE你怎么識(shí)別引擎？

樂正綾ACE不標(biāo)ACE只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎？

樂正綾V4只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎？

洛天依ACE上后期模擬凝萌聲線，只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎？

只寫個(gè)“南北組”簡(jiǎn)介一筆不寫，只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎？

還有未來可能會(huì)面臨的問題：

RVC聲碼器作為后期進(jìn)行聲線調(diào)制后的洛天依，只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎？

所以，規(guī)范的寫好TAG，老實(shí)的在簡(jiǎn)介或者標(biāo)題里寫清楚Vsinger是洛天依AI還是洛天依是目前準(zhǔn)確標(biāo)識(shí)曲子引擎的最有效方法。當(dāng)然，規(guī)范的寫上“引擎：ACE”，“引擎：VOCALOID”也沒問題。

混在一起，至少在有好的邊界識(shí)別方法之前，機(jī)器沒辦法做到那么精準(zhǔn)。標(biāo)志性的信息給的越多，判斷出錯(cuò)的概率越小。

當(dāng)然，通過歌姬反向確定引擎TAG也是可以的。我們目前也做了相關(guān)的綁定，但是這只是邏輯上的關(guān)聯(lián)，不敢做出強(qiáng)綁定的。至于為什么，不妨先看看這個(gè)：

說實(shí)話看到這種標(biāo)題的時(shí)候，從一個(gè)開發(fā)的角度來說，就像一個(gè)項(xiàng)目經(jīng)理看到手底下的實(shí)習(xí)生刪庫跑路之后還給你辦公桌上拉了一泡屎一樣惡心。

從歌姬反向綁定也面臨一樣的識(shí)別錯(cuò)誤問題，只是情況少點(diǎn)而已：比如Vsinger幾個(gè)還有夏雨遙。

但是夏雨遙也相對(duì)好解決，得益于SV有自己的標(biāo)簽……然而Vsinger還是什么都沒有。

看到這里，你大概也能理解為什么出錯(cuò)的絕大多數(shù)都是Vsinger的幾個(gè)了（個(gè)別其他的是因?yàn)閿?shù)據(jù)清洗時(shí)候的問題，還有就是一些奇怪的“新鮮的東西”，比如你用ACE STUDIO+RVC模擬了戰(zhàn)音Lorra，也許程序會(huì)標(biāo)注成ACE引擎，這其實(shí)并不是錯(cuò)誤，雖然后來修正了）

回過頭來，對(duì)于第二種修正模式：人工修正，則主要是審核員們的工作。

作為一個(gè)在AI相關(guān)領(lǐng)域沾了點(diǎn)皮毛的科研院所學(xué)術(shù)垃圾生產(chǎn)者，目前AI仍是是不可信任的。只適合給出建議，但是在高精度上Loss還是太高了。

而人工審核流則是數(shù)據(jù)的“最后一道防線”，刊組的審核人員每周花費(fèi)了大量時(shí)間在清洗這些數(shù)據(jù)，最高的審稿峰值是3000稿/天（這里面有2k+是各種影視營銷號(hào)，比如什么火龍果看電影啥的，還打著Vsinger創(chuàng)作激勵(lì)計(jì)劃，都是來蹭獎(jiǎng)金的）。后來各種AI孫燕姿也各種開始進(jìn)入了審核范圍。雖然后來加了識(shí)別程序去掉了絕大多數(shù)的影視營銷號(hào)和"AI周杰倫"之類的“名歌手”，但是漏網(wǎng)之魚仍然占據(jù)了審核頁的一半。

而從實(shí)際角度上講，審核的壓力大概是500稿件/天左右，有AI輔助給出審核建議。

截至2023-6-26日12時(shí)的Log，92/253代表總253稿，待核92稿

所以實(shí)際上如果AI無法正常識(shí)別，人工也不能從稿件信息里快速判斷引擎信息。那么大概率是無法靠耳朵聽出來的。

比如“一耳XXX”，“一聽就知道是XXX”這種，就目前來看大概率不現(xiàn)實(shí)，因?yàn)檫@些稿子中有5%~10%是要過耳朵的，聽多了，除非特征特別明顯的，其他的甚至故意模仿風(fēng)格的曲子，真的沒那么敏感。說句玩笑話，“刊組從來不看周刊！”，因?yàn)槊總€(gè)稿子都聽了N次了。當(dāng)然如果有人能每次都“一耳XXX”的，歡迎來當(dāng)志愿者！

目前，困難就擺在這里了。從標(biāo)簽角度上，只能說呼吁大家認(rèn)真的打好標(biāo)簽和說明信息。尤其是在意這個(gè)分類的童鞋。

而我們目前最后最后的補(bǔ)救方案就是發(fā)現(xiàn)數(shù)據(jù)錯(cuò)誤之后在后臺(tái)及時(shí)修正。而周刊信息出現(xiàn)錯(cuò)誤的反饋渠道目前有幾種：

填寫信息補(bǔ)充單（在稿件尾部有收集表）
跟成員私信：主要是GUMI、失落
評(píng)論區(qū)提出來

當(dāng)然，投錯(cuò)區(qū)了的也可以通過這個(gè)渠道提，優(yōu)先補(bǔ)錄原創(chuàng)曲。

此外就是：如果有更好的解決方法和思路，歡迎討論或者給我發(fā)消息。

標(biāo)簽：夏語遙樂正綾 Vsinger SynthesizerV ACE STUDIO 周刊虛擬歌手中文曲排行榜 VOCALOID 洛天依星塵周刊VOCALOID中文新曲榜

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response

本文作者的其他文章

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response的評(píng)論 (共條)