關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response
首先,這是周刊改版后的一個(gè)老聲常談的問題了:引擎和歌姬標(biāo)簽錯(cuò)誤問題。
從中文虛擬歌手中文曲排行榜的角度看,作為一個(gè)不區(qū)分引擎的“全榜單”來說引擎的標(biāo)簽問題干擾的可能只是引擎小榜標(biāo)記問題,目前的策略一般是被提出之后進(jìn)行標(biāo)記修正,確保后續(xù)小榜排名正常。
但是從周刊VOCALOID中文新曲榜的角度來說,問題可能就大了:VOCALOID引擎如果標(biāo)記多了或者少了,曲子就完整的Miss掉了,比如這位:

同樣的,歌姬標(biāo)簽的問題也一樣存在:

所以,引擎和歌姬標(biāo)簽錯(cuò)誤的問題,刊組其實(shí)一直是在想辦法解決的。但是效果就目前來看,并不是很理想。
不過,寫這些并不是為了說這個(gè)問題有多嚴(yán)重,而是探討一下解決的方案。
在討論手段之前,首先插一段說說目前刊組數(shù)據(jù)形成過程:
整體流程如下圖所示:

從流程圖上能夠看出來,整個(gè)過程能夠處理和修正引擎和歌姬錯(cuò)誤的環(huán)節(jié),主要是2個(gè):
AI換聲排除環(huán)節(jié)之后的標(biāo)記過程
收錄的人工核定和信息補(bǔ)充過程
對(duì)于前者,我雖然們目前在開發(fā)一套基于音頻特征識(shí)別的AI模型用于識(shí)別所使用的引擎和歌姬。不過這是一個(gè)漫長(zhǎng)的訓(xùn)練過程。所以暫時(shí)情況下這一塊兒的識(shí)別是基于NLP和Keywords的。
說到NLP,自然就是基于文本了,所以識(shí)別的邏輯大概是這樣的(實(shí)際要復(fù)雜,大概舉個(gè)例子):

從邏輯上,就會(huì)發(fā)現(xiàn),如果在簡(jiǎn)介或者標(biāo)題上玩一些“很新的東西”顯然是會(huì)影響到判斷的。
有沒有更好的判斷方式呢?
我們?cè)?jīng)想過,通過強(qiáng)制引擎TAG來判定。比如Utau引擎的歌姬一定是有Utau標(biāo)簽或者Utau中華組標(biāo)簽,SV引擎的歌姬一定是有SynthV或者SynthesizerV標(biāo)簽……
但是,實(shí)際測(cè)試中,VOCALOID和VOCALOID中文曲標(biāo)簽它不屬于VOCALOID了!不屬于VOCALOID了!不屬于VOCALOID了!重復(fù)三遍表達(dá)情緒!
這個(gè)分區(qū)標(biāo)簽作為最早的VU區(qū)標(biāo)簽,也是VU區(qū)在下分Tag之前的“根分區(qū)”。目前里面什么牛鬼蛇神都有。用了VOCALOID往里放,ACE的往里放,AI換聲的往里放,AISinger,Vogen什么的熱度較低的引擎的往里放,XStudio的作品也往里放……所以什么都至少加一個(gè)VOCALOID標(biāo)簽的結(jié)局就是:VOCALOID自己沒標(biāo)簽了。
然后,VOCALOID標(biāo)簽成了各種IF {ENGINE TAG} in TAGS執(zhí)行過后的ELSE選項(xiàng)(解釋給非CS的童鞋們:判斷別的標(biāo)簽不在的時(shí)候,最后剩下的留給VOCALOID)
這就導(dǎo)致了VOCALOID引擎的標(biāo)記反而混亂不堪。
而最大的影響是誰呢?Vsinger家的幾位!
星塵一般情況下SV版本的星塵被標(biāo)作星塵Infinity,所以直接識(shí)別歌姬就好。只有較少的情況是標(biāo)簽里歌姬標(biāo)簽和SV標(biāo)簽都沒有的。所以判斷相對(duì)容易,如果不是SV星塵,就當(dāng)V星塵好了。
然鵝,洛天依呢?綾呢?還有其他ACE和V雙引擎的歌姬呢?
洛天依V3+ACE你怎么識(shí)別引擎?
洛天依V3+言和ACE你怎么識(shí)別引擎?
樂正綾ACE不標(biāo)ACE只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?
樂正綾V4只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?
洛天依ACE上后期模擬凝萌聲線,只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?
只寫個(gè)“南北組”簡(jiǎn)介一筆不寫,只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?
還有未來可能會(huì)面臨的問題:
RVC聲碼器作為后期進(jìn)行聲線調(diào)制后的洛天依,只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?
所以,規(guī)范的寫好TAG,老實(shí)的在簡(jiǎn)介或者標(biāo)題里寫清楚Vsinger是洛天依AI還是洛天依是目前準(zhǔn)確標(biāo)識(shí)曲子引擎的最有效方法。當(dāng)然,規(guī)范的寫上“引擎:ACE”,“引擎:VOCALOID”也沒問題。
混在一起,至少在有好的邊界識(shí)別方法之前,機(jī)器沒辦法做到那么精準(zhǔn)。標(biāo)志性的信息給的越多,判斷出錯(cuò)的概率越小。
當(dāng)然,通過歌姬反向確定引擎TAG也是可以的。我們目前也做了相關(guān)的綁定,但是這只是邏輯上的關(guān)聯(lián),不敢做出強(qiáng)綁定的。至于為什么,不妨先看看這個(gè):

說實(shí)話看到這種標(biāo)題的時(shí)候,從一個(gè)開發(fā)的角度來說,就像一個(gè)項(xiàng)目經(jīng)理看到手底下的實(shí)習(xí)生刪庫跑路之后還給你辦公桌上拉了一泡屎一樣惡心。
從歌姬反向綁定也面臨一樣的識(shí)別錯(cuò)誤問題,只是情況少點(diǎn)而已:比如Vsinger幾個(gè)還有夏雨遙。
但是夏雨遙也相對(duì)好解決,得益于SV有自己的標(biāo)簽……然而Vsinger還是什么都沒有。
看到這里,你大概也能理解為什么出錯(cuò)的絕大多數(shù)都是Vsinger的幾個(gè)了(個(gè)別其他的是因?yàn)閿?shù)據(jù)清洗時(shí)候的問題,還有就是一些奇怪的“新鮮的東西”,比如你用ACE STUDIO+RVC模擬了戰(zhàn)音Lorra,也許程序會(huì)標(biāo)注成ACE引擎,這其實(shí)并不是錯(cuò)誤,雖然后來修正了)
回過頭來,對(duì)于第二種修正模式:人工修正,則主要是審核員們的工作。
作為一個(gè)在AI相關(guān)領(lǐng)域沾了點(diǎn)皮毛的科研院所學(xué)術(shù)垃圾生產(chǎn)者,目前AI仍是是不可信任的。只適合給出建議,但是在高精度上Loss還是太高了。
而人工審核流則是數(shù)據(jù)的“最后一道防線”,刊組的審核人員每周花費(fèi)了大量時(shí)間在清洗這些數(shù)據(jù),最高的審稿峰值是3000稿/天(這里面有2k+是各種影視營銷號(hào),比如什么火龍果看電影啥的,還打著Vsinger創(chuàng)作激勵(lì)計(jì)劃,都是來蹭獎(jiǎng)金的)。后來各種AI孫燕姿也各種開始進(jìn)入了審核范圍。雖然后來加了識(shí)別程序去掉了絕大多數(shù)的影視營銷號(hào)和"AI周杰倫"之類的“名歌手”,但是漏網(wǎng)之魚仍然占據(jù)了審核頁的一半。

而從實(shí)際角度上講,審核的壓力大概是500稿件/天左右,有AI輔助給出審核建議。

所以實(shí)際上如果AI無法正常識(shí)別,人工也不能從稿件信息里快速判斷引擎信息。那么大概率是無法靠耳朵聽出來的。
比如“一耳XXX”,“一聽就知道是XXX”這種,就目前來看大概率不現(xiàn)實(shí),因?yàn)檫@些稿子中有5%~10%是要過耳朵的,聽多了,除非特征特別明顯的,其他的甚至故意模仿風(fēng)格的曲子,真的沒那么敏感。說句玩笑話,“刊組從來不看周刊!”,因?yàn)槊總€(gè)稿子都聽了N次了。當(dāng)然如果有人能每次都“一耳XXX”的,歡迎來當(dāng)志愿者!
目前,困難就擺在這里了。從標(biāo)簽角度上,只能說呼吁大家認(rèn)真的打好標(biāo)簽和說明信息。尤其是在意這個(gè)分類的童鞋。
而我們目前最后最后的補(bǔ)救方案就是發(fā)現(xiàn)數(shù)據(jù)錯(cuò)誤之后在后臺(tái)及時(shí)修正。而周刊信息出現(xiàn)錯(cuò)誤的反饋渠道目前有幾種:
填寫信息補(bǔ)充單(在稿件尾部有收集表)
跟成員私信:主要是GUMI、失落
評(píng)論區(qū)提出來
當(dāng)然,投錯(cuò)區(qū)了的也可以通過這個(gè)渠道提,優(yōu)先補(bǔ)錄原創(chuàng)曲。
此外就是:如果有更好的解決方法和思路,歡迎討論或者給我發(fā)消息。