最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response

2023-06-26 16:55 作者:星璇の天空  | 我要投稿

首先,這是周刊改版后的一個(gè)老聲常談的問題了:引擎和歌姬標(biāo)簽錯(cuò)誤問題。

從中文虛擬歌手中文曲排行榜的角度看,作為一個(gè)不區(qū)分引擎的“全榜單”來說引擎的標(biāo)簽問題干擾的可能只是引擎小榜標(biāo)記問題,目前的策略一般是被提出之后進(jìn)行標(biāo)記修正,確保后續(xù)小榜排名正常。

但是從周刊VOCALOID中文新曲榜的角度來說,問題可能就大了:VOCALOID引擎如果標(biāo)記多了或者少了,曲子就完整的Miss掉了,比如這位:

V 2 ACE

同樣的,歌姬標(biāo)簽的問題也一樣存在:

這曲子其實(shí)是言feat洛的

所以,引擎和歌姬標(biāo)簽錯(cuò)誤的問題,刊組其實(shí)一直是在想辦法解決的。但是效果就目前來看,并不是很理想。

不過,寫這些并不是為了說這個(gè)問題有多嚴(yán)重,而是探討一下解決的方案。

在討論手段之前,首先插一段說說目前刊組數(shù)據(jù)形成過程:

整體流程如下圖所示:

整個(gè)榜單審核過程的流程圖

從流程圖上能夠看出來,整個(gè)過程能夠處理和修正引擎和歌姬錯(cuò)誤的環(huán)節(jié),主要是2個(gè):

  1. AI換聲排除環(huán)節(jié)之后的標(biāo)記過程

  2. 收錄的人工核定和信息補(bǔ)充過程

對(duì)于前者,我雖然們目前在開發(fā)一套基于音頻特征識(shí)別的AI模型用于識(shí)別所使用的引擎和歌姬。不過這是一個(gè)漫長(zhǎng)的訓(xùn)練過程。所以暫時(shí)情況下這一塊兒的識(shí)別是基于NLP和Keywords的。

說到NLP,自然就是基于文本了,所以識(shí)別的邏輯大概是這樣的(實(shí)際要復(fù)雜,大概舉個(gè)例子):

判斷邏輯

從邏輯上,就會(huì)發(fā)現(xiàn),如果在簡(jiǎn)介或者標(biāo)題上玩一些“很新的東西”顯然是會(huì)影響到判斷的。

有沒有更好的判斷方式呢?

我們?cè)?jīng)想過,通過強(qiáng)制引擎TAG來判定。比如Utau引擎的歌姬一定是有Utau標(biāo)簽或者Utau中華組標(biāo)簽,SV引擎的歌姬一定是有SynthV或者SynthesizerV標(biāo)簽……

但是,實(shí)際測(cè)試中,VOCALOID和VOCALOID中文曲標(biāo)簽它不屬于VOCALOID了!不屬于VOCALOID了!不屬于VOCALOID了!重復(fù)三遍表達(dá)情緒!

這個(gè)分區(qū)標(biāo)簽作為最早的VU區(qū)標(biāo)簽,也是VU區(qū)在下分Tag之前的“根分區(qū)”。目前里面什么牛鬼蛇神都有。用了VOCALOID往里放,ACE的往里放,AI換聲的往里放,AISinger,Vogen什么的熱度較低的引擎的往里放,XStudio的作品也往里放……所以什么都至少加一個(gè)VOCALOID標(biāo)簽的結(jié)局就是:VOCALOID自己沒標(biāo)簽了。

然后,VOCALOID標(biāo)簽成了各種IF {ENGINE TAG} in TAGS執(zhí)行過后的ELSE選項(xiàng)(解釋給非CS的童鞋們:判斷別的標(biāo)簽不在的時(shí)候,最后剩下的留給VOCALOID)

這就導(dǎo)致了VOCALOID引擎的標(biāo)記反而混亂不堪。

而最大的影響是誰呢?Vsinger家的幾位!

星塵一般情況下SV版本的星塵被標(biāo)作星塵Infinity,所以直接識(shí)別歌姬就好。只有較少的情況是標(biāo)簽里歌姬標(biāo)簽和SV標(biāo)簽都沒有的。所以判斷相對(duì)容易,如果不是SV星塵,就當(dāng)V星塵好了。

然鵝,洛天依呢?綾呢?還有其他ACE和V雙引擎的歌姬呢?

洛天依V3+ACE你怎么識(shí)別引擎?

洛天依V3+言和ACE你怎么識(shí)別引擎?

樂正綾ACE不標(biāo)ACE只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?

樂正綾V4只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?

洛天依ACE上后期模擬凝萌聲線,只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?

只寫個(gè)“南北組”簡(jiǎn)介一筆不寫,只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?

還有未來可能會(huì)面臨的問題:

RVC聲碼器作為后期進(jìn)行聲線調(diào)制后的洛天依,只標(biāo)VOCALOID標(biāo)簽?zāi)阍趺醋R(shí)別引擎?

所以,規(guī)范的寫好TAG,老實(shí)的在簡(jiǎn)介或者標(biāo)題里寫清楚Vsinger是洛天依AI還是洛天依是目前準(zhǔn)確標(biāo)識(shí)曲子引擎的最有效方法。當(dāng)然,規(guī)范的寫上“引擎:ACE”,“引擎:VOCALOID”也沒問題。

混在一起,至少在有好的邊界識(shí)別方法之前,機(jī)器沒辦法做到那么精準(zhǔn)。標(biāo)志性的信息給的越多,判斷出錯(cuò)的概率越小。

當(dāng)然,通過歌姬反向確定引擎TAG也是可以的。我們目前也做了相關(guān)的綁定,但是這只是邏輯上的關(guān)聯(lián),不敢做出強(qiáng)綁定的。至于為什么,不妨先看看這個(gè):

南宮綾_Slv的投稿,BVid:BV1td4y157oU

說實(shí)話看到這種標(biāo)題的時(shí)候,從一個(gè)開發(fā)的角度來說,就像一個(gè)項(xiàng)目經(jīng)理看到手底下的實(shí)習(xí)生刪庫跑路之后還給你辦公桌上拉了一泡屎一樣惡心。

從歌姬反向綁定也面臨一樣的識(shí)別錯(cuò)誤問題,只是情況少點(diǎn)而已:比如Vsinger幾個(gè)還有夏雨遙。

但是夏雨遙也相對(duì)好解決,得益于SV有自己的標(biāo)簽……然而Vsinger還是什么都沒有。

看到這里,你大概也能理解為什么出錯(cuò)的絕大多數(shù)都是Vsinger的幾個(gè)了(個(gè)別其他的是因?yàn)閿?shù)據(jù)清洗時(shí)候的問題,還有就是一些奇怪的“新鮮的東西”,比如你用ACE STUDIO+RVC模擬了戰(zhàn)音Lorra,也許程序會(huì)標(biāo)注成ACE引擎,這其實(shí)并不是錯(cuò)誤,雖然后來修正了)


回過頭來,對(duì)于第二種修正模式:人工修正,則主要是審核員們的工作。

作為一個(gè)在AI相關(guān)領(lǐng)域沾了點(diǎn)皮毛的科研院所學(xué)術(shù)垃圾生產(chǎn)者,目前AI仍是是不可信任的。只適合給出建議,但是在高精度上Loss還是太高了。

而人工審核流則是數(shù)據(jù)的“最后一道防線”,刊組的審核人員每周花費(fèi)了大量時(shí)間在清洗這些數(shù)據(jù),最高的審稿峰值是3000稿/天(這里面有2k+是各種影視營銷號(hào),比如什么火龍果看電影啥的,還打著Vsinger創(chuàng)作激勵(lì)計(jì)劃,都是來蹭獎(jiǎng)金的)。后來各種AI孫燕姿也各種開始進(jìn)入了審核范圍。雖然后來加了識(shí)別程序去掉了絕大多數(shù)的影視營銷號(hào)和"AI周杰倫"之類的“名歌手”,但是漏網(wǎng)之魚仍然占據(jù)了審核頁的一半。

各種稀奇古怪的AI

而從實(shí)際角度上講,審核的壓力大概是500稿件/天左右,有AI輔助給出審核建議。

截至2023-6-26日12時(shí)的Log,92/253代表總253稿,待核92稿

所以實(shí)際上如果AI無法正常識(shí)別,人工也不能從稿件信息里快速判斷引擎信息。那么大概率是無法靠耳朵聽出來的。

比如“一耳XXX”,“一聽就知道是XXX”這種,就目前來看大概率不現(xiàn)實(shí),因?yàn)檫@些稿子中有5%~10%是要過耳朵的,聽多了,除非特征特別明顯的,其他的甚至故意模仿風(fēng)格的曲子,真的沒那么敏感。說句玩笑話,“刊組從來不看周刊!”,因?yàn)槊總€(gè)稿子都聽了N次了。當(dāng)然如果有人能每次都“一耳XXX”的,歡迎來當(dāng)志愿者!

目前,困難就擺在這里了。從標(biāo)簽角度上,只能說呼吁大家認(rèn)真的打好標(biāo)簽和說明信息。尤其是在意這個(gè)分類的童鞋。

而我們目前最后最后的補(bǔ)救方案就是發(fā)現(xiàn)數(shù)據(jù)錯(cuò)誤之后在后臺(tái)及時(shí)修正。而周刊信息出現(xiàn)錯(cuò)誤的反饋渠道目前有幾種:

  1. 填寫信息補(bǔ)充單(在稿件尾部有收集表)

  2. 跟成員私信:主要是GUMI、失落

  3. 評(píng)論區(qū)提出來

當(dāng)然,投錯(cuò)區(qū)了的也可以通過這個(gè)渠道提,優(yōu)先補(bǔ)錄原創(chuàng)曲。

此外就是:如果有更好的解決方法和思路,歡迎討論或者給我發(fā)消息。


關(guān)于中文虛擬歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎記錄問題的Response的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
峨边| 涡阳县| 镇江市| 安义县| 松阳县| 巴彦淖尔市| 哈尔滨市| 承德县| 屯留县| 元朗区| 扎赉特旗| 五原县| 南京市| 龙陵县| 普陀区| 娄底市| 祁阳县| 大姚县| 巴南区| 临朐县| 吉水县| 南岸区| 临泉县| 吐鲁番市| 德格县| 灵石县| 昔阳县| 淮滨县| 五原县| 丹巴县| 广州市| 松潘县| 洞头县| 重庆市| 武威市| 久治县| 铜陵市| 淮北市| 基隆市| 库伦旗| 安陆市|