最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

暢想一下 AI 合成歌聲技術(shù)的未來(lái)

2022-09-15 16:37 作者:陌辭寒  | 我要投稿

這幾年 AI 合成歌聲技術(shù)(下文簡(jiǎn)稱 AI 合成)發(fā)展得很迅速,我認(rèn)為在現(xiàn)在這個(gè)時(shí)間點(diǎn)(2022 年下半年),AI 合成已經(jīng)沒(méi)必要只朝著像人聲的路上繼續(xù)走了。

一是邊界遞減效應(yīng)是很恐怖的,比如從 98% 到 99% 像人聲的難度,可能遠(yuǎn)比從 90% 到 98% 像人聲難,就像用 AI 識(shí)別物體,準(zhǔn)確率提升到一定程度后就非常難提升了。如果以像人聲的標(biāo)準(zhǔn)來(lái)衡量,就會(huì)發(fā)現(xiàn) AI 合成的發(fā)展會(huì)變慢甚至停滯。(比如我們會(huì)看到這樣的討論,即使再過(guò)幾年。a:這首合成的歌真像人聲啊。b:有不少細(xì)節(jié)明顯有合成的痕跡,一耳朵就聽(tīng)出來(lái)了。)

二是像人聲并不是一個(gè)具體可靠的標(biāo)準(zhǔn),不同人的聲線以及唱歌的方式都不一樣,有些人甚至一唱歌就跑調(diào),像這樣的人聲并沒(méi)有價(jià)值。而且人聲有一些難以避免的缺點(diǎn),不然人聲后期也不至于那么麻煩,AI 合成沒(méi)必要為了像人聲把那些缺點(diǎn)也一起學(xué)去,給大家制造麻煩。

三是僅僅像人聲并沒(méi)有足夠高的競(jìng)爭(zhēng)力,就像很多人會(huì)唱歌,但能火起來(lái)或者至少能靠唱歌賺錢的歌手并不多,人都不是像人而是是人了,照樣沒(méi)有競(jìng)爭(zhēng)力。即使從降低成本的角度看,找那些沒(méi)什么名氣的小歌手成本也未必高,轉(zhuǎn)向 AI 合成未必能節(jié)省成本。如果只是在創(chuàng)作歌曲時(shí)錄制 demo,那么也并不需要很高的標(biāo)準(zhǔn),可能現(xiàn)在的技術(shù)已經(jīng)足夠了。

所以 AI 合成繼續(xù)發(fā)展的話,就要具有人聲所沒(méi)有的優(yōu)勢(shì),而且這優(yōu)勢(shì)不能只是一些特色(傳統(tǒng)的聲庫(kù)一樣有不少特色),而是有商業(yè)價(jià)值的優(yōu)勢(shì),而且僅僅成本低這一點(diǎn)肯定是不夠的。

讓 AI 合成出真人發(fā)不出來(lái)的聲音是一個(gè)方向,但“真人”是一個(gè)非常寬泛的概念,比如有些人會(huì)口技,模仿各種樂(lè)器都惟妙惟肖,如果是人類完全無(wú)法發(fā)出的聲音,那么其實(shí)是挺困難的,或者很難符合大部人的喜好。朝這個(gè)方向走,很容易又陷入傳統(tǒng)聲庫(kù)受眾小的境地。所以我認(rèn)為 AI 合成的優(yōu)勢(shì)不能只體現(xiàn)在聲音局部的特點(diǎn)上。

AI 其實(shí)并不擅長(zhǎng)處理具體的細(xì)節(jié),而更擅長(zhǎng)整體的事情,尤其是對(duì)人類來(lái)說(shuō)工作量巨大的事情。所以我認(rèn)為從這個(gè)角度想就可以找到 AI 合成的優(yōu)勢(shì)。

比如現(xiàn)在的一首歌,對(duì)我們來(lái)說(shuō)基本是固定的,雖然每個(gè)歌手的唱法會(huì)有一些差異,但還是相同的地方居多,同一個(gè)歌手唱多遍的效果就更接近了。但是 AI 合成是可以實(shí)現(xiàn)每一次唱都有明顯差異,同時(shí)我們又能聽(tīng)出來(lái)這些不同的版本有一些共同點(diǎn),就像一首歌的不同版本。這樣一首歌就不再是死的,而是活的。甚至聽(tīng)眾不再只能被動(dòng)地聽(tīng)歌,而可以通過(guò)交互來(lái)改變聽(tīng)到的內(nèi)容,同時(shí)不需要任何專業(yè)知識(shí)(比如在聽(tīng)歌時(shí)隨便感嘆幾句,或者通過(guò)表情和動(dòng)作的變化,就可以改變這首歌后邊的內(nèi)容,或者下一遍聽(tīng)到的內(nèi)容)。如果能實(shí)現(xiàn)這一點(diǎn),那么對(duì)現(xiàn)有的音樂(lè)行業(yè)可能會(huì)產(chǎn)生不小的沖擊。我稱這種歌曲為“互動(dòng)式歌曲”,而這種歌曲如果不借助 AI 的力量,制作成本是非常高昂的,基本不可實(shí)現(xiàn)。

還可以更激進(jìn)一些。即使是上邊的互動(dòng)式歌曲,聽(tīng)眾的主動(dòng)權(quán)依然是比較小的,大家依然需要去到處找自己喜歡的歌。而 AI 的發(fā)展可以改變這種流程,改變聽(tīng)眾和歌曲的這種消費(fèi)者與消費(fèi)品的關(guān)系。比如某個(gè)人今天心情比較好,想聽(tīng)開(kāi)心的歌,現(xiàn)在基本要么去聽(tīng)自己以前聽(tīng)過(guò)的開(kāi)心的歌,要么去找新的開(kāi)心的歌(比如各種軟件的分類或者推薦之類,可能找了半天才遇到一首喜歡的,到那時(shí)開(kāi)心勁早過(guò)去了)。這就像一個(gè)人今天開(kāi)心想吃頓大餐,要么點(diǎn)以前吃過(guò)的菜,要么點(diǎn)以前沒(méi)吃過(guò)卻在菜單上的菜,自由度是很低的。但 AI 可以讓他定制自己的需求,比如他很開(kāi)心地說(shuō)一些話或者做一些動(dòng)作后,AI 通過(guò)海量的數(shù)據(jù)實(shí)時(shí)生成了一首剛好符合他此刻狀態(tài)的歌,而他在聽(tīng)這首歌時(shí),依然可以繼續(xù)反饋來(lái)改變這首歌。這就像一個(gè)人想吃大餐了,直接找到他的私人廚師定做,而且吃的過(guò)程如果不滿意還可以隨時(shí)調(diào)整。

雖然現(xiàn)在看起來(lái)這些想象有些天馬行空,但從技術(shù)難度上看,未必比讓 AI 合成的歌聲非常像人聲更難,只是方向不同。而且不需要做得多么極致就可以滿足很多人的需求了,就像很多聽(tīng)眾聽(tīng)聽(tīng)流行的口水歌就滿足了,不需要多么高雅或者技術(shù)含量多么大的音樂(lè)。而實(shí)時(shí)合成那些要求并不高的為私人定制的音樂(lè),未必很難。(舉例來(lái)說(shuō),現(xiàn)在 AI 合成圖畫的技術(shù)已經(jīng)可以讓很多人驚嘆了。)

所以我認(rèn)為 AI 合成出足夠像人聲的音樂(lè)不是終點(diǎn),而是起點(diǎn)。正因?yàn)樽銐蛳袢寺暳耍赡?90% 像人聲對(duì)大部分人來(lái)說(shuō)就已經(jīng)可以接受了,喜不喜歡這首歌的原因不再和是否像人聲有關(guān),而是是否喜歡旋律、聲線、歌詞、風(fēng)格等等),才能得到大眾的支持。一旦滿足了大眾的要求,就可以往 AI 更擅長(zhǎng)的方向發(fā)展,比如為私人定制可交互的音樂(lè),或者讓對(duì)音樂(lè)相關(guān)技術(shù)不了解的人也有能力靠自己創(chuàng)作出歌曲(而不用像現(xiàn)在這樣需要找其他分工的人)等等。


暢想一下 AI 合成歌聲技術(shù)的未來(lái)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
绍兴县| 柯坪县| 积石山| 根河市| 宜州市| 庆阳市| 泰顺县| 丹凤县| 通州区| 富宁县| 水富县| 赤水市| 馆陶县| 苗栗县| 泸州市| 武邑县| 荥阳市| 兴国县| 安徽省| 扎鲁特旗| 井陉县| 湟源县| 周宁县| 南通市| 琼海市| 依兰县| 彩票| 滕州市| 湄潭县| 田东县| 廊坊市| 卓资县| SHOW| 孟村| 长宁县| 靖安县| 措美县| 治多县| 克东县| 阜城县| 蒙城县|