整個人都傻了,我讓AI聽完周杰倫的歌,它把歌里的故事畫了出來

AI奇點網(wǎng)丨AI資訊丨AI工具推薦丨AI教程
提供1000+款AI工具丨AIEVA.CN丨歡迎訪問
AI奇點網(wǎng)-AI工具特刊丨8月28日
公眾號菜單欄點擊「干貨在這」,免費領取海量AI繪圖深度教程

2023年AIGC的浪潮奔涌而來,讓每一位與EVA同行、先知先行的家人們,見識到了每一朵AI浪花的無限可能。
生成式AI目前比較常見的形態(tài)有「文生文」「文生圖」「文生視頻」等等,或者經(jīng)由多媒體逆向轉(zhuǎn)換回文本輸出。
最近百度、微軟、谷歌等人工智能大廠陸續(xù)開放了圖片上傳讓AI進行認知判讀的能力,「圖生文」已經(jīng)不稀罕。但是有一種多模態(tài)的玩法,你敢想嗎——讓AI“聽懂”人類音樂,由「音樂生成文本和圖片」會是什么樣?

??“能不能給我一首歌的時間”,慢慢將它變成一幅畫卷。
音樂無國界,音樂的魅力,就是讓任何人聆聽后都能隨之腦補一段虛空影像,每個人都能對這首歌產(chǎn)生獨特理解。
那么,由人類訓練出來的AI能“聽懂”歌曲么?
最近,一個名叫「Music To Image」的AI應用出現(xiàn)在Hugging Face大模型社區(qū),直接飆升本周熱門,「音樂生成圖片」的玩法首次被全面激發(fā)。

玩法也十分簡單,只需在頁面上拖拽或者上傳一段音頻文件,支持MP3/WAV等常見音頻格式(EVA個人推薦不要太長,容易拉長推理時長)。
在圖中左下角粘貼YouTube的視頻地址,點擊「Load YT song」,AI應用平臺還能自動提取在線音頻。

那么AI“腦中”的歌曲會長出怎樣的畫面呢?
王心凌《當你》:能理解節(jié)奏夾帶的情緒
這么有意思的AIGC應用平臺,自然要好好調(diào)戲!

EVA嘗試上傳了一段王心凌的《當你》副歌高潮部分,AI允許用戶選擇是否需要識別“歌詞”(Lyrics)。我勾選了“Yes”,然后便是——

很驚訝,它竟然能夠準確研讀出中文…

當你的眼睛瞇著笑,當你喝可樂當你吵。
我想對你好,你從來不知道。
想你想你,也能成為嗜好。
AI嘗試“理解了”這首歌的副歌部分,并且以文本的形式表達了它對這首歌的理解:
該圖像描繪了在一個溫暖的夏夜,一群青少年聚集在篝火旁。他們都在笑著,空氣中彌漫著一種懷舊和渴望的感覺。女歌手坐在一根圓木上,彈著原聲吉他,用心歌唱。
電吉他和低音吉他在背景中清晰可見,為場景增添了深度和能量。音樂的節(jié)奏體現(xiàn)在樹木在風中輕輕搖曳,閃爍的篝火營造出溫暖舒適的光芒。當音樂達到高潮時,大家自發(fā)地爆發(fā)出歡呼聲和掌聲,他們的臉上洋溢著喜悅和聯(lián)系。
“女歌手”指的是王心凌的音色,一群年輕人圍著篝火彈吉他,訴說著懷念與渴望的愛情,這個畫面也太吻合這首歌的畫面幻想了。
然后根據(jù)這段AI「音樂生成文本」的“理解”,AI會直接調(diào)用AI繪畫工具Stable Diffusion的API接口,進行下一步的「文生圖」動作。??
AI幫我們畫出了這樣一幅《當你》的畫面??——

不知道為什么,看到這一幕,EVA竟然有點感動??。
伯牙子期的高山流水遇知音的故事,大概也莫過于此了吧!
完全不一樣的是,知音竟然不是人類!
但話說回來,Stable Diffusion生成的人像臉龐和手指依然崩壞。
林俊杰《江南》:悲春傷秋的殉道者
繼續(xù)!接下來,換成一位男歌手吧!

EVA往AI平臺上傳了家人們耳熟能詳?shù)牧挚〗芙?jīng)典歌曲《江南》的副歌部分,長度為34秒。

同樣的上傳MP3文件動作,然后點擊「Generate Image from Music」。生成的時間根據(jù)云端服務器的隊列情況與音頻文件的長度而定,通常30秒的音頻生成大約在2分鐘左右。
AI生成的“理解”文案是——
該圖像描繪了一對夫婦在秋高氣爽的日子里站在山坡上俯瞰寧靜的湖泊。男歌手背對著鏡頭,帶著沉思的表情看著窗外的風景。他的愛人就站在他身邊,雙手摟著他的腰,抬起頭迎上他的目光。兩人都穿著簡單而優(yōu)雅的衣服,微風拂過頭發(fā)。頭頂?shù)奶炜帐巧钏{色的,飄散著幾朵蓬松的云彩。隨著歌曲的進行,夫妻倆開始翩翩起舞,動作流暢優(yōu)美,仿佛被微風吹拂一般。氣氛充滿浪漫和渴望,空氣中彌漫著懷舊和心碎的感覺。該圖像捕捉了歌曲情感的精髓,重點關注這對夫婦的情感旅程和他們周圍自然世界的美麗。
不強求對歌曲的畫面認知與中國風的曲風理解,單純從這段文字來看,首先“男歌手”的判斷是對的,也抓到了歌曲里邊包含的那種失戀、殉情與悲傷的基調(diào)。
AI生成對應副歌部分的畫面是——

AI“腦補”的殉情畫面,是相約投湖自盡么???——“不懂愛恨情愁煎熬的我們,都以為相愛就像風云的善變”。
Emmm…你竟然也不能說AI的“理解”偏差得很離譜,因為秋意濃往往與悲春傷秋聯(lián)系在一起。
周杰倫《楓》:意境理解完美!
既然已經(jīng)觸及了秋天??,咱們再換一首周杰倫膾炙人口的《楓》考驗一下AI。

AI生成的“理解”文案是——
該圖像描繪了一對夫婦站在懸崖上俯瞰廣闊的秋季景觀。夕陽西下,給整個場景鍍上一層溫暖的橙色光芒。男歌手背對著觀眾站立,雙臂向兩側(cè)伸展,全心全意地唱歌。他的頭發(fā)被微風吹到腦后,他的雙眼緊閉,專注地專注著。在他身后,可以看到女歌手,她的臉背向觀眾,閉著眼睛沉思。
在背景中可以看到電吉他和低音吉他,它們的琴弦隨著音樂而振動。遠處隱隱約約傳來鼓聲,給場景增添了深度和節(jié)奏。當這對夫婦站在懸崖上時,氣氛是一種情感渴望,沉浸在自己的思緒和回憶中。風輕輕地帶著秋天的氣息,給畫面增添了一絲懷舊和憂郁的感覺。
當音樂達到高潮時,夫妻倆轉(zhuǎn)身面對面,眼神深邃而充滿激情。畫面漸漸變黑,空氣中回蕩著兩人齊聲跳動的心跳聲。
盡管不懂AI是怎么“聽出兩位歌手”,但AI完整地“理解了”周董歌詞當中的悲情色彩,整個描述提示詞也是非常有畫面感。EVA愿意給AI打上9分,扣一分怕它驕傲!
只要歌詞與曲調(diào)理解對了,生成的畫面基本不會偏離太大。

漫山遍野的紅葉,與落日構(gòu)成了深情的畫卷。
EVA今年也是頭一回聽說「音生圖」,這種玩法真的太有意思了。未來還會有什么新鮮事兒,我已經(jīng)好奇心免疫了
「音生圖」背后的神秘獨角獸
給「Music To Image」大模型做算力背書的“獨角獸企業(yè)”正是Hugging Face。

這家平臺公司致力于成為AI機器學習領域的GitHub,通過創(chuàng)建一個開放開源的機器學習模型社區(qū),讓全球AI開發(fā)者免費使用,將最前沿的技術通過開放平臺進行普惠化。
8月8日,英偉達宣布與Hugging Face達成戰(zhàn)略合作關系,作為AI算力界的領頭羊,英偉達看中的正是Hugging Face開源社區(qū)存在的多樣性與潛力值。

資本大佬的高度認可離不開Hugging Face過硬的商業(yè)邏輯。
首先,Hugging Face降低了開發(fā)者的訓練成本,允許開發(fā)者將諸如「音生圖」這種AI能力直接集成到自己的應用產(chǎn)品中,完全省去了訓練環(huán)節(jié)。
其次,Hugging Face社區(qū)上目前已經(jīng)匯集超過12萬個大模型,數(shù)量和質(zhì)量還在不斷提升。

最后,類似于GitHub社區(qū)的免費開源模式,Hugging Face不斷吸引來自世界各地的開發(fā)者云集。
如何獲得「音生圖」AI應用程序?
「Music To Image」是一款AI音頻生成圖片的多模態(tài)轉(zhuǎn)換工具,它的本質(zhì)生成邏輯是音頻→文本提示詞→圖像。
想必相信看到這里的家人朋友們已經(jīng)躍躍欲試,想拿自己喜歡的歌曲來考驗AI了。??
只需關注本站公眾號,發(fā)送私信“音生圖”即可獲取體驗入口。
重復一遍!是私信回復:音生圖
【本文來自丨AI奇點網(wǎng)丨全網(wǎng)賬號同名丨歡迎搜索關注】
AI奇點網(wǎng)丨提供1000+款AI效率工具丨AIEVA.CN丨歡迎訪問