Meta利用視覺信息來優(yōu)化3D音頻模型,未來將用于AR/VR
我們知道,Meta為了給AR眼鏡打造智能助手,專門開發(fā)了第一人稱視覺模型和數(shù)據(jù)集。與此同時(shí),該公司也在探索一種將視覺和語(yǔ)音融合的AI感知方案。相比于單純的語(yǔ)音助手,同時(shí)結(jié)合視覺和聲音數(shù)據(jù)來感知環(huán)境,可進(jìn)一步增強(qiáng)智能助手的能力,比如模擬人類感知世界的方式,來理解聲音在空間的傳播方式。

Meta表示:在元宇宙社交、AR觀影等多種場(chǎng)景中,聲音都扮演了重要的角色。為了滿足沉浸式AR/VR場(chǎng)景的需求,Meta決定采用AI來實(shí)現(xiàn)高保真的音質(zhì),并與沉浸的空間逼真匹配。
為此,Meta AI科研人員和Reality Labs音頻專家、德克薩斯大學(xué)奧斯汀分??蒲腥藛T合作,開發(fā)了三個(gè)專為AR/VR打造的聲音合成AI模型:Visual Acoustic Matching Model(視聽匹配模型)、Visually-Informed Dereverberation(基于視覺信息的抗混響模型)、VisualVoice(利用視聽提示將對(duì)話和背景音區(qū)分)。它們特點(diǎn)是可對(duì)視頻中人類對(duì)話和聲音進(jìn)行視聽理解,并與3D空間定位進(jìn)行匹配,實(shí)現(xiàn)沉浸的空間音頻效果。
簡(jiǎn)單來講,這種AI模型根據(jù)外觀和聲音來理解物理環(huán)境。我們知道,聲音在不同的物理空間中聽起來也會(huì)有不同,比如在山洞里你會(huì)聽到自己說話的回聲,而在音樂廳和客廳兩種不同規(guī)模的空間中,聲音傳播效果也不相同。這是因?yàn)?,聲音傳播路徑受到空間結(jié)構(gòu)、材料和表面紋理、距離等因素影響,因此聽起來會(huì)有所不同。
一,Visual Acoustic Matching Model(視聽匹配模型)
在這個(gè)模型中輸入在任何場(chǎng)景錄制的音頻片段,以及一張目標(biāo)場(chǎng)景的圖像,便可以將錄音片段與目標(biāo)場(chǎng)景融合,音頻聽起來就像是在目標(biāo)場(chǎng)景中錄制的那樣。比如,可以將洞穴中錄制的音頻與餐廳圖像融合,輸出的語(yǔ)音聽起來就會(huì)像在餐廳中錄制的那樣。

通常在看一段視頻時(shí),如果視頻的聲音和視覺不匹配(不符合傳統(tǒng)認(rèn)知),會(huì)造成不自然的體驗(yàn),人可以輕易發(fā)現(xiàn)這種差異,并認(rèn)為視頻聲音為后期配音。
利用聲音模型,科研人員可模擬聲音在房間中傳播產(chǎn)生的脈沖,來重現(xiàn)空間的聲學(xué)效果。但這種方式需要結(jié)合空間3D網(wǎng)格,來測(cè)定空間的幾何結(jié)構(gòu)、材料屬性。在大多數(shù)情況下,這些信息并不是已知的,因此聲學(xué)模型難以實(shí)現(xiàn)。

科研人員指出,也可以根據(jù)在特定空間中捕捉的音頻,通過聲音在目標(biāo)空間中產(chǎn)生的混響,來預(yù)測(cè)聲學(xué)特性,但缺點(diǎn)是智能獲得有限的聲音信息,因此模擬效果通常不夠好。
為了解決上述問題,Meta科研人員創(chuàng)建了一個(gè)名為AViTAR的自監(jiān)督視聽匹配模型,特點(diǎn)是可通過調(diào)整音頻,來與目標(biāo)圖像中的空間匹配。AViTAR是一個(gè)交叉感知模式轉(zhuǎn)化模型,它可以通過復(fù)合模式推理,將輸入的視聽數(shù)據(jù)轉(zhuǎn)化成視覺和聽覺匹配的高保真數(shù)據(jù)。此外,AViTAR模型可利用任意網(wǎng)絡(luò)視頻,來進(jìn)行自我監(jiān)督訓(xùn)練,練習(xí)匹配聲音和圖像。

Meta為AViTAR創(chuàng)建了兩個(gè)數(shù)據(jù)集,其中一個(gè)建立在開源AI視聽平臺(tái)SoundSpaces基礎(chǔ)上,另一個(gè)數(shù)據(jù)集包含了29萬(wàn)個(gè)公開可用的英語(yǔ)對(duì)話視頻(3到10秒片段)。據(jù)悉,SoundSpaces是Meta在2020年開源的AI平臺(tái),其特點(diǎn)是建立在虛擬仿真平臺(tái)AI Habitat之上,可模擬高保真、逼真的聲源,并插入到Replica、Matterport3D等開源的真實(shí)場(chǎng)景掃描環(huán)境中。
這兩個(gè)數(shù)據(jù)集主要包含了室內(nèi)場(chǎng)景中的對(duì)話,目的是為了探索未來AI語(yǔ)音和視覺助手在室內(nèi)的應(yīng)用場(chǎng)景。細(xì)節(jié)方案,數(shù)據(jù)集中的視頻拍攝也有要求,麥克風(fēng)和攝像頭在同一個(gè)位置,并且遠(yuǎn)離聲源。
為了訓(xùn)練AI模型識(shí)別聲音和場(chǎng)景不匹配,Meta科研人員還制作了一系列音畫不匹配的隨機(jī)合成視頻,并加入噪聲。
利用這些數(shù)據(jù),科研人員驗(yàn)證了視聽匹配模型的效果,結(jié)果發(fā)現(xiàn)該模型可成功將對(duì)話與目標(biāo)圖像場(chǎng)景融合,效果比傳統(tǒng)的純音頻聲學(xué)匹配方案更好。
二,Visually-Informed Dereverberation(基于視覺信息的抗混響模型)
和上一個(gè)模型相反,Visually-Informed Dereverberation(VIDA)專注于消除混響,比如去除聲音在洞穴中傳播產(chǎn)生的回聲。該模型根據(jù)視聽提示,來優(yōu)化、篩選音頻中的混響。在熱鬧的火車站場(chǎng)景中,該模型可以提取小提琴演奏的聲音,并去除小提琴聲與火車站場(chǎng)景交互而產(chǎn)生的回響,好處是可以讓小提琴聲音聽起來更純粹。

在AR場(chǎng)景重現(xiàn)時(shí),更沉浸、純粹的聲音可以讓第一人稱觀看體驗(yàn)更加保真。
我們知道,回聲指的是聲源發(fā)出聲波并到達(dá)場(chǎng)景中各表面后反射的現(xiàn)象。將回聲、環(huán)境音、原聲等聲音混合并依次進(jìn)入人耳的過程,則被視為混響?;祉憽⒒芈曂ǔ?huì)降低音頻質(zhì)量,降低人耳感知和分辨聲音的能力。比如當(dāng)你在大課堂給老師錄音時(shí),通常也會(huì)將同學(xué)產(chǎn)生的噪音收錄進(jìn)去。這種混響也會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確性。

去除混響后,便可以增強(qiáng)聲音的重點(diǎn),幫助自然語(yǔ)言模型更好的識(shí)別對(duì)話,并生成更準(zhǔn)確的字幕。

此前,人們通常直接處理音頻來消除混響,但這并沒有考慮到環(huán)境的完整聲學(xué)特性。為了提升消混響的效果、更自然增強(qiáng)音頻,Meta科研人員提出了搭配視覺分析的方案:VIDA,也就是說利用視覺數(shù)據(jù)來輔助混響消除。

VIDA模型基于視聽數(shù)據(jù)來訓(xùn)練,可通過識(shí)別空間結(jié)構(gòu)、材質(zhì)和揚(yáng)聲器等線索,來消除混響。
三,VisualVoice(利用視聽提示將對(duì)話和背景音區(qū)分)
VisualVoice模型利用視聽提示,來區(qū)分對(duì)話和背景音,其好處是可以幫助人和AI更好的聽清對(duì)話,從而提升多人VR社交的溝通效率、實(shí)時(shí)字幕效果等等。

Meta設(shè)想了一個(gè)未來場(chǎng)景,即人們通過AR眼鏡以第一人稱視角,重溫沉浸的全息回憶,并獲得保真的視覺和聲音體驗(yàn)?;蚴窃赩R游戲中,空間音頻可進(jìn)一步增強(qiáng)沉浸感。
這個(gè)模型同時(shí)通過視聽數(shù)據(jù)來分析對(duì)話,Meta認(rèn)為,這項(xiàng)技術(shù)是改善人機(jī)感知的重要因素。
Meta指出,在復(fù)雜環(huán)境中,人類可以比AI更好的理解對(duì)話,這是因?yàn)槿瞬恢箷?huì)用耳朵聽,也會(huì)用眼睛輔助。舉個(gè)例子,當(dāng)你周圍有人說話時(shí),你可以用耳朵聽到他的聲音和聲音來源,同時(shí)也可以用眼睛來定位這個(gè)說話人的具體位置。
因此,Meta AI決定開發(fā)一個(gè)同時(shí)模擬視覺和聽覺感知的多模式對(duì)話模型,幫助AI更好的分析視覺和語(yǔ)音之間的細(xì)微關(guān)聯(lián)。即使使用未標(biāo)記的視頻,也能訓(xùn)練VisualVoice模型提取對(duì)話中的視聽信息。
未來應(yīng)用場(chǎng)景
Meta表示:利用這些智能的AI語(yǔ)音分割模型,未來虛擬助手可以隨時(shí)隨地聽到你的指令,不管是在音樂會(huì)、熱鬧的聚會(huì)還是其他環(huán)境音量大的場(chǎng)景。
接下來,若想要為AR/VR構(gòu)建更加沉浸的體驗(yàn),將需要這種多模式的AI模型,才能模擬人類感知的方式,通過音頻、視頻、文本等信號(hào)來更好的理解周圍環(huán)境。
為了繼續(xù)優(yōu)化AViTAR、VITA等模型,Meta未來將使用視頻來訓(xùn)練AI捕捉空間聲學(xué)特性。參考:fb