ACM MM 2023 獲獎?wù)撐娜窒?!多媒體領(lǐng)域最新熱門方向一次看完
ACM 國際多媒體會議是計算機科學領(lǐng)域中多媒體領(lǐng)域的頂級會議,屬于CCF A類。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太華舉行。
ACM MM會議專注于推動多媒體研究和應(yīng)用,其研究領(lǐng)域廣泛涉及觸覺、視頻、VR/AR、音頻、語音、音樂、傳感器和社交數(shù)據(jù)等多個新興領(lǐng)域。該會議的熱門研究方向包括大規(guī)模圖像視頻分析、社會媒體研究、多模態(tài)人機交互、計算視覺、計算圖像等等。想發(fā)paper的同學們沖起。
學姐這次幫大家整理了今年ACM MM 2023的獲獎?wù)撐?/strong>,并且做了簡單的介紹,對這個頂會感興趣的同學一定要仔細閱讀!
掃碼添加小享,回復(fù)“ACMMM”
免費領(lǐng)取全部獲獎?wù)撐募霸创a

最佳論文獎
CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation
標題:CATR:面向音視頻分割的組合依賴音頻查詢Transformer
作者:Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao
簡述:音視頻分割(AVVS)旨在生成圖像幀內(nèi)產(chǎn)生聲音的對象的像素級映射,并確保該映射準確地遵循給定的音頻?,F(xiàn)有方法存在兩個限制:1)它們分別處理視頻時間特征和音視頻交互特征,忽略了組合音頻和視頻的內(nèi)在時空依賴性;2)它們在解碼階段不充分引入音頻約束和對象級信息,導致分割結(jié)果不符合音頻指令。為了解決這些問題,本文提出了一種解耦的音視頻轉(zhuǎn)換器,從各自的時間和空間維度中結(jié)合音頻和視頻特征,捕捉它們的組合依賴性。

最佳學生論文獎
Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error
標題:Cal-SFDA:基于可微期望校準誤差的無源域自適應(yīng)語義分割
作者: Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang
簡述:本文提出了一種名為Cal-SFDA的新型標定引導的無源領(lǐng)域自適應(yīng)語義分割框架。該框架的核心思想是估計分割預(yù)測的期望校準誤差(ECE),作為模型對未標記目標領(lǐng)域的泛化能力的強指示器。反過來,估計的ECE分數(shù)有助于模型訓練和公平選擇源訓練和目標適應(yīng)階段。在源域上的模型預(yù)訓練期間,作者通過利用LogSumExp技巧并使用ECE分數(shù)來選擇最好的源檢查點來進行適應(yīng),確保了ECE目標的可微性。

榮譽提名獎
RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection
標題:refinetad:用于時間動作檢測的無提議細化
作者:Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin
簡述:本文提出了一種無提議細化方法RefineTAD,用于時間動作檢測任務(wù)中精細邊界定位。該方法通過提出多級細化模塊和偏移聚焦策略來逐步改進預(yù)測結(jié)果,從而在三個具有挑戰(zhàn)性的數(shù)據(jù)集上顯著提高了最先進的時間動作檢測方法的性能。

掃碼添加小享,回復(fù)“ACMMM”
免費領(lǐng)取全部獲獎?wù)撐募霸创a

創(chuàng)新創(chuàng)意獎
Semantics2Hands: Transferring Hand Motion Semantics between Avatars
標題:Semantics2Hands:在化身之間傳遞手部動作語義
作者:Zijie Ye, Jia Jia, Junliang Xing
簡述:本文提出了一種名為Anatomy-based Semantic Matrix (ASM)的新穎方法,用于在多個化身之間傳輸手勢語義。該方法通過將手勢語義編碼到ASM中,并使用基于解剖學的語義重構(gòu)網(wǎng)絡(luò)(ASRN)來獲得源ASM到目標手關(guān)節(jié)旋轉(zhuǎn)的映射函數(shù),從而實現(xiàn)精確的手勢重定向。作者在Mixamo和InterHand2.6M數(shù)據(jù)集上使用半監(jiān)督學習策略訓練了ASRN,并在域內(nèi)和跨領(lǐng)域的手勢重定向任務(wù)中進行了評估。

開源獎
Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research
標題:情感識別工具包(ERTK):標準化情感識別研究的工具
作者:Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock
簡述:本文介紹了一種Python庫:情感識別工具包(ERTK),用于情感識別。ERTK包括處理情感數(shù)據(jù)集的腳本、特征提取器的標準接口以及使用聲明性配置文件定義實驗的框架。ERTK是模塊化和可擴展的,可以輕松地集成其他模型和處理器。當前版本的ERTK主要關(guān)注情感語音,但可以輕松擴展到其他模態(tài),這是未來的計劃。

最佳演示獎
Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing
標題:Open-RoadAtlas:利用VLMs進行道路狀況調(diào)查和實時移動審計
作者:Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong
簡述:道路測量對于地方政府有效管理道路網(wǎng)絡(luò)至關(guān)重要,但目前的方法存在成本高、耗時且不準確的問題。本文提出了一種自動測量平臺,支持雜草、缺陷和資產(chǎn)監(jiān)控,并利用視覺語言模型提高靈活性。對于特定領(lǐng)域的類別,如路面裂縫和坑洞,該平臺通過訓練檢測器并使用VLMs來減少誤報。該系統(tǒng)通過移動應(yīng)用程序使管理人員直接參與,實現(xiàn)捕捉、上傳、實時監(jiān)控和開放詞匯檢測等功能。

掃碼添加小享,回復(fù)“ACMMM”
免費領(lǐng)取全部獲獎?wù)撐募霸创a
