ACM MM 2023 獲獎?wù)撐娜窒?！多媒體領(lǐng)域最新熱門方向一次看完

2023-11-17 18:05 作者:深度之眼官方賬號 0人讀過 | 我要投稿

ACM 國際多媒體會議是計算機科學領(lǐng)域中多媒體領(lǐng)域的頂級會議，屬于CCF A類。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太華舉行。

ACM MM會議專注于推動多媒體研究和應(yīng)用，其研究領(lǐng)域廣泛涉及觸覺、視頻、VR/AR、音頻、語音、音樂、傳感器和社交數(shù)據(jù)等多個新興領(lǐng)域。該會議的熱門研究方向包括大規(guī)模圖像視頻分析、社會媒體研究、多模態(tài)人機交互、計算視覺、計算圖像等等。想發(fā)paper的同學們沖起。

學姐這次幫大家整理了今年ACM MM 2023的獲獎?wù)撐?/strong>，并且做了簡單的介紹，對這個頂會感興趣的同學一定要仔細閱讀！

掃碼添加小享，回復(fù)“ACMMM”
免費領(lǐng)取全部獲獎?wù)撐募霸创a
最佳論文獎
CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation
標題：CATR:面向音視頻分割的組合依賴音頻查詢Transformer

作者：Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao

簡述：音視頻分割（AVVS）旨在生成圖像幀內(nèi)產(chǎn)生聲音的對象的像素級映射，并確保該映射準確地遵循給定的音頻?，F(xiàn)有方法存在兩個限制：1）它們分別處理視頻時間特征和音視頻交互特征，忽略了組合音頻和視頻的內(nèi)在時空依賴性；2）它們在解碼階段不充分引入音頻約束和對象級信息，導致分割結(jié)果不符合音頻指令。為了解決這些問題，本文提出了一種解耦的音視頻轉(zhuǎn)換器，從各自的時間和空間維度中結(jié)合音頻和視頻特征，捕捉它們的組合依賴性。

最佳學生論文獎
Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error
標題：Cal-SFDA:基于可微期望校準誤差的無源域自適應(yīng)語義分割

作者： Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang

簡述：本文提出了一種名為Cal-SFDA的新型標定引導的無源領(lǐng)域自適應(yīng)語義分割框架。該框架的核心思想是估計分割預(yù)測的期望校準誤差（ECE），作為模型對未標記目標領(lǐng)域的泛化能力的強指示器。反過來，估計的ECE分數(shù)有助于模型訓練和公平選擇源訓練和目標適應(yīng)階段。在源域上的模型預(yù)訓練期間，作者通過利用LogSumExp技巧并使用ECE分數(shù)來選擇最好的源檢查點來進行適應(yīng)，確保了ECE目標的可微性。

榮譽提名獎
RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection
標題：refinetad：用于時間動作檢測的無提議細化

作者：Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin

簡述：本文提出了一種無提議細化方法RefineTAD，用于時間動作檢測任務(wù)中精細邊界定位。該方法通過提出多級細化模塊和偏移聚焦策略來逐步改進預(yù)測結(jié)果，從而在三個具有挑戰(zhàn)性的數(shù)據(jù)集上顯著提高了最先進的時間動作檢測方法的性能。

掃碼添加小享，回復(fù)“ACMMM”
免費領(lǐng)取全部獲獎?wù)撐募霸创a
創(chuàng)新創(chuàng)意獎
Semantics2Hands: Transferring Hand Motion Semantics between Avatars
標題：Semantics2Hands：在化身之間傳遞手部動作語義

作者：Zijie Ye, Jia Jia, Junliang Xing

簡述：本文提出了一種名為Anatomy-based Semantic Matrix (ASM)的新穎方法，用于在多個化身之間傳輸手勢語義。該方法通過將手勢語義編碼到ASM中，并使用基于解剖學的語義重構(gòu)網(wǎng)絡(luò)（ASRN）來獲得源ASM到目標手關(guān)節(jié)旋轉(zhuǎn)的映射函數(shù)，從而實現(xiàn)精確的手勢重定向。作者在Mixamo和InterHand2.6M數(shù)據(jù)集上使用半監(jiān)督學習策略訓練了ASRN，并在域內(nèi)和跨領(lǐng)域的手勢重定向任務(wù)中進行了評估。

開源獎
Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research
標題：情感識別工具包（ERTK）：標準化情感識別研究的工具

作者：Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock

簡述：本文介紹了一種Python庫：情感識別工具包（ERTK），用于情感識別。ERTK包括處理情感數(shù)據(jù)集的腳本、特征提取器的標準接口以及使用聲明性配置文件定義實驗的框架。ERTK是模塊化和可擴展的，可以輕松地集成其他模型和處理器。當前版本的ERTK主要關(guān)注情感語音，但可以輕松擴展到其他模態(tài)，這是未來的計劃。

最佳演示獎
Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing
標題：Open-RoadAtlas：利用VLMs進行道路狀況調(diào)查和實時移動審計

作者：Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong

簡述：道路測量對于地方政府有效管理道路網(wǎng)絡(luò)至關(guān)重要，但目前的方法存在成本高、耗時且不準確的問題。本文提出了一種自動測量平臺，支持雜草、缺陷和資產(chǎn)監(jiān)控，并利用視覺語言模型提高靈活性。對于特定領(lǐng)域的類別，如路面裂縫和坑洞，該平臺通過訓練檢測器并使用VLMs來減少誤報。該系統(tǒng)通過移動應(yīng)用程序使管理人員直接參與，實現(xiàn)捕捉、上傳、實時監(jiān)控和開放詞匯檢測等功能。

掃碼添加小享，回復(fù)“ACMMM”
免費領(lǐng)取全部獲獎?wù)撐募霸创a

標簽：

我喜歡()

本文作者的其他文章

ACM MM 2023 獲獎?wù)撐娜窒?！多媒體領(lǐng)域最新熱門方向一次看完的評論 (共條)

分享到微博請遵守國家法律

深度之眼官方賬號
 發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

英國就醫(yī)：哪些情況適合去英國治療
快遞省錢攻略！人人可以省錢寄快遞！
福州初三畢業(yè)女孩子學什么專業(yè)？福州市福外技術(shù)學校
裝機模擬器2 v1.25.10中文版
醫(yī)院信息管理系統(tǒng)是什么？功能有哪些？
【萬相之王】第1067章他鄉(xiāng)遇故人
家人們看戰(zhàn)績
晚霞與你共繪浪漫.[原創(chuàng)純音]
只靠一些操盤理念和原則，就能做好交易嗎？
隨時隨地享受舒適，讓你的車車擁有像芋泥布丁一樣的感覺！

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動
農(nóng)發(fā)行河津市支行開展"挺膺擔當，強國復(fù)興"主題團日活動
年終總結(jié)2023，布局2024，挑一個目標置頂一整年！
12月20日維護結(jié)束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時尚 | 時尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報
致命公司多人聯(lián)機mod，漢化游戲下載使用安裝教學！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報錯/戰(zhàn)網(wǎng)一鍵下載注冊教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

ACM MM 2023 獲獎?wù)撐娜窒?！多媒體領(lǐng)域最新熱門方向一次看完

最佳論文獎

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

最佳學生論文獎

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error

榮譽提名獎

RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection

創(chuàng)新創(chuàng)意獎

Semantics2Hands: Transferring Hand Motion Semantics between Avatars

開源獎

Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research

最佳演示獎

Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing

本文作者的其他文章

ACM MM 2023 獲獎?wù)撐娜窒?！多媒體領(lǐng)域最新熱門方向一次看完的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

ACM MM 2023 獲獎?wù)撐娜窒?！多媒體領(lǐng)域最新熱門方向一次看完

ACM MM 2023 獲獎?wù)撐娜窒?！多媒體領(lǐng)域最新熱門方向一次看完的評論 (共條)