倍可親

回復: 0
列印 上一主題 下一主題

聽聲辨物,這是AI視覺該乾的???

[複製鏈接]
匿名
跳轉到指定樓層
樓主
匿名  發表於 2022-8-9 13:48 回帖獎勵 |倒序瀏覽 |閱讀模式
聽到「唔哩——唔哩——」的警笛聲,你可以迅速判斷出聲音來自路過的一輛急救車。能不能讓AI根據音頻信號得到發聲物完整的、精細化的掩碼圖呢?來自合肥工業大學、商湯、澳國立、北航、英偉達、港大和上海人工智慧實驗室的研究者提出了一項新的 視聽分割任務 (Audio-Visual Segmentation, AVS) 。<br />
視聽分割,就是要分割出發聲物,而後生成發聲物的精細化分割圖。相應的,研究人員提出了第一個具有像素級標註的視聽數據集 AVSBench。新任務、新的數據集,搞演演算法的又有新坑可以卷了。<br />
據最新放榜結果,該論文已被ECCV 2022接受。聽覺和視覺是人類感知世界中最重要的兩個感測器。生活里,聲音信號和視覺信號往往是互補的。<br />
視聽表徵學習 (audio-visual learning) 已經催生了很多有趣的任務,比如視聽通信 (AVC) 、視聽事件定位 (AVEL) 、視頻解析 (AVVP) 、聲源定位 (SSL) 等。<br />
這裡面既有判定音像是否描述同一事件/物體的分類任務,也有以熱力圖可視化大致定位發聲物的任務。但無論哪一種,離精細化的視聽場景理解都差點意思。<br />
視聽分割「迎難而上」,提出要準確分割出視頻幀中正在發聲的物體全貌——即以音頻為指導信號,確定分割哪個物體,並得到其完整的像素級掩
您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-7-23 00:50

快速回復 返回頂部 返回列表