聽聲辨物，這是AI視覺該乾的？？？

倒序瀏覽 · 發表於 2022-8-9 13:48

聽到「唔哩——唔哩——」的警笛聲，你可以迅速判斷出聲音來自路過的一輛急救車。能不能讓AI根據音頻信號得到發聲物完整的、精細化的掩碼圖呢？來自合肥工業大學、商湯、澳國立、北航、英偉達、港大和上海人工智慧實驗室的研究者提出了一項新的視聽分割任務（Audio-Visual Segmentation, AVS) 。 
視聽分割，就是要分割出發聲物，而後生成發聲物的精細化分割圖。相應的，研究人員提出了第一個具有像素級標註的視聽數據集 AVSBench。新任務、新的數據集，搞演算法的又有新坑可以卷了。 
據最新放榜結果，該論文已被ECCV 2022接受。聽覺和視覺是人類感知世界中最重要的兩個感測器。生活里，聲音信號和視覺信號往往是互補的。 
視聽表徵學習（audio-visual learning）已經催生了很多有趣的任務，比如視聽通信（AVC）、視聽事件定位（AVEL）、視頻解析（AVVP）、聲源定位（SSL）等。 
這裡面既有判定音像是否描述同一事件/物體的分類任務，也有以熱力圖可視化大致定位發聲物的任務。但無論哪一種，離精細化的視聽場景理解都差點意思。 
視聽分割「迎難而上」，提出要準確分割出視頻幀中正在發聲的物體全貌——即以音頻為指導信號，確定分割哪個物體，並得到其完整的像素級掩

聽聲辨物，這是AI視覺該乾的？？？

瀏覽過的版塊