倍可親

回復: 0
列印 上一主題 下一主題

阿里巴巴論文提出Advanced LSTM:關於更優時間依賴性刻畫在情感識別方面的應用

[複製鏈接]

1萬

主題

2萬

帖子

3萬

積分

貝殼精神領袖

Rank: 6Rank: 6

積分
35927
跳轉到指定樓層
樓主
華盛頓人 發表於 2018-4-9 12:13 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  ICASSP 2018 | 阿里巴巴論文提出Advanced LSTM:關於更優時間依賴性刻畫在情感識別方面的應用

  2018-04-09 10:03阿里巴巴/操作系統

  作者:陶菲/Fei Tao、劉剛/Gang Liu

  論文:《高級長短期記憶網路:關於更優時間依賴性刻畫在情感識別方面的應用》(Advanced LSTM: A Study about Better Time Dependency Modeling in Emotion Recognition)

  論文地址:https://arxiv.org/pdf/1710.10197.pdf

  摘要:長短期記憶網路(LSTM)隱含了這樣一個假設,本層的現時狀態依賴於前一時刻的狀態。這種「一步」的時間依賴性,可能會限制 LSTM 對於序列信號動態特性的建模。在這篇論文里,針對這樣的一個問題,我們提出了高級長短期記憶網路(advanced LSTM (A-LSTM)),利用線性組合,將若干時間點的本層狀態都結合起來,以打破傳統 LSTM 的這種局限性。在這篇文章中,我們將 A-LSTM 應用於情感識別中。實驗結果顯示,與應用傳統 LSTM 的系統相比,應用了 A-LSTM 的系統能相對提高 5.5% 的識別率。

  研究背景

  LSTM 現在被廣泛的應用在 RNN 中。它促進了 RNN 在對序列信號建模的應用當中。LSTM 有兩個輸入,一個來源於前一層,還有一個來源於本層的前一個時刻。因此,LSTM 隱含了這樣一個假設,本層的現時狀態依賴於前一時刻的狀態。這種「一步」的時間依賴性,可能會限制 LSTM 對於序列信號動態特性的建模(尤其對一些時間依賴性在時間軸上跨度比較大的任務)。在這篇論文里,針對這樣的一個問題,我們提出了 advanced LSTM (A-LSTM),以期打破傳統 LSTM 的這種局限性。A-LSTM 利用線性組合,將若干時間點的本層狀態都結合起來,因此不僅可以看到」一步「以前的狀態,還可以看到更遠以前的歷史狀態。

  在這篇文章中,我們把 A-LSTM 應用到整句話層級(utterance level) 上的情感識別任務中。傳統的情感識別依賴於在整句話上提取底端特徵(low level deors) 的統計數據,比如平均值,方差等等。由於實際應用中,整句話中可能會有一些長靜音,或者是一些非語音的聲音,這種統計數據就可能不準確。在這篇論文中,我們使用基於注意力模型(attention model) 的加權池化 (weighted pooling) 遞歸神經網路 (recurrent neural network) 來更有效的提取整句話層級上的特徵。

  高級長短期記憶網路

  A-LSTM 利用線性組合,將若干時間點的本層狀態都結合起來。這其中的線性組合是利用與注意力模型 (attention model) 類似的機制進行計算的。具體公式如下:

  

  Fig 1 中 C'(t) 即為前面若干時間狀態的線性組合。這個線性組合以後的時間狀態將被輸入下一時間點進行更新。可以想象,每次的更新都不只是針對前一時刻,而是對若干時刻的組合進行更新。由於這種組合的權重是有注意力模型控制,A-LSTM 可以通過學習來自動調節各時間點之間的權重佔比。如果依賴性在時間跨度上比較大,則更遠以前的歷史狀態可能會佔相對大的比重;反之,比較近的歷史狀態會佔相對大的比重。

  

  Fig 1 The unrolled A-LSTM

  加權池化遞歸神經網路

  

  Fig 2 The attention based weighted pooling RNN.

  在這篇論文中,我們使用基於注意力模型的加權池化遞歸神經網路來進行情感識別(見 Fig 2)。這一神經網路的輸入是序列聲學信號。利用注意力模型,我們的神經網路可以自動調整各個時間點上的權重,然後將各個時間點上的輸出進行加權平均(加權池化)。加權平均的結果是一個能夠表徵這一整串序列的表達。由於注意力模型的存在,這一表達的提取可以包含有效信息,規避無用信息(比如輸入序列中中的一些長時間的靜音部分)。這就比簡單的計算一整個序列的統計數值要更好(比如有 opensmile 提取的一些底端特徵)。為了更好的訓練模型,我們在情感識別任務之外還添加了兩個輔助任務,說話人識別和性別識別。我們在這個模型當中使用了 A-LSTM 來提升系統性能。

  實驗

  在實驗階段,我們使用 IEMOCAP 數據集中的四類數據(高興,憤怒,悲傷和普通)。這其中一共有 4490 句語音文件。我們隨機選取 1 位男性和 1 位女性說話人的數據作為測試數據。其餘的數據用來訓練(其中的 10% 的數據用來做驗證數據)。我們採用三個衡量指標,分別為無權重平均 F-score(MAF),無權重平均精密度(MAP),以及準確率(accuracy)。

  我們提取了 MECC, 信號過零率(zero crossing rate), 能量,能量熵,頻譜矩心 (spectral centroid),頻譜流量 (spectral flux),頻譜滾邊(spectral rolloff),12 維彩度向量(chroma vector), 色度偏差 (chroma deviation), 諧波比(harmonic ratior) 以及語音基頻,一共 36 維特徵。對這些序列特徵進行整句話層級上的歸一化后,將其送入系統進行訓練或測試。

  在這個實驗中,我們的系統有兩層神經元層,第一層位全連接層(fully connected layer),共有 256 個精餾線性神經元組成(rectified linear unit)。第二層位雙向長短期記憶網路(bidirectional LSTM (BLST))。兩個方向一共有 256 個神經元。之後即為基於注意力模型的加權池化層。最上方為三個柔性最大值傳輸函數層,分別對應三個任務。我們給三個任務分配了不同的權重,其中情感識別權重為 1,說話人識別權重為 0.3,性別識別為 0.6。如果是應用 A-LSTM,我們就將第二層的 BLSTM 替換成雙向的 A-LSTM,其他的所有參數都不變。這裡的 A-LSTM 選取三個時間點的狀態作線性組合,分別為 5 個時間點前(t-5),3 個時間點前 (t-3),以及 1 個時間點前 (t-1)。實驗結果如下:

  

  其中的 mean LSTM 與 A-LSTM 比較類似,唯一區別是,當我們為選取的幾個時間點的狀態作線性組合的時候,不是採用注意力模型,而是簡單的做算術平均。

  結論

  與應用傳統 LSTM 的系統相比,應用了 A-LSTM 的系統顯示出了更好的識別率。由於加權池化過程是將所有時間點上的輸出進行加權平均,因此系統性能的提升只可能是來源於 A-LSTM 更加靈活的時間依賴性模型,而非其他因素,例如高層看到更多時間點等等。並且,這一提升的代價只會增加了數百個參數。

時代小人物. 但也有自己的思想,情感. 和道德.
您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2024-4-26 23:14

快速回復 返回頂部 返回列表