当前位置: 代码迷 >> 综合 >> 6Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of
  详细解决方案

6Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of

热度:46   发布时间:2023-11-24 10:09:58.0

文章目录

  • 前言
  • 一、文章内容
  • 二、文章总结


前言

原文地址——2017


一、文章内容

  • 这个文章使用了注意力卷积网络)(ACNN)和多视图学习的方法,还研究了输入不通长度的音频信息( how long does the system
    need to wait to make an accurate prediction?)和不同的语音特征的情况下的实验结果,此外:Moreover, we analyze extensively performance differences between improvisedand scripted speech(IEMOCAP数据集分为即兴的和排练的两种类型

  • 文章使用的模型如下:

    • 使用音频数据的D维特征作为原始的数据((a) 26 logMel filter-banks,(b) 13 MFCCs, ? a prosody feature set, and (d) the extended Geneva minimalistic acoustic parameter set (eGeMAPS)),独立的进行归一化和标准化处理
    • 使用了长度和D相同的卷积内核进行卷积
    • 将获得的结果进行了最大池化后进行注意力提取(最大池化层有利于噪声的过滤)
    • 注意力公式如下
    • Attention(Q,K,V)=softmaxk(QKTdk)V\Large{Attention(Q, K, V) = softmax_k(\frac{QK^T}{\sqrt{d_k}}) V} Attention(Q,K,V)=softmaxk?(dk? ?QKT?)V
    • 将注意力提取后的特征输入到Softmax层
    • 再进一步进行分类,做了一个Multi-view学习
      在这里插入图片描述
  • 实验结果:
    在这里插入图片描述
    在这里插入图片描述

  • 实验结论:

    • 实验结果认为韵律特征并不能很好的表达出感情状态来,使用频谱特征就可以
    • 文章实验结果认为:识别性能在很大程度上依赖于语音数据的类型,而不依赖于输入特征的选择
    • 实验发现即兴的数据和排练数据在感情表达的位置上是十分不同的
  • 实验发现短时的音频信息也可以获取较好的识别效果

二、文章总结

  • 文章使用了注意力CNN进行特征提取,而且使用了多视角学习的方式来提高训练的精度,做了大量实验在特征选取方面和音频长度选取方面,各种实验细节描述很详细,具体看文章。
  • 文章主要在如下几个方面进行了尝试:
    • 初始特征的选择:谱特征,韵律特征
    • 数据的长度选择上:234567s的长度都试了一遍,越长效果越好
    • 数据类型的选择上:即兴演说的数据和排练的数据
    • 模型的选择:ACNN,卷积核是二维的大跨度的
    • 训练方式的选择:多视角训练
  • 模型问题:
    • 模型方面没考虑使用RNN模型,让提取的特征融合更多的上下文信息
    • 内核过大,特征提取不是很细致。
  相关解决方案