当前位置: 代码迷 >> 综合 >> 5ADIEU FEATURES? END-TO-END SPEECH EMOTION RECOGNITION USING A DEEP CONVOLUTIONAL RECURRENT NETWORK
  详细解决方案

5ADIEU FEATURES? END-TO-END SPEECH EMOTION RECOGNITION USING A DEEP CONVOLUTIONAL RECURRENT NETWORK

热度:8   发布时间:2023-11-24 10:10:16.0

文章目录

  • 前言
  • 一、文章内容
  • 二、文章评价


前言

原文地址-2016

一、文章内容

  • 文章提出了一种使用RNN和CNN联合从原始音频数据提取特征的端到端的神经网络
    • 模型输入的数据为 时间长度等于6s的原始的音频
    • 然后使用F个长度为5ms(采样率16000/200=80)的一维卷积核来进行卷积
    • 再使用M个长度为500ms(采样率16000/2=8000)的一维卷积核进行进一步的卷积操作
    • 最后得到的是一个M维的长度为某个长度(根据卷积公式计算的)的特征矩阵
    • 还进行了一个长度为20的最大池化
    • 将得到的特征输入到了LSTM网络进行进一步的特征提取
      在这里插入图片描述
  • 实验结果:
    在这里插入图片描述

二、文章评价

  • 文章novel: 把CNN和RNN结合使用到了网络中,直接使用原始的音频信号进行特征提取
  • 优势:
    • 提出了一种直接从原始信号提取特征的方法,理论上是最大程度的保证了原始音频信息的完整性,方法很好很有借鉴意义,可以冲击传统收手工的特征提取方法了。ADIEU FEATURES?
    • 端到端的模型
  • 劣势:
    • 可能由于数据量的限制会影响到特征的提取效果
    • 特征提取的网络结果可以再复杂点提取更好滴特征吧
  相关解决方案