当前位置: 代码迷 >> 综合 >> 4Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition
  详细解决方案

4Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition

热度:21   发布时间:2023-11-24 10:13:33.0

文章目录

  • 前言
  • 一、论文内容
  • 二、评价
  • 三、相关代码


前言

原文地址-2018年出版


一、论文内容

  • 论文提出使用GFCC特征来替代MFCC特征作为初始的训练数据输入网络进行训练
  • 下图反映了MFCC和GFFCC的生成过程在这里插入图片描述
  • 使用了mfcc特征和GFFCC特征和他们的一二介差分值作为输入特征进行训练,具体的特征组织为拼接结构,如下图所示:
    在这里插入图片描述
  • 分别使用LSTM,FCNN,LSTM+attention对数据进行进一步的特征提取,然后进行分类,获得了一个在MFCC和GFCC特征上的对比结果,证明了GFCC的特征确实比较能更好的反应出感情的信息
    在这里插入图片描述

二、评价

  • 论文里说GFCC的优势:使用GFCC的原因是因为它有更强的抗噪音表达能力, 常用在语音验证方向。
  • 从结果上来看其实和MFCC的结果相差不大,有0.0几的提高,效果不是那么明显,不过也说明了GFCC特征并不是很差劲,可以考虑使用。
  • 在录制的音频数据集中进行的实验也证明不了GFCC的抗噪识别能力,不过可以再实际的应用场景中考虑使用。

三、相关代码

  • 提取GFCC的工具库
  相关解决方案