文章目录
- 前言
- 一、论文内容
- 二、评价
- 三、相关代码
前言
原文地址-2018年出版
一、论文内容
- 论文提出使用GFCC特征来替代MFCC特征作为初始的训练数据输入网络进行训练
- 下图反映了MFCC和GFFCC的生成过程
- 使用了mfcc特征和GFFCC特征和他们的一二介差分值作为输入特征进行训练,具体的特征组织为拼接结构,如下图所示:
- 分别使用LSTM,FCNN,LSTM+attention对数据进行进一步的特征提取,然后进行分类,获得了一个在MFCC和GFCC特征上的对比结果,证明了GFCC的特征确实比较能更好的反应出感情的信息
二、评价
- 论文里说GFCC的优势:使用GFCC的原因是因为它有更强的抗噪音表达能力, 常用在语音验证方向。
- 从结果上来看其实和MFCC的结果相差不大,有0.0几的提高,效果不是那么明显,不过也说明了GFCC特征并不是很差劲,可以考虑使用。
- 在录制的音频数据集中进行的实验也证明不了GFCC的抗噪识别能力,不过可以再实际的应用场景中考虑使用。
三、相关代码
- 提取GFCC的工具库