文章目录
- 前言
- 一、文章内容
- 二、文章总结
前言
原文地址——2017
一、文章内容
-
这个文章使用了注意力卷积网络)(ACNN)和多视图学习的方法,还研究了输入不通长度的音频信息( how long does the system
need to wait to make an accurate prediction?)和不同的语音特征的情况下的实验结果,此外:Moreover, we analyze extensively performance differences between improvisedand scripted speech(IEMOCAP数据集分为即兴的和排练的两种类型
) -
文章使用的模型如下:
- 使用音频数据的D维特征作为原始的数据((a) 26 logMel filter-banks,(b) 13 MFCCs, ? a prosody feature set, and (d) the extended Geneva minimalistic acoustic parameter set (eGeMAPS)),独立的进行归一化和标准化处理
- 使用了长度和D相同的卷积内核进行卷积
- 将获得的结果进行了最大池化后进行注意力提取(最大池化层有利于噪声的过滤)
- 注意力公式如下
- Attention(Q,K,V)=softmaxk(QKTdk)V\Large{Attention(Q, K, V) = softmax_k(\frac{QK^T}{\sqrt{d_k}}) V} Attention(Q,K,V)=softmaxk?(dk??QKT?)V
- 将注意力提取后的特征输入到Softmax层
- 再进一步进行分类,做了一个Multi-view学习
-
实验结果:
-
实验结论:
- 实验结果认为韵律特征并不能很好的表达出感情状态来,使用频谱特征就可以
- 文章实验结果认为:识别性能在很大程度上依赖于语音数据的类型,而不依赖于输入特征的选择
- 实验发现即兴的数据和排练数据在感情表达的位置上是十分不同的
-
实验发现短时的音频信息也可以获取较好的识别效果
二、文章总结
- 文章使用了注意力CNN进行特征提取,而且使用了多视角学习的方式来提高训练的精度,做了大量实验在特征选取方面和音频长度选取方面,各种实验细节描述很详细,具体看文章。
- 文章主要在如下几个方面进行了尝试:
- 初始特征的选择:谱特征,韵律特征
- 数据的长度选择上:234567s的长度都试了一遍,越长效果越好
- 数据类型的选择上:即兴演说的数据和排练的数据
- 模型的选择:ACNN,卷积核是二维的大跨度的
- 训练方式的选择:多视角训练
- 模型问题:
- 模型方面没考虑使用RNN模型,让提取的特征融合更多的上下文信息
- 内核过大,特征提取不是很细致。