文章目录
- 前言
- 一、文章内容
- 二、文章评价
前言
原文地址-2016
一、文章内容
- 文章提出了一种使用RNN和CNN联合从原始音频数据提取特征的端到端的神经网络
- 模型输入的数据为 时间长度等于6s的原始的音频
- 然后使用F个长度为5ms(采样率16000/200=80)的一维卷积核来进行卷积
- 再使用M个长度为500ms(采样率16000/2=8000)的一维卷积核进行进一步的卷积操作
- 最后得到的是一个M维的长度为某个长度(根据卷积公式计算的)的特征矩阵
- 还进行了一个长度为20的最大池化
- 将得到的特征输入到了LSTM网络进行进一步的特征提取
- 实验结果:
二、文章评价
- 文章novel: 把CNN和RNN结合使用到了网络中,直接使用原始的音频信号进行特征提取
- 优势:
- 提出了一种直接从原始信号提取特征的方法,理论上是最大程度的保证了原始音频信息的完整性,方法很好很有借鉴意义,可以冲击传统收手工的特征提取方法了。ADIEU FEATURES?
- 端到端的模型
- 劣势:
- 可能由于数据量的限制会影响到特征的提取效果
- 特征提取的网络结果可以再复杂点提取更好滴特征吧