使用自动编码器和Kohonen网的声学单元的无监督学习(INTERSPEECH 2016)
问题:现在的语音处理系统的瓶颈之一就是对语音的转录(transcription)的依赖。
解决方式:利用自动编码器(autoencode)和kohonen神经网络的级连,以无监督的方式研究了从真实语音数据中学习声学单元(acoustic units)的过程。(将自动编码器的BN输出作为kohonen神经的输入)
1.Introduction
跨多种语言创建语音技术通常很困难且劳动强度大。 在创建语言的语音处理工具之前,可能需要满足几个要求。 首先,具有书面形式的语言可以进行正交拼写,从而有助于语音处理系统的创建。 其次,拥有一些转录数据非常有用,因为大多数语音处理工具都是基于监督学习的,需要清晰的输入输出对来训练和部署合理的模型。
在一种语言中,单词通常用音素来表示,音素是一种语言的基本语音单元,并且音素清单因语言而异[1]。 存在用于世界流行语言的基本语音工具; 但是对于资源较少且使用频率不高的语言,构建语音处理系统非常具有挑战性。 转录材料的可用性通常是有限的,因为它需要了解目标语言的语言专家的可用性,并且通常这些资源不可用。
音频材料通常更容易获得,因此利用纯音频材料的语音工具在处理新语言方面具有优势。
工作:
在这项工作中,我们研究了构建瓶颈深度自动编码器(BN-DAE)网络,该网络以无监督的、数据驱动的方式学习声音空间。 来自多种语言的语音用于训练BN-DAE。 培训语言中不包括将评估结果的目标语言。 一旦学习了BN-DAE网络,就使用瓶颈(BN)特征来训练Kohonen网。 训练了不同的Kohonen网(KN),这些网络具有不同的目标神经元数目和不同的BN特征时间上下文。 Kohonen网的作用是将状态级(stae-level ids)ID分配给BN特征空间,以便从连续的BN特征空间创建离散表示。 一旦学习到KN,它们就被用来解码语音信号并产生假设的状态ID序列。 在给定KN状态ID的情况下,我们使用少量具有电话对齐的数据来获得电话的条件分布。 此条件分布用于预测给定KN ID的电话ID。 实验结果是以帧级音素准确率的形式报告的,这表明所提出的方法可以在无监督的方式下学习类似于音素单元的状态。
文章结构:
第二章介绍数据集;第三章,我们介绍BN-DAE系统及其训练方法。 在第4节中,我们介绍了这项工作中使用的KN,并简要介绍了它们的培训方式。 在第5节中,我们展示了实验的结果。 最后,在第6节中,我们提出了结论。
2.Dataset and acoustic features
数据:
来自七个语言训练集,其来源多种多样:Assamese(BABEL); 孟加拉语(BABEL); 达里(Transtac); 埃及阿拉伯语(Callhome); 英语(渔夫); 普通话(GALE); 和西班牙文(Callhome)。总共总共包含约650小时的七种语言的音频数据。所有数据均以8 kHz采样。 请注意,这项工作概述的任何处理都从未使用过说话者或语言级别的信息。 原始音频数据被参数化为Gammatone滤波器组能量(GFB)声学特征。 伽马通滤波器是在人耳中执行的听觉滤波的线性近似。 通过使用SRI International的时域gammatone滤波器组实现来提取GFB,其中包含40个通道,它们在150 Hz至3750 Hz的等效矩形带宽(ERB)尺度上等间隔。 对于声学功能,分析窗口为25.6 ms,帧速率为10 ms。 GFB使用了15次幂根非线性压缩。
3.Bottleneck-deep autoencoder (BN-DAE) system(瓶颈深度自动编码器(BN-DAE)系统)
BN-DAE系统是一个五层全连接的DNN系统,第三层包含80个神经元的瓶颈。 剩下的隐藏层有1024个神经元。 隐藏层具有S形激活,而输出层具有线性激活。 使用均方误差(MSE)反向传播对BN-DAE进行训练。 BN-DAE系统的输入是40个GFB,拼接为11个,产生了440个维度的特征。 输出的是同样的40个GFB,但拼接了3个。 图1显示了BN-DAE和KN系统的框图。
BN-DAE系统使用均方误差标准进行了训练,并进行了高斯随机伯努利(GRBM)预训练。 通过使用具有0.09的恒定学习率的最初的几次迭代来训练网络,然后根据交叉验证误差的减少将学习率减少0.8倍。 当未发现交叉验证错误进一步显着减少或交叉验证错误开始增加时,训练停止。 通过使用最小批量为512的随机梯度下降进行反向传播。然后,将来自BN-DAE的BN特征用作KN的输入。
4.Kohonen net(KNs)
在这项工作中,用小的随机数初始化神经元的权重,然后以小批量进行训练。 每个输入样本通过微型批次的随机更改多次提交给KN。 对于每个训练示例,网络都将其欧式距离计算为所有权重向量。 权重向量最相似的神经元赢得了比赛。 将SOM晶格中获胜神经元及其邻居的权重朝输入向量进行调整。 使用Kohonen学习规则调整获胜神经元的权重,以下针对第i个神经元获胜的情况进行说明:
其中,q是阶跃索引;j是相邻神经元;p(T)是KN的输入特征;并且FAI是在步骤q中指定相邻神经元i和j之间的距离的邻域函数。
5. Experiments and results
6.Conclusion
在这项工作中,我们提出了一种从语音信号中以无监督方式学习声学单位的方法。 首先,通过瓶颈深度自动编码器(BN-DAE)模型学习声学子空间,该模型将声学单元分开,从而简化了基于KN的声学单元发现的任务。 BN-DAE系统的瓶颈层有80个神经元,但BN-DAE系统中的BN层中的神经元数和隐藏层数均未优化。 GFB功能用于训练BN-DAE系统。