这是一篇写于2010年的说话人识别综述,既有传统模型的识别,又包括新兴起的深度神经网络模型,其中的识别流程和前沿问题直到今天依然适用。
1摘要
这是一个关于自动识别说话人的综述,重点介绍与文本无关的识别技术。详细解释各种技术的原理,以及评价说话人识别系统的标准。
2.前言
说话人识别是指从人的声音中识别出是哪个人。声纹是有特殊性的,不存在相同的声纹特征,因为两个人的声道形状、喉部大小和其他产生声音的器官都是不相同的。除了这些身体上的差异之外,每个说话者都有他或她特有的说话方式,包括对特定口音的使用、节奏、语调风格、发音模式、词汇的选择等。
应用场景:电话取证,语音识别,语言识别,自动生成会议报告,多人语音拆分,
说话人识别可以分为文本相关(text-dependent)和文本不相关(text-independent)两种方式。在文本相关识别方式中,说话人说的识别短语是固定的或者提前设定的。在文本不相关识别方式中,对说话人说的识别短语没有任何限制。因此,文本不相关识别更难一些。
语音内容的不确定,是影响文本不相关的说话人识别的准确性的一个不利因素。声学环境和技术因素(传感器、通道)的变化,以及说话者自身的变化(健康状态、情绪、衰老),同样也是不利因素。一般来说,同一演讲者的两个录音之间的任何变化都被称为会话改变(session variability)。会话改变通常被描述为训练和测试条件不匹配,它仍然是说话者识别中最具挑战性的问题。
3.原理(Fundamentals)
说话人识别包括注册(上面)和识别(下面)两个组成部分。
注册时,背景说话人(background speaker)的语音经过特征提取(feature extraction)得到语音的向量(vector)。这里提取特征的目的有两个:一是降低数据维度(数据量),二是强化语音的统计特性同时降低冗余。注册时,使用目标说话人的语音的特征向量训练,背景说话人的语音训练背景模型。这是因为实际上,应用语音识别时难免会有噪音,模拟背景音增加模型的扰动能增强模型的健壮性。
识别时,未知说话人的语音经过特征提取,与数据库中的模式(特征库)做对比,得到一个相似度分数(Score),经过鉴别模块(Decision)判断是哪一个人的语音。
3.1选择特征(Selection of features)
已知的特征算法有很多,符合以下类型的特征才适合语音识别的选择:
- 不同说话人之间的特征差异要大,相同说话人之间的特征差异要小
- 对噪声和失真鲁棒
- 能很好的表征日常语音
- 容易从语音信号中提取
- 很难模仿
- 不易受说话人的健康或者时间的跨度影响
- 特征的维度要相对低。随着特征维度的增加,获得可靠模型所需的样本数量呈指数级增加
如图所示,特征从物理的解释上被分为几类:
3.2说话人建模Speaker modeling
提取特征的模型分为参数模型(神经网络)和非参数模型(手工设计算法)。非参数模型的代表有 Vector quantization (VQ)和dynamic time warping (DTW),分别适用于文本相关和文本不相关识别。 对于参数模型,常用的建模有高斯混合模型Gaussian mixture model (GMM)和隐马尔可夫模型hidden Markov model (HMM),前者适用于文本无关的识别,后者更适用于文本相关识别。
4.特征提取算法Feature extraction
4.1短时谱特征Short-term spectral features
DFT:离散傅里叶变化 discrete Fourier transform
比较重要的是DFT的幅度谱(DFT magnitude spectrum)。包含关于声道共振特性的信息,并是说话人识别中信息最丰富的部分。
MFCC:mel频率倒谱系数(mel-frequency cepstral coeffifcients)。经过M个通道的滤波器组得到m个输出,记为Y(m),其中。再经过log函数和离散余弦变换得到MFCCs,公式如下:
其中的n是倒谱系数的下标。通过保留约12-15个最低的DCT系数,得到最终的MFCC向量。
LP:线性预测(Linear prediction ),在时域和频域都有直观的解释。时域的定义形式:。这里为观测信号,为预测系数,为预测信号。
4.2声源特征Voice source features
声源特征是声门激发信号,如声门脉冲形状和基频,可以合理地假设它们携带特定于说话者的信息。但是由于声道过滤效应,声门特征不能直接测量。因此需要先建模声道分布,经过逆过滤还原声源信号。但是另有研究表明,声源特征和声道特征的融合可以提高识别准确率。
4.3高阶特征High-level features
声音的特征不止于发音器官有关,还与说话人的用词习惯有关。这种建模基于N元模型,即N个词元连续出现的联合概率能表征一个人的说话习惯。词元(token)是一种抽象,包括单词、符号甚至语气等,由词元组成的集合叫做词汇表。这与语言模型中的词元化异曲同工。
5.经典方式的说话人模型Speaker modeling: classical approaches
在文本不相关的说话人识别中的一些流行模型(当年):矢量量化VQ(Vector quantization)、高斯混合模型GMM(Gaussian mixture model)、支持向量机SVM(Support vector machine)、神经网络NN(neural networks)、融合模型(Fusion model)
6.鲁棒的说话人识别Robust speaker recognition
6.1语音端点检测Voice activity detection
语音活动探测器(VAD),旨在定位给定音频信号中的语音片段,类似于从图像中进行的人脸检测:我们希望在进行数据的进一步处理之前找到感兴趣的部分语音片段。
6.2特征归一化Feature normalization
简单来说是每个信号减去均值除以方差,一是可以使得数据的取值方位大致处于[-1, 1]之间,二是可以降低噪音对数据的影响。
7.超向量方法Feature normalization
通常“超向量”是指将许多小维向量组合成一个高维向量;例如,通过将适应GMM的GMM分量的d维平均向量叠加成kd维高斯超向量。在本文中,我们将一个更广泛意义上的超向量理解为表示语音的固定维度的高维向量维。