语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW_综合

一：LLDs特征和HSFs特征
（1）首先区分一下frame和utterance，frame就是一帧语音。utterance是一段语音，是比帧高一级的语音单位，通常指一句话，一个语音样本。utterance由多帧语音组成，通常对一个utterance做分帧来得到多帧信号。
（2）LLDs（low level descriptors）LLDs指的是手工设计的一些低水平特征，一般是在一帧语音上进行的计算，是用来表示一帧语音的特征。
（3）HSFs（high level statistics functions）是在LLDs的基础上做一些统计而得到的特征，比如均值，最大值等等。HSFs是对utterance上的多帧语音做统计，所以是用来表示一个utterance的特征。
（4）后面讲的一些特征集，是由一些专家设计的一些特征，包括了LLDs和HSFs。

二：GeMAPS特征集
（1）GeMAPS特征集总共62个特征，这62个都是HSF特征，是由18个LLD特征计算得到。下面先介绍18个LLD特征，然后介绍62个HSF特征。这里只简单介绍每个特征的概念，不涉及具体计算细节。
（2）18个LLD特征包括6个频率相关特征，3个能量/振幅相关特征，9个谱特征。
（3）基音F0的概念：先理解一个常用的概念，基音，通常记作F0（F0一般也指基音频率），一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音，其余为泛音。
（4）6个频率相关特征包括：Pitch（log F0，在半音频率尺度上计算，从27.5Hz开始）；Jitter（单个连续基音周期内的偏差，偏差衡量的是观测变量与特定值的差，如果没有指明特定值通常使用的是变量的均值）；前三个共振峰的中心频率，第一个共振峰的带宽。
（5）3个能量/振幅的特征包括：Shimmer（相邻基音周期间振幅峰值之差），Loudness（从频谱中得到的声音强度的估计，可以根据能量来计算），HNR（Harmonics-to-noise）信噪比。
（6）9个谱特征包括，Alpha Ratio（50-1000Hz的能量和除以1-5kHz的能量和），Hammarberg Index（0-2kHz的最强能量峰除以2-5kHz的最强能量峰），Spectral Slope 0-500 Hz and 500-1500 Hz（对线性功率谱的两个区域0-500 Hz和500-1500 Hz做线性回归得到的两个斜率），Formant 1, 2, and 3 relative energy（前三个共振峰的中心频率除以基音的谱峰能量），Harmonic difference H1-H2（第一个基音谐波H1的能量除以第二个基音谐波的能量），Harmonic difference H1-A3（第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量）。
（7）对18个LLD做统计，计算的时候是对3帧语音做symmetric moving average。首先计算算术平均和coefficient of variation（计算标准差然后用算术平均规范化），得到36个统计特征。然后对loudness和pitch运算8个函数，20百分位，50百分位，80百分位，20到80百分位之间的range，上升/下降语音信号的斜率的均值和标准差。这样就得到16个统计特征。上面的函数都是对voiced regions（非零的F0）做的。对Alpha Ratio，Hammarberg Index，Spectral Slope 0-500 Hz and 500-1500 Hz做算术平均得到4个统计特征。另外还有6个时间特征，每秒loudness峰的个数，连续voiced regions（F0>0）的平均长度和标准差，unvoiced regions（F0=0）的平均长度和标准差，每秒voiced regions的个数。36+16+4+6得到62个特征。

三：eGeMAPS特征集
（1）eGeMAPS是GeMAPS的扩展，在18个LLDs的基础上加了一些特征，包括5个谱特征：MFCC1-4和Spectral flux（两个相邻帧的频谱差异）和2个频率相关特征：第二个共振峰和第三个共振峰的带宽。
（2）对这扩展的7个LLDs做算术平均和coefficient of variation（计算标准差然后用算术平均规范化）可以得到14个统计特征。对于共振峰带宽只在voiced region做，对于5个谱特征在voiced region和unvoiced region一起做。
（3）另外，只在unvoiced region计算spectral flux的算术平均，然后只在voiced region计算5个谱特征的算术平均和coefficient of variation，得到11个统计特征。
（4）另外，还加多一个equivalent sound level 。
（5）所以总共得到14+11+1=26个扩展特征，加上原GeMAPS的62个特征，得到88个特征，这88个特征就是eGeMAPS的特征集。

四：ComParE特征集
（1）ComParE，Computational Paralinguistics ChallengE，是InterSpeech上的一个挑战赛，从13年至今（2018年），每年都举办，每年有不一样的挑战任务。
（2）从13年开始至今（2018年），ComParE的挑战都会要求使用一个设计好的特征集，这个特征集包含了6373个静态特征，是在LLD上计算各种函数得到的，称为ComParE特征集。
（3）可以通过openSmile开源包来获得，另外前面提到的eGeMAPS也可以用openSmile获得。

五：2009 InterSpeech挑战赛特征
（1）前面说的6373维特征集ComparE是13年至今InterSpeech挑战赛中用的。（2）有论文还用了09年InterSpeech上Emotion Challenge提到的特征，总共有384个特征，计算方法如下。
（3）首先计算16个LLD，过零率，能量平方根，F0，HNR（信噪比，有些论文也叫vp，voice probability 人声概率），MFCC1-12，然后计算这16个LLD的一阶差分，可以得到32个LLD。
（4）对这32个LLD应用12个统计函数，最后得到32x12 = 384个特征。
（5）同样可以通过openSmile来获得。
（6）另外还有2010年InterSpeech的Paralinguistic Challenge上的特征，称为10IS，共有1582维特征。也可以从openSmile中获得，这工具挺好的，可以帮你提取很多特征，建议使用。

六：BoAW
（1）BoAW，bag-of-audio-words，是特征的进一步组织表示，是根据一个codebook对LLDs做计算得到的。这个codebook可以是k-means的结果，也可以是对LLDs的随机采样。
（2）在论文会看到BoAW特征集的说法，指的是某个特征集的BoAW形式。比如根据上下文“使用特征集有ComparE和BoAW”，可以知道，这样的说法其实是指原来的特征集ComparE，和ComparE经过计算后得到的BoAW表示。
（3）可以通过openXBOW开源包来获得BoAW表示。

七：YAAFE特征：
（1）使用YAAFE库提取到的特征，具体特征见YAAFE主页。

八：参考资料
[1] 论文：eGeMAPS特征集（2016 IEEE trans on Affective Computing）
[2] 论文：2013 InterSpeech ComparE挑战赛（2013 InterSpeech）
[3] 论文：2009 InterSpeech情感挑战（2009 InterSpeech）
[4] 论文：BoAW用于语音情感识别（2016 InterSpeech）
[5] YAAFE主页