C3AE: Exploring the Limits of Compact Model for Age Estimation
摘要
年龄预测问题在机器视觉中是一个分类问题。文中研究了小图片在紧凑模型中的限制,并且使用一个基于级联上下文关联的年龄评估模型。多分枝网络被应用于生成多尺度上下文。
简介
相对于大尺度的图像,小尺度的图片使用较少的channel就能够表达。所以小的卷积核并不会比可分离卷积有更多的参数。从图像表达的角度来说,可分离卷积产生的channel数量是要大于标准卷积的。文中认为小的kernel的卷积比可分离卷积更能够适应小尺度图片的处理。
当前年龄评估算法分成两类,第一类事分类和回归,第二类是分布匹配。在分布匹配的时候每个图像有一个分布标签。
文中的方法主要研究分类,回归和标签分布的混合,其loss函数是最小化分布,然后回归模型带有语义分布的全连接层插入到特征提取层以及年龄预测层中间。
文中将年龄表达成一种分布,并且设计了一个级联网络,之后使用了基于上下文的回归网络,这个网络输入多尺度图像。基于compact basic model和级联训练以及多尺度上下文。构成文中的主要模型。
文中的主要贡献如下:
- 研究分离卷积和输出channel的关系。主要是针对小尺度数据研究的。
- 推荐出一个新的年龄表达模型,基于回归分类以及分布结合的。并且训练了一个级联模型。
相关工作
在以往的工作有的使用分类模型,有的是基于回归,有的是计算KL散度衡量分布的相似性。文中将这些技术都结合了起来,上犹县最小化KL散度loss,然后优化年龄的L2 loss.
模型简介
首先将年龄使用两个新的点进行表达,使用级联的方式将这个点插入到回归模型中,之后基于上下文的基础模型,在三个不同级别的面部信息探究。的context model 被嵌入到一个单回归模型中。
年龄的两点表达
文中将年龄从两个相互独立的领域作为一个分布,给出一系列的图像{(In, yn)}n=1, 2,….N。 深度回归网络可以被写成
其中In 和yn表示图片以及回归的标签。
回归标签可以被写成下面两种形式
其中lambda 表示权重,且两个权重相加等于1
,
其中K表示间隔,且分别表示小数的上整数界,和小数的下整数界。当然这两个点中的每一个点都可以按照相似的方式,重新划分点。
Cascade training
从上一步的两点表达来看,年龄的值可以表示成一个向量的形式。使用级联的方式来进行训练,级联模型如下
流程如下
图像----(卷积)à X —(w1)—>yn_vec—(w2)—>yn
给定两个loss在级联任务中,第一个使用kL散度衡量。
第二类loss就是一个L1 loss
总的loss函数为
基于上下文的回归模型
使用不同的中心点对齐,使用不同尺度的图片进行训练,然后将训练结果concat 如图2所示。