TWO-STREAM MULTI-TASK NETWORK FOR FASHION RECOGNITION
摘要
本文主要使用神经网络解决衣服多任务问题,包括关键点检测,类别分类以及属性分类问题。
总体来说本文是解决的一个多任务问题。
简介
本文将衣服时尚推荐问题转化成了多任务分类问题。多任务分类问题,能够在任务之间相互促进,从而提升模型的单任务性能,文中使用的网络是双流网络,既能够增加任务之间的协同,又能够独立任务的性能。
但是建立一个多任务网络是一件十分困难的事情,主要有三个问题什么时候共享,共享什么,怎么共享。
什么时候分享?
神经网络在传播的过程中是从低级信息到高级语义的过程,每一个阶段都包含了大量有用的信息,尽量共享整个网络信息。
分享什么?
这一问题主要是分享什么样的特征,任务中关键点检测任务和属性、类别分类问题不太一致,它需要更加结构化的特征表达,本文将关键点检测的特征与分类的特征进行分享,因为更多的细节能够较好的分类。
怎么共享?
主要是讨论两类分享办法,边界知识和结构知识,分别代表底层像素特征以及高级语义特征。
文中使用双流网络,其中一个用于目标检测,另一个用于分类以及属性分类。
根据设计的共享策略,来建立多任务之间的相关性,去得在每个任务中较好的效果。
文中改进之处
- 将时尚识别变成了多任务分类问题
- 提出两种共享方法,边界,结构。分别对高级语义共享,特征在不同任务中融合。
网络结构
Landmark 定位网络
网络使用的一种生成网络,可用于细节重建。其常用于语义分割,姿态估计。
文中使用了一种沙漏结构,和中间的特性相结合抽取出鲁棒性较强的结构特性用于关键点检测。关键点检测网络,包含有四个沙漏子网络,插入到卷积网络中。
边界特征
构建边界意识,分享像素级别的知识,为了预测关键点的坐标,使用了一种共线性算法,画出关键点之间的线以及目标的边框,生成热力图根据边界语义分割,为了高亮有用的区域。生成map有链接有高斯滤波,关注map能够区分出衣服的前景以及背景,像素级别的方法使用的是landmark 适应方法,
结构特征
文中的结构特征,是将关键点检测最后一层的高级语义feature map和分类网络中间层的feature map concat,这样能够提取更多的信息。
工具
文中使用ResNet50,ImageNet与训练好的,我们裁剪图像并且resize,224 x 224对于分类问题。关键点追踪网络是256 x 256。将最后两层全连接转化成两个支路全连接层。使用mse为关键点检测,较差熵为分类网络,使用不对称的权重对熵的Loss,
首先训练10 epoch检测网络,并且联合训练两个网络20 epochs,然后分开训练10.