TWO-STREAM MULTI-TASK NETWORK FOR FASHION RECOGNITION_综合

TWO-STREAM MULTI-TASK NETWORK FOR FASHION RECOGNITION

摘要

本文主要使用神经网络解决衣服多任务问题，包括关键点检测，类别分类以及属性分类问题。

总体来说本文是解决的一个多任务问题。

简介

本文将衣服时尚推荐问题转化成了多任务分类问题。多任务分类问题，能够在任务之间相互促进，从而提升模型的单任务性能，文中使用的网络是双流网络，既能够增加任务之间的协同，又能够独立任务的性能。

但是建立一个多任务网络是一件十分困难的事情，主要有三个问题什么时候共享，共享什么，怎么共享。

什么时候分享？

神经网络在传播的过程中是从低级信息到高级语义的过程，每一个阶段都包含了大量有用的信息，尽量共享整个网络信息。

分享什么？

这一问题主要是分享什么样的特征，任务中关键点检测任务和属性、类别分类问题不太一致，它需要更加结构化的特征表达，本文将关键点检测的特征与分类的特征进行分享，因为更多的细节能够较好的分类。

怎么共享？

主要是讨论两类分享办法，边界知识和结构知识，分别代表底层像素特征以及高级语义特征。

文中使用双流网络，其中一个用于目标检测，另一个用于分类以及属性分类。

根据设计的共享策略，来建立多任务之间的相关性，去得在每个任务中较好的效果。

文中改进之处

网络结构

Landmark 定位网络

网络使用的一种生成网络，可用于细节重建。其常用于语义分割，姿态估计。

文中使用了一种沙漏结构，和中间的特性相结合抽取出鲁棒性较强的结构特性用于关键点检测。关键点检测网络，包含有四个沙漏子网络，插入到卷积网络中。

边界特征

构建边界意识，分享像素级别的知识，为了预测关键点的坐标，使用了一种共线性算法，画出关键点之间的线以及目标的边框，生成热力图根据边界语义分割，为了高亮有用的区域。生成map有链接有高斯滤波，关注map能够区分出衣服的前景以及背景，像素级别的方法使用的是landmark 适应方法，

结构特征

文中的结构特征，是将关键点检测最后一层的高级语义feature map和分类网络中间层的feature map concat，这样能够提取更多的信息。

工具

文中使用ResNet50，ImageNet与训练好的，我们裁剪图像并且resize，224 x 224对于分类问题。关键点追踪网络是256 x 256。将最后两层全连接转化成两个支路全连接层。使用mse为关键点检测，较差熵为分类网络，使用不对称的权重对熵的Loss，

首先训练10 epoch检测网络，并且联合训练两个网络20 epochs，然后分开训练10.