当前位置: 代码迷 >> 综合 >> DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild论文理解
  详细解决方案

DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild论文理解

热度:87   发布时间:2023-12-22 16:17:14.0

本篇论文提出了通过全卷积网络学习把图像像素映射到密集模板网格,主要针对人脸。该论文把这个问题看作是一个回归问题。

这篇论文手动标注野外的面部地标并利用地标去建立3维物体模板与输入图像之间的密集坐标关系,然后作为densereg网络训练回归系统的ground-truth,这是标注问题

设计了一种叫DenseReg的系统,可以用一种全卷积的方式估计从图像到模板的密集联系。

步骤:

1,先产生ground-truth为之后的densereg网络提供ground-truth信号,具体方法如下:首先标注2D的图像的landmarks,然后建立template shape morphed([6]论文J. Booth and S. Zafeiriou. Optimal UV spaces for facial morphable model construction. In 2014 IEEE International Conference on Image Processing. IEEE, 2014.该方法还未详读),按照densereg论文的意思这个template shape morphed是一个3D的标注了的模板脸,然后通过上面括号里面论文提到的利用圆柱形展开得到的映射函数Ψ,这个函数可以把3D模板网格转换成2D空间即在论文的实际应用是把从template shape morphed展开的Deformation-free coordinates(UV坐标)转换到图像域,这样就产生了我们想要的训练用的ground-truth信号。

 

2,提出了一个量化回归方法用于产生无变形密集关系(UV坐标),其实可以直接训练回归得到UV坐标,作者偏偏加了一个量化,因为在后面的实验中结果表明量化回归方法确实比没有量化的效果要好。

 

本文量化使用水平和竖直两个方向,水平和竖直方向各分成K 块(bins),一共可以分成K^2块,如下图所示,相当于分类。 

 

 densereg的量化回归方法如下图(水平方向举例):

 

竖直方向V坐标同理可得,论文说到两个量化分支两个回归分支。

DenseReg与语义分割(Semantic Segmentation)

作者手动的把模板模型手动分为八类分割掩码(左右眼,左右眉毛,上下嘴唇,鼻子共七类最后一类应该是背景),然后利用全卷积网络结构得到的分割结果与当时最先进的分割方法论文[11]DeepLab-v2比较效果比DeepLab-v2好。

 

 其实在这篇论文作者有一个模块专门介绍了用该方法对人体进行密集估计,只不过数据集和复杂度不一样。作者开辟这个小模块大概为了证明自己的模型具有普遍适用性,作者已经做出了demo并且大体方法也做了介绍,具体方法是先把3D结构表面分块(patchs),然后通过多维缩放把每一块展开(unwarp),用分块的区域替代densereg结构中的量化部分。这和densepose分块原理是一样的。这也为后来的densepose模型的建立提供了思路。demo 可视化如下:

总体结构

 

从上图可以看出,输入一幅图像,通过用全卷积方法的densereg结构得到无变形空间的UV坐标,一旦这个坐标得到就可以将其作用于图像域进行地标定位,语义分割,换脸等操作。

UV纹理贴图坐标

对于三维模型,有两个最重要的坐标系统,一是顶点的位置(X,Y,Z)坐标,另一个就是UV坐标。U和V分别是图片在显示器水平、垂直方向上的坐标,取值一般都是0~1,也 就是(水平方向的第U个像素/图片宽度,垂直方向的第V个像素/图片高度。纹理映射是把图片(或者说是纹理)映射到3D模型的一个或者多个面上。纹理可以是任何图片,使用纹理映射可以增加3D物体的真实感。每个片元(像素)都有一个对应的纹理坐标。由于三维物体表面有大有小是变化的,这意味着我们要不断更新纹理坐标。但是这在现实中很难做到。于是设定了纹理坐标空间,每维的纹理坐标范围都在[0,1]中,利用纹理坐标乘以纹理的高度或宽度就可以得到顶点在纹理上对应的纹理单元位置。纹理空间又叫UV空间。对于顶点来说,纹理坐标相对位置不变

 

  相关解决方案