Deep Image Matting
论文是adobe公司针对图像精细分割提出的,所属领域为matting,其中的思路感觉是如今matting任务中的最常见的思路,即先通过语义分割网络生成二分类的前景背景图,处理成trimap或者直接生成trimap,将trimap与原RGB图合并成4通道输入进行图像的精细分割。
Abstract
摘要指出之前的方法在matting过程中,前景背景颜色相近或纹理复杂时的表现都非常不好,主要原因是1)仅使用低级特征;2)缺少高级上下文关系 *1) only use low-level features and 2) lack high-level context.*所以文章提出了新的基于深度学习的算法。
**文章主要内容及创新点:
1、新颖的matting网络结构,第一部分将原RGB图与trimap合并生成4通道输入到一个编码解码结构的网络中,通过alpha prediction loss生成一个alpha matte。第二部分将alpha prediction loss之前的特征图raw alpha prediction送入一个小的卷积网络,进行alpha prediction的精修,得到更加精确的alpha值和更加尖锐的边缘。
2、新的matting数据集
**
Introduction
解决mating问题是近似求解一个超定方程,这个方程已知的是原图I的RGB三通道值,未知量为前景RGB与背景RGB加alpha这7个值,方程如下:
作者介绍之前的方法一般采用将该问题视为一种颜色问题来解决的,即通过前景背景采样,依赖大量颜色区别特征、像素空间位置特征,这样导致对环境敏感,即前景背景分布重叠的情况处理不佳。
matting数据集
通过并前景背景组合数据图像,matting label是通过photoshop人工制作的,总共493个前景图像(训练集)、50个前景(测试集),分别组合100个背景与20个背景构成49300和1000个图像。
该数据集的优势:
1)有更多独立的前景物体,并且包含更多的matting情况:毛发、半透明等情况;
2)前景背景颜色相近、背景纹理复杂的数据更多,使得更具有挑战性。
具体方法
两个阶段:
第一阶段:Matting encoder-decoder stage
一个编解码结构,将原图RGB与trimap图作为输入。通过卷积与池化进行编码(14个卷积层+5个max pooling), unpooling layers与卷积进行解码(6个卷积层+5unpooling+一个alpha prediction layer)。
loss:alpha prediction layer使用alpha-prediction loss
是每个像素alpha值的绝对距离;
另外一个loss: compositional loss
where c denotes the RGB channel, p denotes the image composited by the predicted alpha, and g denotes the image composited by the ground truth alphas
解释是RGB通道的损失误差,c指通道,cp是预测的alpha组合前景背景的像素值,cg是真值alpha组合前景背景的真实值。这个loss不是alpha的绝对损失,而是组合前景背景后RGB图的误差损失,衡量的更加全面。起始都是为了使alpha值更加精确。
最终的损失函数为:
第二阶段:Matting refinement stage
全卷积网络改进alpha值使得更精确,边缘锐化
同样是一个4通道输入,原图与第一阶段输出alpha组合。并应用一个是skip-model,将第一阶段alpha预测输出归一化后与该阶段网络输出相加,作为最终输出,即该阶段输出仅为细节信息,边缘(锐化后的)。
两个阶段分开训练的,先训练编解码,收敛后训练refine网络,直到2阶段也收敛后,在将全网络进行finetune
几个试验对照表:
trimap对alpha预测的影响程度比对: