当前位置: 代码迷 >> 综合 >> 70-0002 Bayesian Matting【贝叶斯抠图】
  详细解决方案

70-0002 Bayesian Matting【贝叶斯抠图】

热度:30   发布时间:2023-11-24 01:50:35.0

贝叶斯数字抠像方法

  • 摘要
  • 1.介绍
  • 2.背景
  • 3.贝叶斯框架
  • 4.结果与对比
    • 4.1 Blue-screen matting 蓝屏抠图
    • 4.2 Natural image matting 自然图像抠图
  • 5.结论
  • 致谢
  • 参考文献

摘要

This paper proposes a new Bayesian framework for solving the mattingproblem, i.e. extracting a foregroundelement from a background image by estimating an opacity for each pixel of the foreground element. Our approach models both the foreground and background color distributions with spatiallyvarying sets of Gaussians, and assumes a fractional blending of the foreground and background colors to produce the ?nal output. It then uses a maximum-likelihood criterion to estimate the optimal opacity, foreground and background simultaneously. In addition to providing a principled approach to the matting problem, our algorithmeffectively handlesobjects with intricate boundaries, such as hair strands and fur, and provides an improvement over existing techniques for these dif?cult cases.

本文提出了一种新的贝叶斯框架来解决抠图问题,即通过估计前景元素的每个像素的不透明度从背景图像中提取前景元素。我们的方法使用空间变化的高斯集对前景和背景颜色分布进行建模,并假设前景和背景颜色进行分数混合以产生最终输出。然后,它使用最大似然准则来同时估计最佳不透明度,前景和背景。除了提供一种解决抠图问题的有原则的方法外,我们的算法还可以有效地处理具有复杂边界的对象,例如发束和毛发,并针对这些困难情况对现有技术进行了改进。

1.介绍

在数字抠图中,通过估计每个像素处前景元素的颜色和不透明度,从背景图像中提取前景元素。每个像素处的不透明度值通常称为其Alpha,将不透明度图像作为一个整体,称为Alpha遮罩或关键点。分数不透明度(介于0和1之间)对于前景元素的透明度和运动模糊以及前景对象边界周围的背景像素的部分覆盖非常重要。

抠图用于将前景元素合成到新场景中。抠图和合成最初是为电影和视频制作而开发的[4],在这方面已被证明是无价的。尽管如此,“拉毛”还是有些黑手艺,尤其是对于某些臭名昭著的案例,例如稀疏的皮毛或头发。问题之所以难以解决,是因为它固有地受约束不足:对于单个背景图像上的前景元素,通常对前景颜色与不透明度的解释次数有限。

实际上,在许多情况下仍然可以拉出令人满意的哑光。一种常见的方法是使用已知颜色(通常为蓝色或绿色)的背景图像,并对前景中的颜色进行某些假设(例如,每个像素处红色,绿色和蓝色的相对比例);这些方法可以由操作人员进行调整。其他方法尝试使用已知前景或背景区域的统计信息,从自然(任意)背景中提取遮罩,以便估计边界上的前景和背景颜色。一旦知道了这些颜色,就可以唯一确定不透明度值。

在本文中,我们调查了最成功的数字抠像方法(所有方法都是临时的),并演示了每种方法失败的情况。然后,我们基于贝叶斯框架引入一种新的,更原则性的抠图方法。尽管没有一种算法可以在所有情况下都给出完美的结果(假设问题本质上是受约束的),但我们的贝叶斯方法似乎在每种情况下都可以提供更好的结果。

2.背景

如前所述,抠图和合成最初是为电影和视频制作而开发的。1984年,Porter和Duff[8]引入了遮罩的数字模拟物-alpha通道-并展示了具有alpha的合成图像如何在创建复杂的数字图像中有用。 最常见的合成操作是过运算,由合成方程式总结:
C=αF+(1?α)BC=\alpha F+(1-\alpha) BC=αF+(1?α)B

formual(1)

其中CCCFFFBBB分别是像素的合成色,前景和背景色,而α是用于线性混合前景和背景的像素的不透明度分量。

抠图过程从一组照片的摄影师(基本上是合成图像)开始,并尝试提取前景和Alpha图像。抠图技术的主要区别在于图像的数量以及它们对前景,背景和Alpha所做的先验假设。

蓝屏抠图(BluescreenmattinBlue\ screen\ mattinBlue screen mattin)是用于实景抠图的首批技术之一。原理是在恒定颜色的背景下拍摄对象,并提取前景和单独处理每个帧的alpha。这种单图像方法的约束不足,因为在每个像素处,我们有三个观测值和四个未知数。 Vlahos率先提出了添加简单约束以使问题易于解决的概念。Smith和Blinn[11]很好地总结了这项工作。例如,在5≤a2≤Fb≤a2Fg5 \leq a_{2} \leq F_{b} \leq a_{2} F_{g}5a2?Fb?a2?Fg?的假设下,Vlahos将方程组约束为:
α=1?a1(Cb?a2Cg)\alpha=1-a_{1}\left(C_{b}-a_{2} C_{g}\right)α=1?a1?(Cb??a2?Cg?)

formula(2)

其中CbC_bCb?CgC_gCg?分别是输入图像的蓝色和绿色通道,而a1和a2是用户控制的调整参数。但是,诸如此类的其他约束方程式虽然易于实现,但是临时性的,需要专家对其进行调整,并且可能在相当简单的前景中失败。

最近,Mishima [5]基于代表性的前景和背景样本开发了蓝屏抠图技术(图1(e))。特别地,该算法以在背景区域的平均值Bˉ\bar {B}Bˉ为中心的rgbr g brgb空间中的球的两个相同的多面体(三角形网格)近似开始。然后通过沿从中心辐射的线移动多面体之一(背景多面体)的顶点,直到多面体尽可能小,同时仍包含所有背景样本,来重新定位它们。类似地调整另一个多面体(前景多面体)的顶点,以提供最大可能的多面体,该多面体包含来自提供的样本的n个前景像素。给定新的复合颜色CCC,Mishima 将从barB\ bar {B} barBCCC投射光线,并将与背景和前景多面体的交点分别定义为BBBFFFCCC在线段BFB FBF上的小数位是α\alphaα

在某些情况下,可能有可能在已知但非恒定的背景下拍摄前景物体。处理这种场景的一种简单方法是在照片和已知背景之间求差,并基于任意阈值确定α为0或1。这种被称为差异抠图的方法(例如参见[9])容易出错并且导致“锯齿状”的抠图。通过模糊平滑此类遮罩可以帮助解决锯齿问题,但通常无法补偿严重错误。

蓝屏和差异遮罩的一个局限性是对受控环境或成像场景的依赖,该环境或成像场景提供已知的,可能是恒定色的背景。从相对任意的照片或视频流中提取前景和Alpha的更普遍的问题称为自然图像抠图。据我们所知,两个最成功的自然图像抠图系统是由Ultimatte开发的Knockout((and, to the best of our knowledge,described in patents by Berman et al. [1, 2]), 以及Ruzon和Tomasi的技术[10]。在这两种情况下,该过程均始于让用户将图像划分为三个区域:明确前景、明确背景和未知区域(如 图1(a) 所示)。然后,算法为未知区域中的所有像素估计F,B和α。

对于Knockout,在进行用户细分之后,下一步是将已知的前景色和背景色外推到未知区域中。特别地,给定未知区域中的点,前景FFF被计算为已知前景区域的周边上的像素的加权和。最接近的已知像素的权重设置为111,并且此权重随距离线性减小,对于距离最接近的像素两倍的像素,此权重达到000。相同的过程用于基于附近的已知背景像素初始估计背景B′B^{\prime}B。图1(b)显示了一组有助于计算未知像素的FFFB′B^{\prime}B的像素。

然后使用几种性质相似的方法[2]之一将估计的背景色B′B^{\prime}B细化为BBB。一种这样的方法通过估计的背景颜色建立一个平面,该平面的法线平行于B′FB^{\prime}FBF线。然后将未知区域中的像素颜色沿法线方向投影到平面上,并且此投影成为B的精确猜测。图1(f) 说明了此过程。

最后,Knockout 根据关系式估算α:
α=f(C)?f(B)f(F)?f(B)\alpha=\frac{f(C)-f(B)}{f(F)-f(B)}α=f(F)?f(B)f(C)?f(B)?

formula(3)

其中f(?)f(\cdot)f(?)通过rgbr g brgb空间将颜色投影到几个可能的轴之一上(例如,在rrr,ggg or bbb轴之一上)。 图1(f) 说明了相对于rrrggg轴计算的alpha。 通常,α\alphaα是通过投影到所有选定轴上来计算的,最终的α\alphaα是所有投影上的加权和,其中权重与每个轴的方程式中的分母成比例。

Ruzon和Tomasi [10]采取的概率观点与我们自己的观点较为接近。首先,他们将未知的边界区域划分为子区域。对于每个子区域,他们构建一个包含该子区域的框,其中包括一些附近的已知前景和背景区域(请参见图1(c))。然后将所包含的前景像素和背景像素分别视为颜色空间中分布P(F)P(F)P(F)P(B)P(B)P(B)的样本。前景像素被分成相干的簇,并且未定向的高斯(即在颜色空间中轴向对齐的高斯)适合每个簇,每个簇的均值是Fˉ\bar{F}Fˉ和对角协方差矩阵ΣF。\Sigma_{F}。ΣF?最后,前景分布被视为高斯的混合(和)。对产生高斯的背景像素执行相同的过程,每个高斯均值均值Bˉ\bar{B}Bˉ和协方差ΣB\Sigma_{B}ΣB?,然后将每个前景群集与每个背景群集配对。这些配对中的许多配对均基于各种“交集”和“角度”标准而被拒绝。图1(g) 显示了前景和背景分布的单个配对。

建立了由成对的高斯组成的网络之后,Ruzon和Tomasi将观察到的颜色CCC视为来自中间分布P(C),P(C),P(C)位于前地面分布和背景分布之间的某个位置。中间分布也定义为高斯的总和,其中每个高斯的中心是沿每个前景和背景的均值之间的一条线(按给定的alpha)分数(根据给定的alpha)位于不同的平均值Cˉ\bar{C}Cˉ图1(g) 所示,具有分数内插协方差ΣC的聚类对。最佳阿尔法是产生中间分布的颜色,对于该中间分布,观察到的颜色具有最大概率;即,独立于F和B选择最佳α。作为后处理,使用单独的成对分布概率作为权重,将F和B计算为前景和背景聚类均值的加权和。然后,扰动F和B颜色以迫使它们成为通过观察到的颜色并满足合成方程的线段的端点。


图一Summary of algorithms. Each of the algorithms shown in this fi gure requires some specifi cation of background and foreground pixels. Mishima’s algorithm (a) uses these samples to form a global distribution, whereas Knockout (b), Ruzon-Tomasi ?, and our new Bayesian approach (d) analyze unknown pixels using local distributions. The dark gray area in ? corresponds to a segment within the unknown region that will be evaluated using the statistics derived from the square region’s overlap with the labeled foreground and background. Figures (e)-(h) show how matte parameters are computed using the Mishima, Knockout, Ruzon-Tomasi, and our Bayesian approach, respectively.
在这里插入图片描述


可以通过对每个帧进行手动分割来将Knockout和Ruzon-Tomasi技术都扩展到视频,但是对于视频来说需要更多的自动技术。 Mitsunaga et al. [6]开发了用于从视频中提取前景和Alpha遮罩的AutoKey系统,用户可以在该框架中播种具有前景和背景轮廓的帧,然后随着时间的推移而发展。但是,这种方法对前景和背景进行了很强的平滑性假设(实际上,假设提取的前景层在轮廓附近是恒定的),并且设计用于在从前景到背景的过渡中具有相当硬的边缘。也就是说,它不太适合透明度和类似头发的轮廓。

在上述每种情况下,对像素的单次观察都会产生约束不足的系统,该系统可以通过建立空间分布或保持时间相干来解决。 Wallace [12]提供了另一种解决方案,该解决方案由Smith和Blinn [11]独立开发(并在以后进行了改进):在多个已知背景之前拍摄同一物体的图像。这种方法导致系统过度约束,没有建立任何邻域分布,并且可以在最小二乘法框架中解决。尽管与在蓝屏抠图中使用的单个纯色背景相比,此方法需要更加可控制的工作室条件,并且不立即适用于实景拍摄,但它确实提供了一种估算真实对象的高精度前景和alpha值的方法。在进行比较时,我们使用此方法提供真实的遮罩。

3.贝叶斯框架

对于随后的开发,我们将假定我们的输入图像已被划分为三个区域:“背景”,“前景”和“未知”,背景和前景区域已被保守地描绘出来。那么,我们算法的目标是在给定图像未知区域内每个像素的观察到颜色C的情况下,解决前景色F,背景颜色B和不透明度α的问题。由于FFFBBBCCC分别具有三个颜色通道,因此我们遇到了三个方程和七个未知数的问题。

像Ruzon和Tomasi [10]一样,我们将通过建立前景和背景概率来部分解决该问题。给定社区的分布。但是,我们的方法使用连续滑动窗口进行邻域定义,从前景和背景区域向内前进,并利用附近计算出的FFFBBBααα值(除了“已知”区域的这些值)来构造定向高斯分布,如图1(d) 所示。此外,我们的方法提出了在定义良好的贝叶斯框架中计算遮罩参数的问题,并使用最大后验(MAP)技术解决了该问题。在本节中,我们将详细描述贝叶斯框架。

MAP 估计中,我们尝试在给定观测值CCC的情况下找到FFFBBBααα的最可能计。我们可以将其表示为概率分布P的最大值,然后使用贝叶斯规则将结果表示为对数似然之和的最大值:

arg?max?F,B,αP(F,B,α∣C)=arg?max?F,B,αP(C∣F,B,α)P(F)P(B)P(α)/P(C)=arg?max?F,B,αL(C∣F,B,α)+L(F)+L(B)+L(α)\begin{array}{l} \arg \max _{F, B, \alpha} P(F, B, \alpha | C) \\ =\arg \max _{F, B, \alpha} P(C | F, B, \alpha) P(F) P(B) P(\alpha) / P(C) \\ =\arg \max _{F, B, \alpha} L(C | F, B, \alpha)+L(F)+L(B)+L(\alpha) \end{array}argmaxF,B,α?P(F,B,αC)=argmaxF,B,α?P(CF,B,α)P(F)P(B)P(α)/P(C)=argmaxF,B,α?L(CF,B,α)+L(F)+L(B)+L(α)?

formula(4)

这里的L(?)L(\cdot)L(?)log?\loglog 的形式,正如 L(?)=log?P(?),L(\cdot)=\log P(\cdot),L(?)=logP(?), 并且我们删除 P(C)P(C)P(C) 项因为相对于优化参数它是一个常数。 (图1(h) 展示了我们求解最优 F,B,F, B,F,B, and α\alphaα 参数的分布)。 现在,该问题简化为定义对数似然函数 L(C∣F,B,α),L(F),L(B),L(C | F, B, \alpha), L(F), L(B),L(CF,B,α),L(F),L(B), and L(α)L(\alpha)L(α)

我们可以通过测量观察到的颜色与估计的 F,B,F, B,F,B,α\alphaα所预测的颜色之间的差异来对第一项建模:
L(C∣F,B,α)=?∥C?αF?(1?α)B∥2/σC2\begin{array}{l} L(C | F, B, \alpha)=-\|C-\alpha F-(1-\alpha) B\|^{2} / \sigma_{C}^{2} \end{array}L(CF,B,α)=?C?αF?(1?α)B2/σC2??

formula(5)

这个对数似然模型在CCC的测量中建模误差,并对应于以标准偏差σC\sigma_{C}σC?为中心的Cˉ=αF+(1?α)B\bar{C}=\alpha F+(1-\alpha) BCˉ=αF+(1?α)B的高斯概率分布。

我们使用图像的空间相干性来估计前景项L(F)L(F)L(F)。 也就是说,我们使用每个像素NNN附近的已知和先前估计的前景颜色来构建颜色概率分布。为了更稳健地对前景颜色分布进行建模,我们根据两个独立的因素对NNN中每个附近像素iii的贡献进行加权。 首先,我们用αi2α_i^2αi2?加权像素的贡献,这使不透明像素的颜色具有更高的一致性。 其次,我们使用σ=8σ=8σ=8的空间高斯衰减gig_igi?来强调附近像素对较远像素的贡献。 然后,合并的权重为wi=αi2giw_i =α_i^2g_iwi?=αi2?gi?

给定一组前景色及其相应的权重,我们首先使用Orchard和Bouman [7]的方法将颜色划分为几个群集。 对于每个聚类,我们计算加权平均颜色Fˉ\bar FFˉ和加权协方差矩阵ΣF\Sigma FΣF

Fˉ=1W∑i∈NwiFi\bar{F} =\frac{1}{W} \sum_{i \in N} w_{i} F_{i}Fˉ=W1?iN?wi?Fi?

formula(6)

ΣF=1W∑i∈Nwi(Fi?Fˉ)(Fi?Fˉ)T\Sigma_{F} =\frac{1}{W} \sum_{i \in N} w_{i}\left(F_{i}-\bar{F}\right)\left(F_{i}-\bar{F}\right)^{T}ΣF?=W1?iN?wi?(Fi??Fˉ)(Fi??Fˉ)T

formula(7)

where W=∑i∈Nwi.W=\sum_{i \in N} w_{i} .W=iN?wi?. The log likelihoods for the foreground L(F)L(F)L(F) can then be modeled as being derived from an oriented elliptical Gaussian distribution, using the weighted covariance matrix as follows:
其中W=∑i∈NwiW=\sum_{i \in N} w_{i}W=iN?wi?。然后,可以使用加权协方差矩阵将前景L(F)L(F)L(F)的对数似然建模为从定向椭圆高斯分布中得出如下:
L(F)=?(F?Fˉ)TΣF?1(F?Fˉ)/2L(F)=-(F-\bar{F})^{T} \Sigma_{F}^{-1}(F-\bar{F}) / 2L(F)=?(F?Fˉ)TΣF?1?(F?Fˉ)/2

formula(8)

背景L(B)L(B)L(B)的对数似然的定义取决于我们正在解决的抠图问题。对于自然图像抠像,我们使用与前景类似的术语,将wiw_{i}wi?设置为(1?αi)2gi\left(1- \alpha_{i} \right)^{2} g_{i}(1?αi?)2gi?,然后替换在等式(6),(7),和(8)的每一项中,用BBB代替FFF对于恒定色抠图,我们计算所有标记为背景的像素的均值和协方差。对于差异遮罩,我们在每个像素处具有背景色;因此,我们使用已知的背景色作为均值,并使用用户定义的方差来模拟背景噪声。

在这项工作中,我们假设不透明度L(α)L(\alpha)L(α)的对数似然性是恒定的(因此,从等式(4)的最大化中被忽略)。从实测Alpha遮罩的统计中得出的L(α)L(\alpha)L(α)更好的定义留作以后的工作。

由于在对数似然函数L(C∣F,B,α)L(C | F,B,\alpha)L(CF,B,α)α\alphaαFFFBBB的乘积,我们在 (4) 中最大化的函数在未知数上不是二次方程。为了有效地求解方程,我们将该问题分解为两个二次子问题。在第一个子问题中,我们假设α\alphaα是一个常数。在此假设下,将 (4) 的相对于FFFBBB的偏导数设为000即可得出:
[ΣF?1+Iα2/σC2Iα(1?α)/σC2Iα(1?α)/σC2ΣB?1+I(1?α)2/σC2][FB]=[ΣF?1Fˉ+Cα/σC2ΣB?1Bˉ+C(1?α)/σC2]\begin{array}{cc} {\left[\begin{array}{cc} \Sigma_{F}^{-1}+I \alpha^{2} / \sigma_{C}^{2} & I \alpha(1-\alpha) / \sigma_{C}^{2} \\ I \alpha(1-\alpha) / \sigma_{C}^{2} & \Sigma_{B}^{-1}+I(1-\alpha)^{2} / \sigma_{C}^{2} \end{array}\right]\left[\begin{array}{c} F \\ B \end{array}\right]} \\ =\left[\begin{array}{c} \Sigma_{F}^{-1} \bar{F}+C \alpha / \sigma_{C}^{2} \\ \Sigma_{B}^{-1} \bar{B}+C(1-\alpha) / \sigma_{C}^{2} \end{array}\right] \end{array}[ΣF?1?+Iα2/σC2?Iα(1?α)/σC2??Iα(1?α)/σC2?ΣB?1?+I(1?α)2/σC2??][FB?]=[ΣF?1?Fˉ+Cα/σC2?ΣB?1?Bˉ+C(1?α)/σC2??]?

formula(9)

where I is a 3×3 identity matrix. Therefore, for a constant α, we can ?nd the best parameters F and B by solving the 6×6 linear equation (9).
III是一个3×3的单位矩阵因此,对于一个常数ααα,我们可以通过求解6×6线性方程(9) 找到最佳参数FFFBBB

在第二个子问题中,我们假设F和B是常数,从而在ααα中产生一个二次方程。 通过将观察到的颜色CCC投影到颜色空间中的线段FBFBFB上,得出该方程的解:
α=(C?B)?(F?B)∥F?B∥2\alpha=\frac{(C-B) \cdot(F-B)}{\|F-B\|^{2}}α=F?B2(C?B)?(F?B)?

formula(10)

其中分子包含两个色差向量之间的点积。为了优化整体方程(4),我们在以下两种方法之间进行了交替:假设使用 (9) 将使用已知的ααα解算FFFBBB,而使用 (10) 使用已知的FFFBBB解算ααα。在 方程(9) 中,最初优化的时候,我们用附近像素附近的平均值ααα初始化ααα,然后求解常数α。

当存在多个前景或背景群集时,我们对每对前景和背景群集执行上述优化过程,并选择可能性最大的一对。请注意,与高斯混合模型相比,该模型假定观察到的颜色恰好对应于一对前景和背景分布。在某些情况下,该模型可能是正确的模型,但是我们可以肯定地想到了需要混合高斯的情况,例如,当两个前景群集在空间上彼此靠近并因此可以在色彩空间中混合时。理想情况下,我们希望支持真正的贝叶斯混合模型。实际上,即使使用简单的排他性决策模型,我们也比现有方法获得了更好的结果。

4.结果与对比

我们针对各种不同的输入图像(包括蓝屏和自然图像抠图)尝试了贝叶斯方法。 图2 显示了四个这样的示例。 在本节的其余部分,我们将讨论每个示例,并提供我们算法的结果与先前方法的结果之间的比较。 有关更多结果和彩色图像,请访问标题下列出的URL。

4.1 Blue-screen matting 蓝屏抠图

我们在显示恒定蓝场的计算机显示器前给目标对象(毛绒狮子)装上胶片。为了获得真实的解决方案,我们还在五个另外的恒定颜色背景前拍摄了经过辐射校正的,高动态范围的物体图片[3]。通过使用奇异值分解求解合成**方程(1)**的超定线性系统,可以从后面的五张图片中得出地面真实解。

Mishima’s 算法和我们的Bayesian 方法都需要估算背景色的分布作为输入。对于蓝屏抠图,可以使用第2节中的Vlahos 公式(2) 或多或少地自动执行初步分割。将 a1a_{1}a1?设置为大数通常会得到纯背景区域(其中 α≤0\alpha \leq 0α0),而将a1a_{1}a1?设置为较小的值将得到纯前景区域(其中α≥1\alpha \geq 1α1)。图2 中行最左边的图像显示了以此方式产生的初步分割,该分割被用作Mishima算法和我们的Bayesian方法的输入。

图3 中,我们将我们的结果与Mishima’s 算法和地面真理解决方案进行了比较。 Mishima’s 的算法在边界周围显示出明显的“蓝色溢出”伪影,而我们的Bayesian方法给出的结果似乎更接近于地面真实情况。

4.2 Natural image matting 自然图像抠图

图4 提供了“自然图像抠图”的人工示例,对此我们有一个真实的解决方案。输入的图像是通过采用前面的蓝屏抠图示例的真实解决方案,将其合成到(已知的)棋盘背景上,在监视器上显示生成的图像,然后重新拍摄场景而产生的。然后,我们尝试使用四种不同的方法来重新拉动遮罩:一种简单的差异遮罩方法(该方法将图像与已知背景的差异取为阈值,然后对结果进行模糊处理以使其柔化);Knockout;Ruzon和Tomasi算法以及我们的贝叶斯方法。在这里重复真实的结果,以便于视觉比较。请注意在Knockout解决方案中可见的棋盘项目。与Ruzon和Tomasi相比,贝叶斯方法所提供的遮罩有些柔和,并且更接近地面实况。

图5 对两个(真实)自然图像重复了此比较(对于这些图像,可能不会出现差异抠像或地面真实解)。请注意在特写镜头中缺失的发丝,以了解淘汰赛的结果。 Ruzon和Tomasi结果在图像的左侧具有不连续的发束,并且在插图中心附近存在颜??色不连续。在灯塔示例中,淘汰赛和Ruzon-Tomasi都遭受背景泄漏的影响。例如,Ruzon-Tomasi允许背景通过合成插图顶部中央的屋顶进行融合,而“淘汰赛”几乎完全失去了灯塔周围的栏杆。贝叶斯结果没有显示这些假象。

5.结论

在本文中,我们开发了一种贝叶斯方法来解决一些图像抠像问题:恒定色抠像,差异抠像和自然图像抠像。尽管与Ruzon和Tomasi的算法具有相似的概率观点,但我们的方法在许多关键方面与他们不同。即,它使用:

(1)贝叶斯框架中的MAP估计来同时优化αααFFFBBB
(2)定向的高斯协方差以更好地对颜色分布建模
(3)滑动窗口以构造包含先前计算的邻域颜色分布
(4)从已知前景和背景区域向内前进的扫描顺序

综上所述,我们的方法具有直观的概率动机,相对易于实施,并且与无光泽提取方面的最新技术相比具有优势。

将来,我们希望探索许多研究方向。到目前为止,我们已经省略了在alpha上使用先验。我们希望通过研究地面真相α遮罩的统计数据来建立这些先验,可能会扩展此分析以评估可能导致采用MRF方法进行图像遮罩的空间依赖性。接下来,我们希望扩展我们的框架,以有原则的方式支持高斯混合,而不是像我们目前那样在配对的高斯中任意选择。最后,我们计划将工作扩展到具有柔和边界的视频抠图。

致谢

The authors would like to thank Ja-Chi Wu for his assistance with creating the ?gures for this paper. This work was supported by NSF grant CCR-987365 and by an Intel equipment donation.

作者要感谢 Ja-Chi Wu协助创建本文的数据。NSF资助CCR-987365和英特尔设备捐赠为这项工作提供了支持。


图2Summary of input images and results. Input images (top row): a blue-screen matting example of a toy lion, a synthetic “natural image” of the same lion (for which the exact solution is known), and two real natural images, (a lighthouse and a woman). Input segmentation (middle row): conservative foreground (white), conservative background (black), and “unknown” (grey). The leftmost segmentation was computed automatically (see text), while the rightmost three were speci?ed by hand. Compositing results (bottom row): the results of compositing the foreground images and mattes extracted through our Bayesian matting algorithm over new background scenes. (Lighthouse image and the background images in composite courtesy Philip Greenspun, http://philip.greenspun.com. Woman image was obtained from Corel Knockout’s tutorial, Copyright?2001 Corel. All rights reserved.)
在这里插入图片描述



图3Blue-screen matting of lion (taken from leftmost column of Figure 2). Mishima’s results in the top row suffer from “blue spill.” The middle and bottom rows show the Bayesian result and ground truth, respectively.
在这里插入图片描述


图4“Synthetic” natural image matting. The top row shows the results of difference image matting and blurring on the synthetic composite image of the lion against a checkerboard (column second from left in Figure 2). Clearly, difference matting does not cope well with ?ne strands. The second row shows the result of applying Knockout; in this case, the interpolation algorithm poorly estimates background colors that should be drawn from a bimodal distribution. The Ruzon-Tomasi result in the next row is clearly better, but exhibits a signi?cant graininess not present in the Bayesian matting result on the next row or the ground-truth result on the bottom row.
在这里插入图片描述


图5Natural image matting. These two sets of photographs correspond to the rightmost two columns of Figure 2, and the insets show both a close-up of the alpha matte and the composite image. For the woman’s hair, Knockout loses strands in the inset, whereas Ruzon-Tomasi exhibits broken strands on the left and a diagonal color discontinuity on the right, which is enlarged in the inset. Both Knockout and Ruzon-Tomasi suffer from background spill as seen in the lighthouse inset, with Knockout practically losing the railing.
在这里插入图片描述


参考文献

[1].A. Berman, A. Dadourian, and P. Vlahos. Method for removing from an image the background surrounding a selected object. U.S. Patent 6,134,346, 2000.
[2].A. Berman, P. Vlahos, and A. Dadourian. Comprehensive method for removing from an image the background surrounding a selected object. U.S. Patent 6,134,345, 2000.
[3].P. E.Debevec and J. Malik. Recovering high dynamic range radiance maps from photographs. In Proceedings of SIGGRAPH 97, pages 369–378, Aug. 1997.
[4].R. Fielding. The Technique of Special Effects Cinematography. Focal/Hastings House, London, 3rd edition, 1972.
[5].Y . Mishima. Soft edge chroma-key generation based upon hexoctahedral color space. U.S. Patent 5,355,174, 1993.
[6].T. Mitsunaga, T. Yokoyama, and T. Totsuka. Autokey: Human assisted key extraction. In SIGGRAPH 95, pages 265–272, August 1995.
[7].M. T. Orchard and C. A. Bouman. Color Quantization of Images. IEEE Transactions on Signal Processing, 39(12):2677– 2690, December 1991.
[8].T. Porter and T. Duff. Compositing digital images. In SIGGRAPH 1984, pages 253–259, July 1984.
[9].R. J. Qian and M. I. Sezan. Video background replacement without a blue screen. In ICIP 1999, pages 143–146, October 1999.
[10].M. A. Ruzon and C. Tomasi. Alpha estimation in natural images. In CVPR 2000, pages 18–25, June 2000.
[11].A. R. Smith and J. F. Blinn. Blue screen matting. In Proceedings of SIGGRAPH 96, pages 259–268, Aug. 1996.
[12].B. A. Wallace. Automated production techniques in cartoon animation. Master’s thesis, Cornell University, 1982.

  相关解决方案