论文信息:
作者:Peng Lua, Hao Zhanga, XuJun Pengb, Xiang Penga
期刊:Signal Processing: Image Communication
任务:图片裁剪
年份:2019年
全文:PDF(找作者拿的,不好公开?)
主要内容:为了完成图像裁剪任务,提出了一个有美学引导的深度回归网络,使得模型裁剪出来的结果符合人类审美。
用于图像裁剪的由美学引导的深度回归网络
- 摘要
- 1.介绍
- 2. 相关工作
- 2.1 基于注意力的裁剪
- 2.2 基于美学的裁剪
- 2.3 综合性裁剪
- 3. 提出的方法
- 3.1 动机与系统架构
- 3.2 视觉显著性/注视点检测
- 3.3 美学回归网络
- 4. 实验
- 4.1 训练和测试数据集
- 4.2 视觉检测网络的训练
- 4.3 VGG-SPP 回归网络的训练
- 4.4 系统调整 & 优化
- 4.5 结果 & 分析
- 4.6 效率测量
- 4.7 失败的情况
- 5. 结论
摘要
裁剪图片以提高图片的审美品质是一个具有挑战性的问题,因为审美是“真正在观者的眼中”的审美,它定义了形象中的和谐和美。即使是同一幅图片,不同的观看者对构图的审美效果也会有不同的看法。为了完成这一主观任务,我们设计了一个深度学习框架,在此框架中,我们根据所选择的深度表征来检测图像的视觉注视,并生成包含感兴趣对象的初始视觉显著性矩形。然后,通过回归网络将初始视觉显著性边界框映射到最优裁剪区域,提出裁剪矩形,从中找出感兴趣的目标与图像最优组成之间的关系。在公共数据集上的实验结果表明,该方法具有较好的效果。
1.介绍
制作高审美质量的图像是一项艰巨的任务,特别是对业余爱好者。这一挑战依赖于两个方面:
- 审美是一种主观感受,它依赖于使用者的背景、知识、情绪和品味;
- 许多环境变量会影响图像的审美质量,如色彩、灯光、构图等。
在所有这些因素中,图像的构成对于图像的美学起着重要的作用,正如[1]和[2]所揭示的,一个具有专业技能的恰当的图像构成,不仅可以向观众表达出图像/图片的和谐,还可以提高图像/图片的可用性。
一般来说,专业摄影师会运用一些构图技巧,如黄金比例、三分法、视觉平衡和简洁来获得令人愉悦的照片,如图1所示。
然而,建立计算模型来模拟这些技术的过程,以产生高质量的照片是一个具有挑战性的任务。
在本文中,我们提出了一种基于深度神经网络(DNN)的方法来裁剪图像以获得最佳的美学质量。设计了一种多阶段学习框架,利用改进的U-Net获取视觉注视点,从而找到包含图像感兴趣对象的边界框。然后使用空间金字塔池化层的回归卷积神经网络(regression convolutional neural network, CNN)搜索美学质量较高的最优裁剪区域。本工作的主要贡献总结如下:
- 基于这样的观察:图像中感兴趣的对象之间存在强烈的依赖和图像的组合,我们提出了一种新的自动裁剪照片框架,包含最初通过视觉注视检测网络,提取图像中感兴趣的对象的视觉显著区域, 这些视觉显著区域和图像的审美领域之间的关系是由一个回归网络分析和学习的。据我们所知,我们是第一个发现并利用这种关系来实现基于美感的图像裁剪的。
- 我们设计了一个回归神经网络,该神经网络根据最初检测到的视觉显著性矩形从美学图像中学习最优矩形,而不像传统方法那样进行多候选选择。与基于滑动窗口或候选窗口的方法相比,回归网络不仅能更好地预测裁剪图像,而且能获得更高的时间效率。
2. 相关工作
在本节中,我们简要地总结了基于目标的图像裁剪技术。一般来说,图像重合成方法,特别是图像裁剪方法,可以大致分为两类:基于注意力的方法和基于审美的方法。
2.1 基于注意力的裁剪
图像裁剪方法的一个发展趋势是寻找图像中明显的视觉突出区域,即基于注意力的裁剪方法。
视觉注意力分析的研究可以追溯到显著性检测的早期研究。例如,Itti等人在神经网络中结合颜色、强度和方向等特征,找到显著性图,用于分析图像[8]的结构。
为了避免在创建缩略图时出现收缩效果,Suh等人在剪切和收缩[9]之前检测并渲染了图像的关键成分。
Wang等人将基于视差和边缘的显著性图和基于感知的显著性偏差结合在一起,提出了一种生成立体图像对缩略图的框架,并在此基础上开发了两种裁剪方法[10]:content-persistent裁剪和object-aware裁剪。
[10] W. Wang, J. Shen, Y. Yu, K. Ma, Stereoscopic thumbnail creation via efficient stereo saliency detection, IEEE Trans. Vis. Comput. Graphics 23 (8) (2017) 2014–2027.
为了提取缩略图,Marchesotti等人将数据库中最相似的图像检索到目标图像,并根据一个简单的分类器[11]生成它们之间的显著性映射。
在[12]中,Ardizzone等人提出了基于5种不同描述符计算图像显著性图,然后将显著性图二值化,用于保持图像中的主要目标。
同样,Stentiford通过计算图像[13]内不同小区域的匹配分数,设计了视觉注意力模型。这个模型可以用来找到最佳的图片窗口。
Park等在主成分分析(PCA)和高斯混合模型(GMM)的基础上,分析了训练数据的显著性图分布,并对[14]后的照片进行了重新排列。
对于视觉上最重要的区域,Chen等人建议搜索注意力总和最大的最小矩形[15]。当裁剪的长宽比固定时,利用线性复杂度计算出最优矩形,从而得到最终的照片窗口。[这篇文章有写篇笔记:显著性应用–论文笔记–Automatic Image Cropping : A Computational Complexity Study]
[15] J. Chen, G. Bai, S. Liang, Z. Li, Automatic image cropping: A computational complexity study, in: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 507–515.
与其他通过发现视觉注视点来帮助裁剪的方法不同,Zhou等人对图像进行了分割,并利用几何线索来检测图像[16]的主导消失点。基于这些消失点,可以得到合适的图像组成。
不同于设计经验特征来寻找图像中的视觉注视,研究人员试图使用通用特征或基于深度学习的表征来促进图像裁剪任务。Borji将自底向上模型的几种低级特征和自底向下的认知视觉特征结合起来,提出了一个通过一组传统分类器[17]来学习图像显著性图的系统。
在[18]中,Pan等人提出了一种基于深度CNN的框架来计算显著性图,显著性图由眼睛注视点定义。
在[19]中,Wang和Shen设计了一个跃层网络,通过将监控反馈到多层,来捕获全局和局部的注意力特征,从而可以在单个网络中做出不同水平的显著性预测。
[19] W. Wang, J. Shen, Deep visual attention prediction, IEEE Trans. Image Process. 27 (5) (2018) 2368–2378.
观察到图像中的每个像素都能生成一个每个上下文位置具有不同权重的注意图,Liu等提出了一个全局和局部形式的DNN来关注不同的上下文,可以有效地检测出显著区[20]。
为了提高显著性目标检测的效率和准确性,Li和Yu提出了混合对比导向的DNNs,该DNNs由一个用于稠密预测的全CNN和一个用于显著性推断[21]的空间池流组成。
2.2 基于美学的裁剪
然而,虽然上述方法可以对图像进行裁剪,但得到的区域仅包含大部分视觉注意力信息区域,在美学上质量较差。因此,另一类研究倾向于根据审美评价结果对图像进行裁剪,这可以归类为基于审美的方法。
对审美评价的研究已经进行了多年,但直到今天,由于深度神经网络的发展,审美评价取得了良好的应用效果。
然而,传统的DNNs以固定尺寸的图像作为质量评估的输入,这需要对图像进行裁剪、缩放或填充,从而导致原始图像的大幅退化和失真。因此,最近Mai等人在CNNs上采用了自适应空间池化策略来保持用于美学评价的图像大小[22],其中保留了图像的成分和细粒度细节。
[22] L. Mai, H. Jin, F. Liu, Composition-preserving deep photo aesthetics assessment, in: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 497–506
在[23]中,Ma等人引入了一个深度学习框架,首先使用属性图获取一组裁剪的patch(图像块)。然后设计一个多patch子网和一个布图感知子网,对选择的patch同时提取特征,然后通过一个聚合层来预测整个图像的美学质量。
而在[24]中,Lu等人通过开发双列深度卷积神经网络来捕获图像的全局和局部特征,提出了用于图像美学评价的深度学习框架。
Sheng等人基于多patch聚合的方法,在网络训练中引入注意机制,对patch进行不同的权重分配,提高图像美感评价的性能[25]。这些工作激发我们的审美评价可以整合到一个图像裁剪框架中。
在[1]和[26]中,作者提出了一种基于网格的变形方案,通过优化美学能量函数来改变图像中突出物体的组成。基于此能量函数,可以得到视觉元素原始位置与目标位置距离的审美分数。
对于具有高审美质量的自动裁剪图像,在[27]中提出了一个视觉合成模型,该模型评估给定裁剪的合成质量,其中视觉合成、边界简单性和内容保留被用于测量。
在[28]中,Zhang等人提出了一种基于小连接子图来表示图像美感特征的概率框架,其中照片裁剪任务可以通过区域邻接图上的Gibbs sampling来完成。
Nishiyama等人将图像中不同目标的多个候选区域放入SVM中,根据这些区域的质量和基于高质量区域[29]的裁剪图像进行区分。
2.3 综合性裁剪
近年来,越来越多的研究试图利用深度学习方法同时解决基于注意力和基于审美的裁剪问题。
为了提高在图像中寻找最优裁剪窗口的效率,Li等人提出在[30]中使用一种强化学习方法来解决这个问题,其中裁剪区域的当前观测和历史经验都被输入到一个感知奖励函数中。
裁剪问题视为一个回归的任务,郭等人在预测裁剪边界框[31]的基础上设计了一个级联裁剪回归模型来提高视觉审美,其中在第一阶段一个CNN被用于从多个图像裁剪数据库中提取特征,因此在第二阶段引导图像裁剪。
在[32]中,根据预测的注意力方框生成一组候选裁剪对象,并通过基于审美质量评估模型的深度神经系统对其进行过滤。
受人类决策的启发,Li等人设计了一个弱监督的审美感知强化学习框架来解决图像裁剪的问题,该框架根据当前的观察和历史经验[30]对照片进行初始裁剪并反复更新。
除了这些工作,许多美学评估方法也启发了图像裁剪的研究,包括手工特征[33],通用特征[34]和基于深度学习特征[35,36]的方法。在[37]中可以找到关于提高审美质量的图像重组的更全面的评论。
3. 提出的方法
3.1 动机与系统架构
一般来说,在一个专业的摄影过程中,摄影师通常首先确定了拍摄的主体,然后选择哪些对象来表达主体。一旦照片中包含了感兴趣的对象,摄影师就会设置照片所需的其他参数,如曝光时间、构图、颜色等。为了模拟这一专业的摄影过程,我们提出了一个图像裁剪框架,它首先检测图像中的视觉注视点,然后找到包含感兴趣对象的初始视觉突出矩形。然后,确定满足其他美学标准的最佳区域。
如图2所示,我们将神经网络模型分为两个概念阶段。
特别地,我们在输入图像上应用了一种叫做U-Net的全卷积神经网络来检测视觉注视。根据得到的视觉显著性图,计算出包含感兴趣对象的初始边界框,并将其输入回归网络,以搜索最优的美学裁剪矩形。该回归网络通过一组高审美质量的图像进行训练。
需要注意,尽管该图像裁剪框架与其他传统照片裁剪方法具有相似的两级步骤,如基于滑动窗口或注意力感知方法[32],提出的工作和现有的方法在框架之间的差别在三个方面上是显而易见:
- 从动机的角度,建议的方法,它适用于查找-生成(finding-generating)策略,而不是传统的滑动-判断(sliding-judging)或确定-调整(determining-adjusting)策略[32],利用网络来发现和学习包含感兴趣的领域对象和优化区域审美得分之间的关系。因此,提出的两阶段DNNs框架更有可能模拟专业摄影的过程。而以往裁剪方法中使用的网络旨在提供一个种子区域,缩小搜索空间,减轻暴力搜索算法的负担。
- 从效率的角度,提出的方法,只有一个最初的视觉特点生成矩形和送入第二阶段发现最终的最优裁剪区域,通过一个回归网络学习初始检测视觉注视和最终裁剪地区之间的关系审美品质。而在传统的图像裁剪框架中,第一阶段通过滑动窗口提出多个裁剪候选对象,第二阶段对每个候选对象进行评估,是一种基于蛮力搜索的方法,效率较低。甚至基于注意力感知的方式,如[32]中描述的方法,初步确定裁剪面积只充当一个种子来缩小搜索空间,加快第二阶段的多个候选方框评估过程,仍然可以被认为是一个蛮力搜索策略概念上。
- 从用于裁剪的特征的角度来看,该方法利用感兴趣的目标和从高质量样本中学习到的图像组成之间的相关性。而基于注意意识的方法则是利用高质量样本和低质量样本的差异来选择美学得分较高的样本。
这些差异也可以从图3(a)和图3(b)中看出。该框架的优点是显而易见的,因为它的效率和更接近专业摄影师的操作。
3.2 视觉显著性/注视点检测
为了更好地发现图像中感兴趣的对象与裁剪矩形之间的关系,首先需要确定包含感兴趣对象的区域。视觉显著性/注视图是在给定图像上出现视觉注意的概率,通常可以作为表征物体的基本元素,构成高质量图像的合理组合。因此,从摄影的角度,视觉显著性/注视图可以用来确定包含感兴趣对象的区域,代表图像的主题,并提供具有较高审美品质的最佳区域的重要线索。
为了避免信息丢失,保持显著性图的大小与原始图像一致,在本工作中,我们使用U-Net来完成视觉显著性检测。U-Net是一种全卷积神经网络(FCNNs),最初由Ronneberger等人提出用于生物医学图像分割[38]。与其他用于语义标注任务的FCNNs中收缩路径和扩展路径在概念上是独立的不同,U-Net采用了从收缩路径到扩展路径的直连路径,在上下采样过程中保留并组合了不同类型的特征图.
[38] O. Ronneberger, P. Fischer, T. Brox, U-Net: Convolutional networks for biomedical image segmentation, in: Medical Image Computing and Computer-Assisted Intervention (MICCAI), in: LNCS, vol. 9351, 2015, pp. 234–241.
在我们的实现中,每两个卷积层和一个最大池化层被构造为基本收缩块,其中四个块被堆叠在一起形成收缩路径。在扩展路径中,每两个卷积层和一个上采样层的使用方式与收缩路径相同。对于大小相同的对应池层和上采样层,采用一条捷径将它们连接起来。图4显示了我们在本工作中对U-Net的实现。
通过U-Net获得视觉显著图
,通过在积分图上寻找最短子数组,初步计算矩形
,使得它覆盖最大关注区域,其中积分图的计算是基于视觉显著图。这种方法可以用一个公式来简单描述:
其中
是一个超参数,代表着总的注意值被保留的最小百分比。
在我们的实现中,[15]中提出的方法应用于找到最优矩形
包括图像中感兴趣的对象。
[这篇文章有写篇笔记:显著性应用–论文笔记–Automatic Image Cropping : A Computational Complexity Study
通过这个步骤,可以确定包含感兴趣对象的区域,排除不重要的区域。除此之外,还可以揭示和分析视觉注视与图像构成之间隐藏的详细关系。
3.3 美学回归网络
从上面的讨论可以看出,虽然重要的对象可以被视觉显著矩形所覆盖,但就美学而言,它们不一定是达到最佳质量的区域。直观上,人类可以仅根据物体的部分来预测一个视图的粗糙区域,正如[39]中揭示的那样,“这样的预测不是不可能的,只要物体的中间可见,人们仍然可以粗略地推断出物体的范围”。因此,我们提出一种回归神经网络将初始视觉显著性矩形映射到具有较高审美分数的最优矩形。
为了训练一个基于初始视觉显著性矩形来预测具有较高审美质量的最优区域的模型,我们在[40]中实现了一个带有空间金字塔池(SPP)层的深度CNN。
[40] K. He, X. Zhang, S. Ren, J. Sun, Spatial pyramid pooling in deep convolutional networks for visual recognition, IEEE Trans. Pattern Anal. Mach. Intell. 37 (9) (2015) 1904–1916.
博客:空间金字塔池化(Spatial Pyramid Pooling, SPP)
与传统的CNNs需要固定的输入形状不同,SPP层允许网络具有不同的输入形状。基于此CNN,在训练阶段保持了图像的最优纵横比,可以获得更好的坐标预测性能。
在我们的实现中,使用VGG-16卷积网络[41],后面是一个SPP层,其bin号分别为1、4和16。
在SPP层之上,构建了3个全连接层,最后一层是有四个输出的线性层,代表最终矩形的坐标。
所提回归神经网络的总体架构如图5所示,从图5可以看出,网络的输入是基于初始视觉显著性矩形的裁剪图像。该神经网络的输出是预测的左上角和右下角的坐标偏移因子,可用于从原始图像中得到最终的裁剪区域。
在VGG-SPP回归网络的训练阶段,给定一个原始图像,它的具有最高美学质量的最优矩形大小为
, 而它的初始视觉显著性矩形的尺寸是
。两个矩形的左上角和右下角的偏移量可以表示为:
在这些方程中使用的符号如图6所示。
则两个矩形之间的高、宽关系可计算为:
其中,
为四个归一化偏移量因子,并组成groundtruth来指导回归网络的训练过程。在这个工作中,$L_2 $损失函数用于回归网络的训练。在测试阶段,根据预测的偏移量因素,利用上述方程可以推导出最优的美学矩形的尺寸和坐标。
4. 实验
4.1 训练和测试数据集
在本研究中,我们使用两个数据集训练我们的显著性检测模型和最优剪裁回归模型。为了训练视觉显著性检测模型,我们使用了SALICON数据集[49]。在图7(a)中,图示了来自SALICON数据集的样本图像,其中对应的固定图被投影到这些图像上。
利用AVA数据集对裁剪回归模型进行训练。为了对提出的系统进行训练,我们选择了5万多张平均美学分数在6.0以上的图像进行训练。图7(b)显示了AVA数据集的多样本图像。
评价实验在两个公共数据集上进行:MSR-ICD集[4]和FLMS集[27]。MSR-ICD数据集包含950张高质量照片,其中每张照片由3名专业摄影师裁剪。在FLMS dataset中,来自Flickr的500张图片被10个经验丰富的编辑裁剪。
4.2 视觉检测网络的训练
在我们的实验中,我们采用了Kullback-Leibler散度损失的SGD优化方案进行学习,训练率固定在
在表1中,我们演示了各种视觉显著性矩形提取方法的sAUC。从这个表中,我们可以看到,使用U-Net,视觉显著性矩形检测的性能可以与目前最先进的方法相比。
图8展示了我们从PASCAL数据集中提取的四幅样本图像及其对应的视觉显著性。从图中可以看出我们在工作中实现的显著性地图检测方法的有效性。
4.3 VGG-SPP 回归网络的训练
为了训练基于VGG-SPP的回归神经网络,我们将AVA数据集中美学评分大于或等于6的50189张图像输入第一阶段,提取显著性图。
然后计算出每幅图像的初始视觉显著性矩形,裁剪出高质量的原始图像。因此,这些裁剪后的图像被调整大小,其中短边被设置为224,长边被相应地调整大小,以保持原始的高宽比。
将裁剪后的重新调整大小的图像作为回归网络的输入。由于AVA数据集中选取的高质量训练图像大多是由专业摄影师进行标记和编辑的,因此这些图像的构图、纵横比和色彩都可以认为是经过优化的。
在此基础上,可以简单计算出原始高质量图像与初始裁剪图像之间的相对坐标偏移量,并根据公式(4),(5)作为回归网络训练的依据,其中 ,并且 是高质量图像缩放后的尺寸.
在这个学习阶段,我们对回归网络进行了20 epoch的训练,采用SGD优化方案,初始学习率为 ,decay为0.1。并且由于每个训练样本的大小不同,batch size被设置为1。
为了获得最佳的图像裁剪效果,我们在初始检测到的种子显著性区域之上对所提出的回归网络进行了评估。种子显著性区域是由表1中列出的4种最显著性矩形预测方法生成的。
正如我们在前一小节介绍,评价实验在MSR-ICD 和 FLMS 数据集上进行。在表2和3,我们定量分析在不同初始视觉显著矩形提案制作方法中,提出的回归网络在FLMS数据集和MSR-ICD数据集上的裁剪表现,计算剪切矩形与矩形之间的IoU和边界位移误差(BDE),这是同一应用于[4]和[32]的评价指标。
从这两个表中,我们注意到通过U-Net和审美回归网络裁剪矩形的整体IoU高于其他方法的视觉显著方法所产生最初的矩形的IoU,并相应地BdEs较低, 验证了基于U-Net的视觉显著性/注视点检测保持了感兴趣对象的更详细的信息并且有助于基于美学的裁剪。
4.4 系统调整 & 优化
通过分析视觉显著性矩形中感兴趣的目标与最终裁剪区域的关系,我们发现IoU和BDE对第一阶段提出的初始视觉显著性区域非常敏感。此外,我们发现从U-Net中检测到的视觉注视不能有效地表示感兴趣的目标,因为这些目标通常比注视覆盖更多的区域。
因此,为了提高裁剪效果,我们在SALICON数据集中引入训练集的ground truth,并对U-Net的二值交叉损失函数进行了研究,用来在不同视觉显著性检测结果中评估IoU和BDE。修改SALICON数据集中的ground truth,单一全局阈值的方法用来将灰度值图片
转换为二进制图像
,根据:
其中
是阈值的超参数。
然后,利用二元交叉熵损失和SGD优化方法对U-Net进行再训练。表4和表5给出了U-Net不同损耗函数的IoUs和BDEs,从中可以看出,与其他阈值或KLD损耗函数相比,使用二元交叉熵的U-Net,阈值为0.3的图像裁剪性能最优。因此,在最终的系统中,利用具有二值交叉熵损失的U-Net生成第一阶段的初始视觉显著性图,并利用所提出的回归网络预测最终美学得分较高的最优裁剪面积。
4.5 结果 & 分析
为了评价所提出方法的性能,我们将所提出的美学引导裁剪模型与其他基于学习的裁剪方法进行了比较,以作为我们的基线。
表6展示了该方法在MSR-ICD数据集上的IoUs和BDEs,以及ATC[9]、AIC[15]、LCC[4]、MPC[14]、ARC[52]、ABPAA[32]和A2-RL[30]。从表中可以看出,当我们使用IoUs和BDEs对检测到的裁剪矩形进行测量时,本文提出的图像裁剪方法与目前的其他方法相比具有更好的性能。
表7显示了我们的美学引导裁剪方法和FLMS数据集上的最新方法的相同度量,从表7中我们可以看到,我们提出的方法具有竞争性的高IoU值和低BDE值,显示了它的有效性。
在图9中,显示了在MSR-ICD数据上的该系统产生的裁剪图像,黄色的方框代表基于U-Net的最初的视觉显著性方法提取的矩形,红框是提出的回归网络预测的经过优化的审美矩形,阴影区域是原始图像中剩下的区域。从这些裁剪的图像中,我们可以看到,尽管每张图像的主要对象都包含在视觉显著性矩形中,但它们远没有达到很高的审美品质。但最终的裁剪矩形不仅包含了视觉定影,还提供了愉悦的视觉体验。
4.6 效率测量
略
4.7 失败的情况
虽然本文提出的图像裁剪方法在大多数测试图像上都能很好地工作,但是由于图像中缺乏视觉注视点,还是会发现一些失败的案例。在图10中,我们展示了两幅样本图像,这两幅图像的纹理区域很少或虚假,显著性图检测失败。在我们的实现中,如果没有发现视觉注视区域,我们将覆盖整个图像70%的中心区域作为初始矩形输入回归网络,得到最终的裁剪矩形。当预测的边界框不在原始图像的区域时,我们简单地使用输入图像的边界作为输出边界的上下边界。
5. 结论
我们未来的工作包括扩展我们的方法,将多个神经网络结合成一个单一的。除了IoU和BDE之外的其他度量标准也将是我们的研究方向