此论文出版于2017年,是对计算机视觉中的美学评价的一个综述,介绍了传统方法(手工制作特征)和深度学习方法。本博文以介绍论文的思想和简略要点为主。
Introduction
- 图像美学质量评估常以摄影规则来判断,该规则可能受到照明、对比度和图像构图的影响
- 关于人类感知的美学质量评估,是与人类神经与之前经验有关,相关领域如心理学、美学和神经学
- 也有研究人员认定。人类美学评估只与人类视觉神经有关,美的事物会激活相应的大脑皮层,奖励愉悦感,而与人类自身的经验、文化等无关
- 艺术家有意的将这些能够刺激美学神经的结构、颜色等基础要素,以获得优秀的作品并形成一套准则,并被如今的摄影规则所吸收
- 用户在检索某个关键词,希望返回的图片是美丽的、令人愉悦的,这给某些系统的开发带来了启示
- 关于美学系统建立的挑战有:摄影规则的繁多与交织、不同美学流派、不同的处理流派(如黑白、彩色)和需要大量人类注释的数据才能进行可靠的实验(审美常是主观的)
- 所以,早期的美学质量评估常把任务视作分类或者回归问题,将图像二分地分成高质量或者低质量
- 传统方法采用的都是这种直观的模拟人类评估美学时的标准来确定美学质量,但是以数据驱动方式的方法更加有效,即使通过微调深度学习网络,以较少数据训练,也能取得较好的结果
- 有研究认为,噪声图像和高质量图像中存在差距,但是使用的如MSE、SSIM等标准测量出的差距实际上是将重点放在区分噪点图像和干净图像,并非从美学出发(博主认为,实际上不少噪点很多的图像也很美)
2. Background
2.1 deep neural network
2.2 image quality metrics
目前常用的如指标如PSNR,SSIM等,很多是为了超分辨率、、去噪、去伪影和提亮等增强任务所设置,数值的差异并没有主观地表现出人类审美的好坏,如下图,高的PSNR、SSIM反而美学质量差:
3. A typical pipeline
美学质量评估常视作:分类或者回归
3.1 feature extration
3.2 decision phase
4. Datasets
- Photo.Net数据集和DPChallenge数据集。这两个可以被认为是最早的大规模图像美学评估数据库。 Photo.Net包含20,278张图像,每张图像至少具有10个评分等级。评分范围是0到7,其中7个是最美的照片。更具挑战性的DPChallenge数据集包含多种评级。 DPChallenge数据集总共包含16,509张图像,后来被AVA数据集替换。
- CUHK-PhotoQuality(CUHK-PQ)数据集。它包含从DPChallenge.com和业余摄影师收集的17,690张图像。所有图像均被赋予二进制美学标签,并分为7个场景类别,即“动物”,“植物”,“静态”,“建筑”,“风景”,“人”和“夜”。来自该数据集的标准训练和测试集是50-50分割的随机分区或5倍交叉验证分区,其中阳性样本总数与阴性样本总数的总比率约为1:1。
- The Aesthetic Visual Analysis (AVA) dataset共包含约250k张图像。这些图像是从DPChallenge.com获得的,并用美学评分标记。具体来说,每个图像获得78到549票的分数,范围从1到10。将图像的平均分数作为真实性标签。更具有挑战性,因为图像位于中心得分范围内在美学方面可能是模棱两可的。对于二元美学质量分类的任务,将平均得分高于阈值5 +σ的图像视为正例,将平均得分低于5-σ的图像视为负例。此外,AVA数据集包含14个样式属性和60个类别属性。该数据集有两种典型的训练和测试划分,即(i)具有硬阈值σ= 0的具有?230k训练图像和?20k测试图像的大规模标准化分区(ii)和更易于建模的分区CUHK-PQ通过拍摄得分排名最高的10%和最低的10%的图像,得到约25k张图像进行训练和约25k张图像进行测试。阳性样本总数与阴性样本总数之比约为12:5。
- The Image Aesthetic Dataset(IAD)
- The Aesthetic and Attributes DataBase (AADB)
5. Conventional approaches with handcrafted features
5.1 simple image features
最开始,研究者通过全局特征研究图像中美学的表达,如清晰度、对比度、颜色等等,并将图像美学任务转换为二分类任务(好或者不好);后面产生转向局部特征,能够很好地补充全局特征的不足。。。
5.2 image composition(构图) features
图像composition(构图)与显著对象(主体)的位置有关;三分法则、景深和对比色都是构成高美学质量图像的因素。所以,有的研究者提取图像的前景、后景;有的去估计主体在图像中的位置;有的研究图像空间布局。。。
5.3 general-purpose features
有的研究者通过匹配图像与数据库中的相关特征进行美学评价。。。
5.4 task-specific features
是根据具体已知的任务进行优化的,利用如人类特征、几何特征、场景信息、固有字符等显性信息进行评估。
有研究者提出只关注有脸的照片,利用的是人脸相关特征的社会特征如人脸表情、人脸姿态等和人脸相关感知特征如人脸分布对称型、人脸组成、姿势一致性等信息,对人脸图片进行美学评估。更为细化的是,将人类分为多个区域如眼睛、鼻子和嘴巴,然后在这些sub-region再进行如清晰度、亮度、对比度和颜色的评估。
也有研究者在针对风景照片时,加入了地理位置的标签,考虑了不同地理位置的分类结果对美学的影响。。。
还有针对书法美学的研究。。。
6. Deep learning approaches
深度学习方法一般分为两类:采用从其他任务学到的一般深度特征,再训练新的分类器用于审美评估;直接从图像美学数据学习审美深层特征和分类器。
6.1 generic deep features
有的研究者用通用模型(其他任务)中学到的深层特征进行微调后,再去训练审美分类器。如[50]就使用AlexNet倒数第二层的特征(全连接FC层4096),并用空间金字塔的形式合成。
6.2 learned aesthetic deep features
features learned with single-column CNNs(单路CNN):
[52],提出针对不同种类的抽象任务,使用AlexNet,将最后一层CNN修改成2-dims的softmax概率。[53]也是在Alex基础上,conv5_55?层被替换成具体场景类别的卷积层,以平行汇集的方式,最后送进通道数被减少的全连接层(512),而softmax层从1000也变成2,进行美学评估。
[54]新建了一个4卷积层和2全连接层的CNN,并且全连接层只有16的大小,作者认为这样更有益于分类,
DMA-Net使用4个卷积层和3个全连接层,最后输出softmax概率。DMA-Net使用了patch的概念,将patch使用特定的规则进行排序并聚合来训练网络。
(看出很多都是将经典网络,尤其是AlexNet(工作都较早)的全连接层进行特定修改变成美学分类器,网络仍然保持原始结构,当时的学者都把美学评估当成特殊的分类/回归任务)
features learned with multi-column CNNs
RAPID[23]被视作用美学数据训练CNN的第一次尝试,也采用类似AlexNet的结构,最后的全连接层替换成2-dims的概率输出,目的是进行二分类。考虑了全局图像和局部图像(patch),并将两部分的CNN结合形成一体形成DCNN(双列)。由于考虑了全局和局部信息,并且使用美学数据集进行训练,效果较之前方法优秀。
[26],基于多列的VGG网络进行设计,并加入了自适应池化层来适应不同大小的输入图像,并且综合场景分类信息和美学信息来进行美学评估。但是多尺度的VGG参数可能存在冗杂或者重叠,网络容易过拟合。
[56]中的BDN可视作RAPID的拓展版,BDN对14种不同标签的CNN进行预训练,然后将其信息进行级联,再作为最终的输入输入到CNN中进行美学评估。多数量的网络级联,拓展了参数空间和学习能力。
[57]提出的两列CNN并列的结构,CNN1的输入是图像patch,但是并不是类似其他网络一样随机sample得出的patch,而是经过处理的带有文本信息的高相应区域;而CNN2则是全局图像作为输入。最后将两个CNN级联起来进行美学评估/分类。
features learned with multi-task CNNs
[58]提出的方法包含了三个特定类别的CNN,分别针对主体、场景和纹理。场景CNN使用等比缩略过的全局图像作为输入,并输出2-dims的softmax分类;主体CNN使用全局图像和主体区域图像作为输入,目的是提取突出的主体信息;纹理CNN使用16个随机剪裁的patch作为输入。使用3类SVM进行分类,主要任务是美学分类,也可以做普通分类任务用。
7. Evaluation critiria and existing results
由于不同的文章采用了不同的标准和数据集,直接进行性能比较不合适,所以作者给出了表1这些多种的比较方法,然后表2、3是在CUHK-PG、AVA数据集上做的实验(这两个数据集作为standard数据集)
8. Experiments on deep learning features
双路CNN的baseline performance就和单路CNN的SOTA性能差不多甚至更好(侧面证明添加局部特征或者其他如目标、场景特征能有效地增加美学评估网络性能)
8.1 formulation and base CNN structure
8.2 training from scratch vs fine-tuning
用VGG-16作为基础架构的性能会比AlexNet会好
8.3 mini-batch formulation
8.4 triplet pre-training and multi-task learning
讨论如果在分类的基础上进行美学评估是否能够有助于美学评估的精度,比如先确定一个图片属于“风景照”这一副标签,然后再进行美学评估。
下图是单路CNN的baseline结构:
图13和14诠释了高质量图像常具有高颜色对比度或景深的;低质量图像常常是低图像色调(low image tone,不知怎么翻译比较好)。定量和定性的结果都表明了小批量形成和微调策略的重要性。
8.5 multi-column deep architecture
下图是双路CNN的baseline结构
8.6 model depth and layer-wise effectiveness
得出结论:审美评价的表现一般得益于模型深度。黑白类别图像的美学分类精度普遍低于景观类别图像的美学分类精度。
8.7 from generic aesthetic to user-specific taste
美学是具有很强的主观性质的,如何建立一个具有个人品味的美学评估系统是非常具有挑战性的。可以遵循迁移学习背后的思想,通过将学习到的审美特征迁移到适合个人品味的方式来直接建模个人用户的审美偏好。
9. Image aesthetic manipulation
略
10. Conclution and potential directions
略