Perceptual Quality Assessment of Smartphone Photography(论文笔记)
论文笔记
论文地址:Perceptual Quality Assessment of Smartphone Photography
源码地址:https://github.com/h4nwei/SPAQ
1. Contributions
- 提出了一个大型图数据库SPAQ,包含11125张真实照片。为了便于在不同的相机之间进行比较,SPAQ中1000张照片中的一个子集被不同的智能手机在相同的视觉场景下拍摄。每张图片都有EXIF数据,这些数据提供了被捕捉场景的有用信息(如时间和亮度)和相机设置(如ISO和f-number)。
- 收集了每幅图像的平均意见分数(MOS)并验证其可靠性。此外,每个图像都标注了五个与感知质量[9]密切相关的图像属性,还根据内容信息将图像分类为9个场景类别,以便于首次探索感知质量和高级语义之间的交互作用。
- 基于主观数据,深入分析了EXIF标签、图像属性、场景类别标签与图像质量的关系。并且对不同智能手机的摄像头进行比较和排名。
- 使用SPAQ训练由基线和多任务深度神经网络构建的盲图像质量评估(BIQA)模型。第一次从计算的角度研究EXIF标签、图像属性和场景标签是如何影响质量预测的。更重要的是,研究结果揭示了如何为智能手机创建更好的摄影系统。
2. SPAQ Databse
2.1 Database Construction
SPAQ中的每张图像都包括:
(1) EXIF标签,包括1)焦距,2)f值(与孔径大小成反比),3)曝光时间,4)ISO(传感器的光敏度),5)亮度值(场景中焦点的亮度),6)flash (flash是否触发),7)时间(记录图像时)。
(2) MOS,表示图像整体质量的连续分值[0,100]。分数越高表示感知质量越好。
(3) 图像属性分数,包括1)亮度,2)色彩,3)对比度,4)噪声,5)锐度。与MOS类似,每个属性都用一个连续的分数来表示[0,100]
(4) 场景类别标签,包括1)动物,2)城市,3)人,4)室内,5)景观,6)夜景,7),植物,8)静物,9)其他,见图1。静物是指包含明显静态物体(不是活物)的图像;“其他”的类别包括注释者发现难以识别的视觉内容由于抽象的性质或极差的质量图像。值得注意的是,一个图像可能有多个标签。
2.2 Subjective Testing
MOSs and Image Attribute Scores
如图2(a)所示,标注者被要求在[0,100]的连续尺度上对一幅图像的质量进行评分,平均分为五个质量等级(“bad”、“poor”、“fair”、“good”和“excellent”)。此外,标注者还要提供5个从0到100的连续分数,分别代表亮度、色彩、对比度、噪音和锐度。
Scene Category Labels
用多标签的方法为SPAQ中的每幅图像提供场景类别标签,包括动物、城市景观、人、室内场景、景观、夜景、植物、静物等。如图2 (b)所示,其中图像可以被一个或多个类别标记。
3. Subjective Data Analysis
3.1 Interactions between Perceptual Image Quality and Various Factors
EXIF Tags
如图3所示,较高的ISO值会产生更亮的图像,但会产生大量的噪声(见图3 (a)和(b)),这表明ISO对于图像质量是可预测的,尤其是对于夜景。如果相机抖动或物体快速移动,即使相对较短的曝光时间也会出现运动模糊(见图3 ?),如果我们将曝光时间加倍,也会出现过度曝光(见图3 (d))。此外,孔径大小不同,景深也不同,一般来说,孔径越小,焦距范围越大,因此外模糊发生的可能性就越小(见图3 (e)和(f))。图3 (g)和(h)中的两个不同的视觉场景是用相同的相机设置拍摄的,我们可以看到它们受到类似的畸变组合,导致相似的感知质量。总之,EXIF标签传达了丰富的侧面信息,可能有助于预测图像质量。
Image Attribute Scores
从表2中MOSs和属性得分之间的Spearman相关系数(SRCC)可知,与亮度和色彩相比,清晰度和噪声与图像质量有更高的相关性。这与人类眼睛高度适应提取局部结构,对全局亮度变化不太敏感的假设是一致的。
Scene Category Labels
如图4所示,首先,“其他”类的MOSs集中在低质量水平上。这是意料之中的,因为这类图像由于视觉质量差而无法识别。其次,夜景(Night scene)的图像通常表现出质量差,有大量曝光不足和噪声区域(见图3 (g)和(h)),强调了微光摄影的挑战。最后,不同场景类别的图像具有显著的MOS分布,说明语义对图像质量的视觉感知有较高的影响。
4. Objective Quality Models
4.1 Baseline Model—BL
Architecture
backbone: ResNet-50,将最终的全连接层改为一个输出,并去掉softmax函数。
Input mini-batch
{x(i),q(i)}m,i=1,其中x(i)是第i张输入输入彩色图像,q(i)是相应的MOS。
预处理: 排除了会显著改变图像质量的预处理,如全局平均去除和对比度归一化。
Output
图像x(i)的预测分数q^。
Loss Function
BL的参数记为WB。
4.2 Multi-Task Learning from EXIF Tags—MT-E
Architecture
MT-E包括两个子网络:
(1) 第一个子网络与BL一样,x(i)为输入图像,并且回归一个通用质量分数g^(i)。
(2) 第二个子网络组成一个简单的全连接层,其接受o(i)并产生一个偏置b(i),b(i)是一个学习偏置,增加到通用的质量分数中。
Input mini-batch
{x(i),o(i),q(i)}m,i=1,其中o(i)是包含x(i)编码的EXIF标签的特征向量。
Output
q^(i) = g^(i) + b^(i)
Loss Function
其中α1 = α2 = 0.5,MT-E的参数记为WE。
4.3 Multi-Task Learning from Image Attributes—MT-A
Architecture
通过学习联合预测图像属性,将BL结构扩展到MT-A,最终的全连接层输出六个标量,分别表示图像的整体质量和图像属性的程度。也就是说,直到最后一个完全连接层,这6个任务共享计算。
Input mini-batch
{x(i),r(i),q(i)}m,i=1,其中r(i)是存储ground truth图像属性值x(i)的五维向量。
Output
六个标量,分别表示图像的整体质量和图像属性的程度。
Loss Function
其中r^j是一个m维的向量,表示当前的mini-batch的第j个图像属性预测 ,MT-A的参数记为WA。
4.4 Multi-Task Learning from Scene Labels—MT-S
探讨将语义信息纳入质量预测的有效性,利用多任务学习训练了MT-S模型。
Architecture
将BL分成两个子网络:
(1) 场景分类,让之前的全连接层产生9个连续激活项s(i),根据softmax函数将它们转变成概率p(i)
(2) 质量回归。
Input mini-batch
{x(i),p(i),q(i)}m,i=1,其中p(i)是c个非零项的9维向量,每个设为1/c,对应x(i)的c≥1个场景标签
Output
让之前的全连接层产生9个连续激活项s(i),根据softmax函数将它们转变成概率p(i),质量回归输出分数q^(i)。
Loss Function
对于质量回归,采用公式1作为经验损失。
将两个损失联合训练
选择学习最优加权作为任务相关的不确定性。在回归中,我们将似然函数定义为由网络输出和观测噪声标量σ1给出的拉普拉斯分布:
在分类中,定义似然函数为通过softmax函数的模型输出s^(i)的一个缩放版:
其中,σ2是一个正标量,控制着诱导离散分布的均匀性,y(i)∈{1,…,9}
联合Loss Function
上述损失通过两个日志项抑制了高任务不确定性,MT-S可以学习噪声任务,但会因此受到惩罚。公式8也不鼓励非常低的任务不确定性。例如,一个低σ1会夸大?1(WB)的贡献。随着模型参数{WB,WS}而估算参数为σ1和σ1。
5. Result
从表4中可以得知:
(1) 为合成失真而设计的BIQA模型(例如QAC和DIIVINE)通常不适用于真实的相机畸变,这并不奇怪,因为两种数据分布之间存在显著差异。
(2) 在LIVE Challenge数据库上验证,FRIQUEE在SPAQ上提供了优越的性能,这验证了手工制作的特征在捕获现实扭曲的特征的有效性。
(3) BRISQUE也获得了类似的性能,这表明局部归一化像素强度可以揭示真实失真的有用属性。
(4) 通过将两组特征集中在一起,DBCNN[41]优于所有BIQA方法,包括基于ResNet-50提出的BL。这表明,DNNs成功地学习了对真实失真敏感的层次特征,而更高级的骨干(如DB-CNN)提供了额外的性能提升。
(5) 所提出的baseline及其变体的表现是最好的,验证了本文的训练和多任务学习策略。