Page 339 - 《软件学报》2021年第11期
P. 339
丁玲 等:使用 VGG 能量损失的单图像超分辨率重建 3665
end for
梯度的更新可以使用任何标准的基于梯度的学习规则,我们在实验中使用动量方法.
3 实 验
[6]
我们的实验数据集为 Set5 ,Set14 [20] ,BSD100 [21] 和 CelebA [22] ,在 CelebA 上,使用 128×128 的图像进行训练.
所有实验在真实图像数据集上采用 4×分辨率放缩,输入图像 Input_L 是真实图像分辨率的 1/16.为了进行定量
的比较,本文使用的指标为峰值信噪比(peak signal-to-noise ratio,简称 PSNR)和结构相似性(structural SIMilarity,
[9]
简称 SSIM).本文的对比实验所采用的方法为 bicubic interpolation、SRCNN 、SelfE×SR [23] 、SRResNet 以及基
于 VGG-22 的 SRGAN [11] (因为基于 VGG-22 的 SRGAN 在量化指标上表现更好,在针对生成的高分辨率图像定
性分析中,采样基于 VGG-54 的 SRGAN 结果,该结果从定性分析上生成的图像相对 VGG-22 更加有效),相关数
据获取于 https://github.com/jbhuang0604/SelfE×SR.本文使用的 VGG 编码器和 VGG-UAE 中使用的 VGG 网络
架构为 VGG-19,该网络为 ImageNet 上预训练的模型.为了方便计算和比较,我们将高分辨率图像的像素规则化
−4
到区间[−1,1].在梯度下降算法中,我们选择 Adam 方法优化梯度,并使用参数β 1 =0.9,学习率为 10 ,L con 和 L GAN
−3
5
的比例系数固定为 10 ,迭代次数为 10 .本文使用的 Generator 中含有 16 个残差块.本文的实验结果见表 1.
Table 1 PSNR and SSIM on different datasets based on different generative models
表 1 不同的生成模型在不同数据集上的 PSNR 和 SSIM
Set5 Bicubic SRCNN SelfE×SR SRResNet SRGAN VGG-SRGAN HR
PSNR 28.44 30.10 30.17 32.09 29.68 30.02 ∞
SSIM 0.821 4 0.859 1 0.880 0.901 9 0.847 2 0.851 1 1
Set14 Bicubic SRCNN SelfE×SR SRResNet SRGAN VGG-SRGAN HR
PSNR 25.27 27.06 27.46 28.49 26.12 27.07 ∞
SSIM 0.741 6 0.780 7 0.796 4 0.818 4 0.750 1 0.761 1 1
BSD100 Bicubic SRCNN SelfE×SR SRResNet SRGAN VGG-SRGAN HR
PSNR 25.87 26.69 26.79 27.39 25.02 26.07 ∞
SSIM 0.690 2 0.722 1 0.732 0 0.759 5 0.658 9 0.662 1 1
表 1 展示了本文提出的 VGG-SRGAN 以及对比算法、真实图像的 PSNR 和 SSIM 指标.从定量的比较来看,
本文提出的方法虽然优于 SRGAN,但是不及传统的 SRResNet.究其原因,基于 ResNet 及其改进的网络模型在损
失函数上使用基于内容的损失,其形式与 PSNR 和 SSIM 指标非常类似,因此在测试中,相对于 SRGAN 和本文提
出的方法更有优势.为了直观地展示实验中的生成图像,本文将生成的部分图像展示如图 4 所示.
如图 4 所示,细节部分是我们将图像放大同样倍数后截取的细节,从图 4 可以看出,我们提出的 VGG-
SRGAN 模型能够有效地生成与真实图像对应的高分辨率图像,并对图像的细节部分(纹路、断点、凸起等)有
一定的还原能力.为了进行直观的对比,我们将定量分析中效果最好的 SRResNet 和 SRGAN 在本数据上的生成
图像进行对比.
图 5 展示了 SRResNet、SRGAN、VGG-SRGAN 以及真实图像的细节对比,其中,左数第 1 行第 1 幅图像为
SRResNet 生成的图像,第 2 行第 1 幅图像为上面图像中对应的放大细节;第 1 行的第 2 幅图像是基于 SRGAN
生成的,其中,VGG 特征编码网络层数为 52 层;第 1 行的第 3 幅图像是 VGG-SRGAN 生成的图像,其中,VGG 编
码器和 VGG-UAE 中 VGG 的层数都是 19.如图 5 所示,无论是 SRGAN 还是我们提出的 VGG-SRGAN 都能生
成比 SRResNet 更加清晰锐利的高分辨率图像,具体体现在细节、纹路、凸起和断点上.SRGAN 和 VGG-SRGAN
相比,生成的图像虽然更加锐利,但是其细节点处的噪声也更多.VGG-SRGAN 在保持一定细节信息的同时,还使
生成的图像更加干净,同时在信噪比等指标上也优于 SRGAN.其他生成高分辨率图像与真实图像的对比实例如
图 6 所示.
如图 6 所示,第 1 行图像和第 2 行图像来自数据集 Set14、Set5 和 BSD100,最后一行数据来自于 CelebA 数
据集.对于 Set14、Set5 和 BSD100 数据集,由于样本数较少,在算法中我们保证足够多的迭代次数,从而尽可能
降低真实图像和生成图像之间的损失;但是对于 CelebA 数据集,由于样本数较多,在总迭代次数一定的前提下,