Page 339 - 《软件学报》2021年第11期
P. 339

丁玲  等:使用 VGG 能量损失的单图像超分辨率重建                                                     3665


                    end for
                    梯度的更新可以使用任何标准的基于梯度的学习规则,我们在实验中使用动量方法.
                 3    实   验

                                         [6]
                    我们的实验数据集为 Set5 ,Set14      [20] ,BSD100 [21] 和 CelebA [22] ,在 CelebA 上,使用 128×128 的图像进行训练.
                 所有实验在真实图像数据集上采用 4×分辨率放缩,输入图像 Input_L 是真实图像分辨率的 1/16.为了进行定量
                 的比较,本文使用的指标为峰值信噪比(peak signal-to-noise ratio,简称 PSNR)和结构相似性(structural SIMilarity,
                                                                            [9]
                 简称 SSIM).本文的对比实验所采用的方法为 bicubic interpolation、SRCNN 、SelfE×SR         [23] 、SRResNet 以及基
                 于 VGG-22 的 SRGAN [11] (因为基于 VGG-22 的 SRGAN 在量化指标上表现更好,在针对生成的高分辨率图像定
                 性分析中,采样基于 VGG-54 的 SRGAN 结果,该结果从定性分析上生成的图像相对 VGG-22 更加有效),相关数
                 据获取于 https://github.com/jbhuang0604/SelfE×SR.本文使用的 VGG 编码器和 VGG-UAE 中使用的 VGG 网络
                 架构为 VGG-19,该网络为 ImageNet 上预训练的模型.为了方便计算和比较,我们将高分辨率图像的像素规则化
                                                                                             −4
                 到区间[−1,1].在梯度下降算法中,我们选择 Adam 方法优化梯度,并使用参数β 1 =0.9,学习率为 10 ,L con 和 L GAN
                                  −3
                                               5
                 的比例系数固定为 10 ,迭代次数为 10 .本文使用的 Generator 中含有 16 个残差块.本文的实验结果见表 1.
                            Table 1    PSNR and SSIM on different datasets based on different generative models
                                      表 1   不同的生成模型在不同数据集上的 PSNR 和 SSIM
                          Set5    Bicubic  SRCNN    SelfE×SR   SRResNet  SRGAN   VGG-SRGAN    HR
                          PSNR     28.44    30.10    30.17     32.09     29.68      30.02     ∞
                          SSIM    0.821 4   0.859 1   0.880    0.901 9   0.847 2   0.851 1     1
                          Set14   Bicubic  SRCNN    SelfE×SR   SRResNet  SRGAN   VGG-SRGAN    HR
                          PSNR     25.27    27.06    27.46     28.49     26.12      27.07     ∞
                          SSIM    0.741 6   0.780 7   0.796 4   0.818 4   0.750 1   0.761 1    1
                         BSD100   Bicubic  SRCNN    SelfE×SR   SRResNet  SRGAN   VGG-SRGAN    HR
                          PSNR     25.87    26.69    26.79     27.39     25.02      26.07     ∞
                          SSIM    0.690 2   0.722 1   0.732 0   0.759 5   0.658 9   0.662 1    1

                    表 1 展示了本文提出的 VGG-SRGAN 以及对比算法、真实图像的 PSNR 和 SSIM 指标.从定量的比较来看,
                 本文提出的方法虽然优于 SRGAN,但是不及传统的 SRResNet.究其原因,基于 ResNet 及其改进的网络模型在损
                 失函数上使用基于内容的损失,其形式与 PSNR 和 SSIM 指标非常类似,因此在测试中,相对于 SRGAN 和本文提
                 出的方法更有优势.为了直观地展示实验中的生成图像,本文将生成的部分图像展示如图 4 所示.
                    如图 4 所示,细节部分是我们将图像放大同样倍数后截取的细节,从图 4 可以看出,我们提出的 VGG-
                 SRGAN 模型能够有效地生成与真实图像对应的高分辨率图像,并对图像的细节部分(纹路、断点、凸起等)有
                 一定的还原能力.为了进行直观的对比,我们将定量分析中效果最好的 SRResNet 和 SRGAN 在本数据上的生成
                 图像进行对比.
                    图 5 展示了 SRResNet、SRGAN、VGG-SRGAN 以及真实图像的细节对比,其中,左数第 1 行第 1 幅图像为
                 SRResNet 生成的图像,第 2 行第 1 幅图像为上面图像中对应的放大细节;第 1 行的第 2 幅图像是基于 SRGAN
                 生成的,其中,VGG 特征编码网络层数为 52 层;第 1 行的第 3 幅图像是 VGG-SRGAN 生成的图像,其中,VGG 编
                 码器和 VGG-UAE 中 VGG 的层数都是 19.如图 5 所示,无论是 SRGAN 还是我们提出的 VGG-SRGAN 都能生
                 成比 SRResNet 更加清晰锐利的高分辨率图像,具体体现在细节、纹路、凸起和断点上.SRGAN 和 VGG-SRGAN
                 相比,生成的图像虽然更加锐利,但是其细节点处的噪声也更多.VGG-SRGAN 在保持一定细节信息的同时,还使
                 生成的图像更加干净,同时在信噪比等指标上也优于 SRGAN.其他生成高分辨率图像与真实图像的对比实例如
                 图 6 所示.
                    如图 6 所示,第 1 行图像和第 2 行图像来自数据集 Set14、Set5 和 BSD100,最后一行数据来自于 CelebA 数
                 据集.对于 Set14、Set5 和 BSD100 数据集,由于样本数较少,在算法中我们保证足够多的迭代次数,从而尽可能
                 降低真实图像和生成图像之间的损失;但是对于 CelebA 数据集,由于样本数较多,在总迭代次数一定的前提下,
   334   335   336   337   338   339   340   341   342   343   344