Page 484 - 《软件学报》2024年第6期
P. 484

3060                                                       软件学报  2024  年第  35  卷第  6  期


                    我们的网络使用       PyTorch  框架  [37] 实现. 训练优化过程中使用小批量随机梯度下降法与             Adam  优化器  [38] . 在
                 训练参数方面, 我们设置批量大小            (batch size) 为  8, Adam  优化器的   β 1 = 0.9, β 2 = 0.999 , 初始学习率为  1E–3,
                 且每经过一个     epoch  学习率衰减至    0.98  倍, 共训练  100  个  epoch. 训练时网络的初始化使用了     Xavier 初始化方
                 法  [39] .

                  4.2   与现有方法的比较
                    在本节, 我们的方法与几个有代表性的超分辨率研究工作进行了对比, 其中包括单个图像超分方法                                RCAN [18] ,
                                    [9]
                 渲染图像超分方法       NSRR , 以及视频超分方法       RRN [12] . 我们将对比方法进行了代码复现, 并在相同的数据集上进
                 行训练和测试. 我们调整了        RRN [12] 的数据集输入, 使网络输入的低清图像是我们在低分辨率下渲染得到的场景图
                 像, 而不是将高清图像用高斯核模糊与下采样操作获得输入图像.
                    我们用两个指标来评估结果: 峰值信噪比              PSNR  与结构相似性指数度量        SSIM [35] , 两者均是在单个图像评估
                 工作中重要的度量指标, 且数值越高代表结果图像质量越好.
                    我们计算了各方法中        PSNR  和  SSIM  指标, 统计方式为各个场景测试集下所有测试图片的平均值. 表                 1  对上
                 述指标进行了比较. 我们可以从中看出, 我们的方法在不同数据集上的两种度量指标均优于其他方法. 除指标外,
                 表  1  还给出了我们方法与对比方法单帧超分的推理时间对比, 其中超分规模均为                       4×4, 目标分辨率为    1920×1080.
                                                                                  [9]
                 从中可以看出, 我们方法的性能对比两个计算机视觉方法                   [12,18] 有明显优势, 与  NSRR 运行时间相近, 但我们的预
                 测结果有着更逼真的画面表现.

                                      表 1    我们的方法与其他方法的性能指标与运行时间对比

                        指标                场景             RCAN         NSRR          RRN         Ours
                                          Bunker          26.54        24.88       27.79        28.42
                      PSNR (dB)        Redwood Forest     18.68        17.25       19.98        24.25
                                       Medieval Docks     21.24        20.79       22.82        25.37
                                          Bunker         0.796 6      0.760 4      0.811 4      0.904 1
                        SSIM           Redwood Forest    0.391 0      0.422 8      0.407 1      0.871 2
                                       Medieval Docks    0.684 0      0.700 6      0.705 8      0.870 5
                     运行时间 (ms)           所有场景             41.52
                                                                                                23.04
                                                                                   93.17
                                                                       24.42

                    图  6–图  8  给出了  3  个场景下各方法的预测结果, 其中       Input 表示输入的低清图像, Ours 表示我们方法的超分
                 结果, GT  表示真值图像. 从图中可以看到, 我们方法的超分预测结果在视觉效果上比其他方法更为逼真, 尤其在树
                 丛, 细密金属外皮等具有丰富纹理的区域, 低分辨率下的当前帧和历史帧的相关信息的还原效果较差, 这是因为即
                 使这些细微部分出现在了时序上连续的若干帧中, 其仍然无法提供足够的高频信息来为超分提升结果质量. 而我
                 们的方法使用高分辨率的几何缓存而不是历史帧信息, 能够帮助网络对这些区域的物体轮廓和表面纹理提供参考
                 从而进行合理预测, 同时网络使用我们的融合模块并对特征进行多尺度融合, 对不同信息进行有效选择与剔除, 从
                 而一定程度上避免了过度依赖几何缓存等引起的视觉错误, 提高了针对预测画面的感知真实. 因此我们也能够解
                 释表  1  中在  Redwood Forest 场景下我们方法的指标度量显著高于其他方法, 这是因为该场景下树丛, 草丛较多, 具
                 有复杂的几何轮廓和背景.










                                           (a) Ours                     (b) GT
                                     图 6 Bunker 场景下的我们方法与其他方法的视觉结果对比
   479   480   481   482   483   484   485   486   487   488   489