Page 484 - 《软件学报》2024年第6期
P. 484
3060 软件学报 2024 年第 35 卷第 6 期
我们的网络使用 PyTorch 框架 [37] 实现. 训练优化过程中使用小批量随机梯度下降法与 Adam 优化器 [38] . 在
训练参数方面, 我们设置批量大小 (batch size) 为 8, Adam 优化器的 β 1 = 0.9, β 2 = 0.999 , 初始学习率为 1E–3,
且每经过一个 epoch 学习率衰减至 0.98 倍, 共训练 100 个 epoch. 训练时网络的初始化使用了 Xavier 初始化方
法 [39] .
4.2 与现有方法的比较
在本节, 我们的方法与几个有代表性的超分辨率研究工作进行了对比, 其中包括单个图像超分方法 RCAN [18] ,
[9]
渲染图像超分方法 NSRR , 以及视频超分方法 RRN [12] . 我们将对比方法进行了代码复现, 并在相同的数据集上进
行训练和测试. 我们调整了 RRN [12] 的数据集输入, 使网络输入的低清图像是我们在低分辨率下渲染得到的场景图
像, 而不是将高清图像用高斯核模糊与下采样操作获得输入图像.
我们用两个指标来评估结果: 峰值信噪比 PSNR 与结构相似性指数度量 SSIM [35] , 两者均是在单个图像评估
工作中重要的度量指标, 且数值越高代表结果图像质量越好.
我们计算了各方法中 PSNR 和 SSIM 指标, 统计方式为各个场景测试集下所有测试图片的平均值. 表 1 对上
述指标进行了比较. 我们可以从中看出, 我们的方法在不同数据集上的两种度量指标均优于其他方法. 除指标外,
表 1 还给出了我们方法与对比方法单帧超分的推理时间对比, 其中超分规模均为 4×4, 目标分辨率为 1920×1080.
[9]
从中可以看出, 我们方法的性能对比两个计算机视觉方法 [12,18] 有明显优势, 与 NSRR 运行时间相近, 但我们的预
测结果有着更逼真的画面表现.
表 1 我们的方法与其他方法的性能指标与运行时间对比
指标 场景 RCAN NSRR RRN Ours
Bunker 26.54 24.88 27.79 28.42
PSNR (dB) Redwood Forest 18.68 17.25 19.98 24.25
Medieval Docks 21.24 20.79 22.82 25.37
Bunker 0.796 6 0.760 4 0.811 4 0.904 1
SSIM Redwood Forest 0.391 0 0.422 8 0.407 1 0.871 2
Medieval Docks 0.684 0 0.700 6 0.705 8 0.870 5
运行时间 (ms) 所有场景 41.52
23.04
93.17
24.42
图 6–图 8 给出了 3 个场景下各方法的预测结果, 其中 Input 表示输入的低清图像, Ours 表示我们方法的超分
结果, GT 表示真值图像. 从图中可以看到, 我们方法的超分预测结果在视觉效果上比其他方法更为逼真, 尤其在树
丛, 细密金属外皮等具有丰富纹理的区域, 低分辨率下的当前帧和历史帧的相关信息的还原效果较差, 这是因为即
使这些细微部分出现在了时序上连续的若干帧中, 其仍然无法提供足够的高频信息来为超分提升结果质量. 而我
们的方法使用高分辨率的几何缓存而不是历史帧信息, 能够帮助网络对这些区域的物体轮廓和表面纹理提供参考
从而进行合理预测, 同时网络使用我们的融合模块并对特征进行多尺度融合, 对不同信息进行有效选择与剔除, 从
而一定程度上避免了过度依赖几何缓存等引起的视觉错误, 提高了针对预测画面的感知真实. 因此我们也能够解
释表 1 中在 Redwood Forest 场景下我们方法的指标度量显著高于其他方法, 这是因为该场景下树丛, 草丛较多, 具
有复杂的几何轮廓和背景.
(a) Ours (b) GT
图 6 Bunker 场景下的我们方法与其他方法的视觉结果对比