Page 487 - 《软件学报》2024年第6期
P. 487
张浩南 等: 高清几何缓存多尺度特征融合的渲染超分方法 3063
几何缓存在不同场景下生成的时间花销通常是不同的, 其与运行时场景几何图形的复杂性密切相关. 由表 2 可以
看出, 生成几何缓存的时间花销远低于同分辨率下渲染内容图像的时间开销, 在我们使用的 3 个场景中, 几何背景
较为复杂的 Redwood Forest 场景生成所需的几何缓存平均仅为 1.40 ms/帧, 而直接渲染生成高分辨率图像花销较
大. 因此在一定条件下, 生成低清图像与高清几何缓存, 并用网络进行推理的开销会比直接渲染高清图像更为低
廉. 这也是本次研究的重要动机.
表 2 不同场景生成几何缓存和内容图像的运行时间 (ms)
数据/场景 Bunker Redwood Forest Medieval Docks
几何缓存 (1920×1080) 0.11 1.40 0.20
低清图像 (480×270) 5.18 4.37 9.75
网络推理 (4×4) 23.04 23.04 23.04
总计 28.33 28.81 32.99
高清图像 (1920×1080) 40.58 14.21 98.62
注: 所有数据在NVIDIA RTX 3090上测量
我们将网络转为 ONNX 模型 [40] 并使用 16 位精度的 NVIDIA TensorRT [41] 进行加速. 从表 2 中可以看出, 我们
的方法基本独立于场景复杂度, 对不同场景下产生高清帧的平均时间开销稳定在 30 ms 附近, 能达到大约 30 FPS
的帧率, 满足实时渲染的要求. 同时对于较为复杂的场景, 我们的方法可以有效提升画面的渲染速度. 例如, 在
1920×1080 高分辨率并启用光线追踪的条件下, Medieval Docks 和 Bunker 场景存在高光反射丰富与含较多半透明
材质的特殊环境, 这些环境下画面帧的渲染时间达到了 141 ms, 尤其是 Medieval Docks 场景的每帧平均渲染时长
接近 100 ms, 会在实时渲染场景下会产生严重的卡顿, 远低于同分辨率几何缓存加上低分辨率图像生成与网络推
理的总时间开销 (约为 60 ms). 而 Redwood Forest 场景本身的光照计算量已经有较大优化, 因此直接渲染高清图
像的开销较小. 值得注意的是, 我们的网络可以进一步优化性能, 例如, 使用 CUDA 和 cuDNN [42] 优化, 而不是使用
TensorRT 下的 ONNX 网络推理. 这些优化方法的探索将作为我们未来的研究工作.
4.4 消融研究 Add
在本节中, 我们对网络模型中的融合部分与作为网络输入的几何缓存进行了消融研究, 以评估它们在本次研
究工作中的有效性.
4.4.1 融合部分
相较于简单的连接 (concat) 或相加 (add) 操作, 我们在网络模型中设计的融合模块会对几何缓存特征进行 SE
操作, 再让其与内容图像特征经过残差块以填补内容细节, 最终将其与经过 SE 操作的几何缓存连接. 为了证明该
融合模块在网络结构中的有效性, 我们将网络中的各融合模块替换为连接与相加操作, 并对网络进行重新训练和
测试, 对比结果如表 3 所示.
表 3 不同场景下各融合操作的性能指标对比. 超分规模均为 4×4
指标 场景 Concat Ours
Bunker 27.86 28.00 28.42
PSNR (dB) Redwood Forest 23.91 24.10 24.25
Medieval Docks 25.14 25.32 25.37
Bunker 0.891 6 0.895 9 0.904 1
SSIM Redwood Forest 0.864 1 0.867 5 0.871 2
Medieval Docks 0.873 2 0.868 3 0.870 5
从表 3 中可以看出, 在不同场景下网络中的融合操作对应的性能指标总体优于简单的连接和相加操作, 而且
相加操作的大部分性能指标明显低于其他两种操作, 这是由于相加操作的结果特征的通道数更少, 无法为网络提