Page 480 - 《软件学报》2024年第6期

P. 480

3056 软件学报 2024 年第 35 卷第 6 期

(2) 场景深度 (scene depth), 共有 1 个通道, 存储了场景中各像素的深度值. 场景深度有助于辨别物体轮廓与屏
幕空间中像素对应的前后关系, 从而对更接近镜头的物体着重预测更多的细节.
(3) 粗糙度 (roughness), 共有 1 个通道, 描述各像素的表面粗糙程度, 其决定了反射的模糊或清晰度.
(4) 金属色 (metallic), 共有 1 个通道, 描述各像素的表面在多大程度上“像金属”, 非金属的对应值为 0, 金属的
对应值为 1. 粗糙度与金属色则对高光区域有影响, 例如在粗糙度较大的区域所预测出的高光应该是大且暗淡的,

从而帮助网络不会被低清图像中的走样而对高光进行错误估计.
(5) 法向 (world normal), 共有 3 个通道, 存储了场景中各像素的法线值, 其影响着光线反射, 折射后的着色结
果. 法向能辅助模型识别凹凸不平的表面, 也即法向变化强烈的区域, 并在超分预测时展现合理的表面细节.

(a) 底色 (b) 场景深度 (c) 粗糙度 (d) 金属色 (e) 法向
图 2 本文方法所采用的几何缓存

由于几何缓存并非真实的渲染图像, 过于简单的处理方式会导致最终预测结果的部分区域出现颜色偏差以及
不合理的高光、阴影. 因此, 如何有效利用这些包含物体轮廓、表面纹理等丰富高频信息的几何缓存是方法设计
中需要考虑的问题. 为此, 我们提出了一种针对高清几何缓存特征和低清图像特征的新的融合方法, 从而提升超分

结果的保真度. 基于这个融合方法, 我们设计了一个端到端的高性能神经网络, 能够进行实时的渲染图像超分.
3.2 方法设计

如图 3 所示, 我们网络整体划分为 3 个子网络: 特征提取, 特征融合与解码部分. 各网络层下方数字为该层的
输出通道数, 图 3 中粉色标注卷积层的卷积核大小为 3×3. 转置卷积层和绿色标注卷积层的卷积核大小为 2×2, 步
长为 2. 不同部分在图 3 中带颜色的虚线框进行划分. 我们用 I LR ,I G ,I HR 分别表示作为输入的低清内容图像, 几何缓
存信息与最终输出的高清内容图像.
Conv
Shallow Features Zero Upsampling Conv&ReLU Conv&ReLU F LR,1 Conv& ReLU Conv& ReLU F LR,2 Conv & ReLU Conv & ReLU F LR,3
I LR
低清图像 F LR,0
(3 通道) 64 64
Fusion F FU,1 Fusion F FU,2 Fusion
18 18 32 16 32 32
Shallow Features 32 Conv& ReLU Conv& ReLU 64 Conv & ReLU Conv & ReLU 128

I G F G,0 Conv&ReLU Conv&ReLU F G,1 F G,2 F G,3
几何缓冲区 32 32 64 64
(9 通道)
18 32 16
F FU,3 (F HR,3 )
Conv&ReLU Conv&ReLU Concat Transpose Conv& ReLU Conv& ReLU Concat Conv Transpose

F HR,1 (I HR ) F HR,2
高清预测结果
3 32 64 32 64 64 128 64
特征提取特征融合解码部分

图 3 整体网络架构

475 476 477 478 479 480 481 482 483 484 485