Page 483 - 《软件学报》2024年第6期
P. 483
张浩南 等: 高清几何缓存多尺度特征融合的渲染超分方法 3059
码, 每层次解码过程将后一层次的结果作为输入, 先经过一次转置卷积操作, 用以扩张特征图尺寸和降低通道数,
再通过跳跃连接与对应层次的融合特征进行连接, 最后经过两层卷积得到该层次解码的输出结果:
F HR,i = H DE,i (F HR,i+1 ,F FU,i ) = H DE-Convf,i ([ConvTrans DE,i (F HR,i+1 ),F FU,i ]),
F HR,i+1 ,F HR,i 分别表示第 层次解码器的输入 i+1 层次的输出) 和输出
其中, i (第 ( i = 1,2,3 ), 特别地, F HR,3 = F FU,3 .
i
另外 H DE,i 表示第 层次解码器运算, H DE-Convf,i 将连接结果进行 2 次 3×3 大小的卷积操作, 并得到输出结果.
[·,·] 表示对两个特征的连接操作. 关于卷积输出通道数等
ConvTrans DE,i (·) 表示第 i 层次解码器中的转置卷积操作.
细节见图 3. 最终预测的高清内容图像为第 1 层次的解码结果, 即 I HR = F HR,1 .
总的来说, 我们设计的方法利用 3 个尺寸规模上的“编码-解码”操作提升渲染内容图像的超分质量, 但在扩张
路径部分, 我们让内容图像和几何缓存的特征进行相似而权值独立的卷积操作, 以此帮助模型区分和学习两者在
图像超分过程中的不同作用. 浅层特征的提取对内容图像与几何缓存进行低层次的特征提取, 增加了网络深度, 从
而使得其表达能力增强. 我们设计的融合模块能够帮助网络定位几何缓存特征中对超分有辅助作用的信息与图像
特征中需要补充的缺失内容, 并且利用不同尺度进行多层次融合, 使得超分重建过程能更好地恢复图像细节.
3.3 损失函数
在网络训练环节中我们选择了结构相似性指数度量 (structural similarity index measure, SSIM) [35] 与感知损失
的线性组合作为损失函数, 其中感知损失函数是学习感知图像块相似度 (learned perceptual image patch similarity,
LPIPS) [36] , 其利用预训练好的网络模型提取特征来度量两张图像之间的感知差异, 度量值越低表示两张图像越相
似, 反之则差异越大. 对于该感知损失函数, 我们选择的预训练网络模型为 VGG-16 [20] . 网络训练时我们的损失函
数为:
L(P,T) = 1− D SSIM (P,T)+w· D LPIPS (P,T),
w = 0.2 D SSIM 表示两图像之间的 SSIM 度量值.
其中, P, T 分别表示高分辨率的预测内容图像与真值图像, 权值系数 .
D LPIPS 表示 LPIPS 度量值, 将两图像分别输入预训练的 VGG-16 [20] 网络模型, 获取网络各层输出并计算对应通道的
余弦距离, 最后对各距离进行平均, 得到度量值.
4 实验分析 (b) Redwood Forest
4.1 实验数据与训练细节
为了训练和测试模型, 我们将虚幻引擎 4 作为渲染引擎并引入虚幻引擎市场 (https://unrealengine.com/
marketplace) 中的 3 个场景构建了一个大规模数据集. 其中这些场景涵盖广泛的着色效果, 如光线反射, 软阴影, 不
同光源与复杂遮挡等等, 各场景的示例帧见图 5. 我们的数据集由每个场景下 2 500 帧的训练集和 500 帧的测试集
组成. 数据集中的内容图像未经过任何后处理 (包括抗锯齿), 同时我们选择在各个场景关闭运动模糊 (motion
blur), 这样做可以降低镜头随人物与场景运动时产生的背景模糊.
(a) Bunker (c) Medieval Docks
图 5 作为数据集的 3 个场景的示例帧
我们选择了 4×4 规模的超分来训练和测试网络, 数据集中真值图像和几何缓存的分辨率为 1920×1080, 输入
图像的分辨率为 480×270. 网络在训练时会将数据集中的输入图像, 真值图像和几何缓存进行 3×3 分块. 如前所述,
本次实验共有 3 个场景数据集, 针对每个场景的数据集各训练 1 个模型. 所有训练和测试均在配有一块 NVIDIA
RTX 3090 GPU 的电脑上进行.