Page 482 - 《软件学报》2024年第6期
P. 482
3058 软件学报 2024 年第 35 卷第 6 期
操作, 为适应渲染场景的需要, 我们选择 3 个大小层次的编码, 即 i 的取值为 1, 2 或 3. 卷积运算时我们通过步长和
卷积核大小控制中间特征的尺寸, 同时更小尺寸的中间特征需要更多的通道数来保证提取足够多的信息, 更多细
节在图 3 中展示.
3.2.2 特征融合
内容图像与几何缓存之间具有相关性, 高分辨率的几何缓存中得出的丰富特征和物体轮廓边界信息对低清图
像的超分具有辅助作用. 这种作用是有向的, 即从几何缓存提取到的特征信息单向辅助内容图像的超分过程. 同时
多层次化融合的引入能在不同尺度上使内容图像与几何缓存的特征能够更有效地融合. 我们的具体操作为: 将第 i
层次中编码器计算得到的中间特征 F LR,i ,F G,i 作为输入, 经过该层次的融合操作 H FU,i 后得到输出 F FU,i :
A
F FU,i = H (F LR,i ,F G,i ) = H (F LR,i ,F ).
FU,i Res,i G,i
特征融合部分更多细节见图 4, 图中 FC Layer 表示全连接层, BN 表示 batch normalization, ⊕ 表示逐元素相
加, SE 模块中的参数 reduction 被设置为 16, 各层旁数字表示该层通道数. 在特征融合模块中, F A 会进行 SE
G,i
(squeeze-and-excitation) 操作 [33] , 这是因为几何缓存特征的不同通道包含不同的信息, 我们需要选择有助于补充本
能力, 对两个不同特征进一步调节与提取信息. 因此
层次内容图像细节的信息, 也就是说, 网络需要引入注意力机制, 从而更多关注 F A G,i 中的某些通道. F A G,i 会先经过
压缩 (squeeze) 操作, 利用全局均值池化将各个通道下的特征编码为全局特征量, 然后将全局特征量通过以
Sigmoid 函数为激活函数的两个全连接层, 完成激活 (excitation) 并得到激活值, 最终将激活值与 F G,i 相乘得到 F A .
G,i
整个操作调整了几何缓存不同特征的权重, 从而使得后续操作中更容易辨别能够辅助超分的特征信息.
SE 操作的结果 F A 与 F LR,i 进行连接, 然后经过一个受 ResNet [34] 启发的残差块 H Res,i , 该残差块包含一个 1×1
G,i
的卷积操作和一个 3×3 的卷积操作, 其生成的残差结果在与 F LR,i 相加后可以对内容图像特征进行补充. 一种直观
解释是将 F LR,i ,F A 视为 H ×W ×C 空间下的函数表示, 其中 F LR,i 是上采样后得到的低清内容图像特征, 包含丰富
G,i
的低频信息但缺少高频信息. 我们希望计算得到具有丰富高频特征的高清内容图像特征表示, 而 F A 本身从高分
G,i
F LR,i 中的无效信
辨率空间的几何缓存提取得到, 在边缘, 角点等高频特征上更为准确, 所以其有助于定位和修正
息. 利用残差块有利于信息在不同层之间相互传导的特性, 我们将连接输入用 1×1 的卷积进行降维处理, 将 2C 通
C 通道数并以 ReLU F LR,i 函数表示的修正过程, 使其更接近高清内容
道数降为 函数为激活, 再用一层卷积实现对
图像特征表示. 残差块处理后的信息再与 F A 连接, 即为融合操作的最终结果 F FU,i .
G,i
进一步来说, 我们可以把几何缓存与渲染图像看成像素分布, 而这两种分布显然是不相同的, 例如在后续光照
计算中得到的高光、阴影以及材质颜色变化并不会在基色、深度的像素值中得到体现, 并且低清图像采样率不足
的问题也会导致从中提取到的两种特征会存在分布上的差异. 我们希望借助几何缓存分布的信息, 用低清图像最
终重建出高清渲染图像, 而如果使用相加操作, 则从几何缓存与渲染图像提取到的特征在融合时会引起分布上的
直接混合, 却无视了两者在均值、方差等方面存在的差异, 从而使得几何缓存特征在超分过程与不同分布的图像
特征产生混淆, 偏离了“重建高清图像像素分布”的目标. 连接操作的问题类似, 该操作将两者直接视为同一特征的
不同通道并进行后续计算, 几何缓存特征代表的分布无法通过注意力调制等手段达成合适的形态, 从而使特征在
解码时错误选择不同通道的信息. 相比连接和相加操作, 我们使用的融合方法首先进行了 SE 操作, 实现了 F G,i 不
同通道间的注意力分配, 这可以看作是对几何缓存特征的初步调节, 而后续的残差块提升了融合模块的特征提取
SE 操作让最终与 F A 连接得到的特征在不同通道间能达成更
G,i
为合理的像素分布, 并且含有连接-卷积的残差块比直接相加有更强的特征表达与调节能力.
本文提出的网络结构中共有 3 个针对不同尺度的特征融合模块, 对应的融合结果分别为 F FU,1 ,F FU,2 ,F FU,3 .
多尺度的融合机制可以让网络针对不同形态的信息特征进行融合, 充分利用高清几何缓存中的高频细节, 从而
实现更为真实的画面效果. 这些融合结果会传递到解码部分, 以连接的方式帮助解码器更好地对图像进行超分
重建.
3.2.3 解码部分
对应此前 3 个层次的编码部分, 解码部分包含 2 个跳跃连接 (skip-connection). 从第 3 层次的融合特征开始解