Page 294 - 《软件学报》2025年第4期
P. 294
1700 软件学报 2025 年第 36 卷第 4 期
合两两图像之间的代价. 受群体关联的启发, 文献 [47] 通过群体关联相似度构造轻量级代价体. 对提取的特征微
分扭曲, 使用组相关计算相似度得分, 对得分取平均值后计算得到最终代价体. MFNet [27] 也采用平均组相关相似性
的方式生成代价体, 分组计算特征图的相似性, 减少了代价体的通道数量, 实现代价体的轻量化.
(d)
c 1
... ... c (d)
3×3 conv 1×1 conv
c (d) Hadamard multiplication
N−1
Matrix addition
GRU
Arithmetic mean
图 8 视图间 AA 模块 [41]
MVSNet 的正则化工作是从 3D UNet 结构正则化 3D 代价体开始的. 然而直接使用 3D CNN 结构构建代价体
会产生大量的内存消耗和计算需求, 尤其代价体的体积会随着分辨率的增长而增长. 后续研究主要使用两类不同
的网络结构缓解该问题, 包括由粗到细的多阶段方法和基于 RNN 的递归方法.
由粗到细的多阶段方法顾名思义, 首先预测较粗的深度分辨率, 在粗分辨率的基础上迭代细化出更精细分辨
率的深度图, 减少了搜索范围. CasMVSNet [48] 提出了代价-体积公式, 首先生成代价分辨率, 然后使用预测结果自
适应的调整深度间隔, 构建出精细的代价体. 将单个代价体使用多阶段级联的方式分解, 通过每个阶段的深度映
射影响下一阶段的深度范围. 根据更高空间分辨率的代价体生成精细的输出, 如图 9 所示 [49] . UCSNet [49] 也提出一
种类似思想的方法, 通过 3 个级联阶段, 预测不同尺寸大小的深度图, 并构建 ATV 模块根据上个阶段的输出细化
深度. CVP-MVSNet [25] 基于特征图像金字塔, 选取最粗分辨率的图像构建代价体积, 然后迭代构建新的代价体, 实
现深度预测. 针对均匀采样和假设平面的局限性, SuperMVS [28] 在深度范围内非均匀采样建立非均匀代价体, 在采
样更精细的同时也降低了平面数量, 以降低计算成本. EPP-MVSNet [50] 提出一种集成 Pseudo-3D CNN 的轻量级网
络, 分为粗阶段和精细阶段. 采用由粗到细 (coarse-to-fine) 的思想, 在 coarse 阶段采用对极组装模块 (epipolar
assembling module, EAM) 以获取高分辨率特征, 从而提高了对高分辨率图像信息的利用. 它还在 fine 阶段引入了
一个基于熵的精炼策略 (entropy refining strategy, ER), 以帮助减少构建细代价体的信息冗余. 同时, 在空间和深度
维度上, 采用伪 3D 卷积对代价体进行卷积. 同样地, 在 MG-MVSNet [31] 中, 也使用分布式 3D 卷积 (D3D) 代替传
统卷积, 降低了计算代价. 为了应对多阶段方法在粗阶段可能出现错误预测粗糙深度范围, 从而导致后续细化深
度的阶段无法修正的问题, NP-CVP-MVSNet [51] 采用无参数概率分布模型来描述深度假设值的概率分布, 并使用
稀疏代价体细化深度图.
基于 CNN 的多阶段方法能够有效利用局部信息和多尺度上下文信息, 但是对于处理高分辨率图像会受到内
存限制的影响. 卷积门控递归单元 (gate recurrent unit, GRU) 由重置门和更新门组成, 网络的参数量小. 鉴于 GRU
能够实现与 3D CNN 同样的作用, 因此可以采用 进行递归正则化, 提高重建的效率. R-MVSNet [52] 提出通过
GRU 对 2D 代价图进行正则化, 2D 代价图相对于 3D 代价体能够更好地用于高分辨率场景. 图 10 展示了 RMVSNet
的结构 [53] . 该网络应用 GRU 的卷积聚合代价图在深度方向上的时间和上下文信息. 为了提高正则化能力, 堆叠了
3 层 GRU 单元. 利用 CNN 处理的结果精度高, 但计算成本高. 利用 GRU 处理, 虽然降低了对内存限制的要求, 但
也损失了重建的完整性和精度. 因此, D2HC-RMVSNet [29] 结合 3D CNN 和 GRU 的优点, 基于 LSTM 和 UNet 进行
改进, 提出了 HU-LSTM 模块, 采用二维 UNet 结构对每层构建更为强大的 LSTMConvCell, 以聚合多尺度上下文