Page 294 - 《软件学报》2025年第4期
P. 294

1700                                                       软件学报  2025  年第  36  卷第  4  期


                 合两两图像之间的代价. 受群体关联的启发, 文献               [47] 通过群体关联相似度构造轻量级代价体. 对提取的特征微
                 分扭曲, 使用组相关计算相似度得分, 对得分取平均值后计算得到最终代价体. MFNet                       [27] 也采用平均组相关相似性
                 的方式生成代价体, 分组计算特征图的相似性, 减少了代价体的通道数量, 实现代价体的轻量化.





                                           (d)
                                          c 1

                                           ...                ...       c (d)


                                                                      3×3 conv  1×1 conv
                                          c (d)                       Hadamard multiplication
                                          N−1
                                                                      Matrix addition
                                                       GRU
                                                                      Arithmetic mean
                                                   图 8 视图间    AA  模块  [41]

                    MVSNet 的正则化工作是从       3D UNet 结构正则化    3D  代价体开始的. 然而直接使用        3D CNN  结构构建代价体
                 会产生大量的内存消耗和计算需求, 尤其代价体的体积会随着分辨率的增长而增长. 后续研究主要使用两类不同
                 的网络结构缓解该问题, 包括由粗到细的多阶段方法和基于                   RNN  的递归方法.
                    由粗到细的多阶段方法顾名思义, 首先预测较粗的深度分辨率, 在粗分辨率的基础上迭代细化出更精细分辨
                 率的深度图, 减少了搜索范围. CasMVSNet        [48] 提出了代价-体积公式, 首先生成代价分辨率, 然后使用预测结果自
                 适应的调整深度间隔, 构建出精细的代价体. 将单个代价体使用多阶段级联的方式分解, 通过每个阶段的深度映
                 射影响下一阶段的深度范围. 根据更高空间分辨率的代价体生成精细的输出, 如图                          9  所示  [49] . UCSNet [49] 也提出一
                 种类似思想的方法, 通过       3  个级联阶段, 预测不同尺寸大小的深度图, 并构建             ATV  模块根据上个阶段的输出细化
                 深度. CVP-MVSNet [25] 基于特征图像金字塔, 选取最粗分辨率的图像构建代价体积, 然后迭代构建新的代价体, 实
                 现深度预测. 针对均匀采样和假设平面的局限性, SuperMVS              [28] 在深度范围内非均匀采样建立非均匀代价体, 在采
                 样更精细的同时也降低了平面数量, 以降低计算成本. EPP-MVSNet                [50] 提出一种集成  Pseudo-3D CNN  的轻量级网
                 络, 分为粗阶段和精细阶段. 采用由粗到细             (coarse-to-fine) 的思想, 在  coarse  阶段采用对极组装模块 (epipolar
                 assembling module, EAM) 以获取高分辨率特征, 从而提高了对高分辨率图像信息的利用. 它还在                  fine 阶段引入了
                 一个基于熵的精炼策略 (entropy refining strategy, ER), 以帮助减少构建细代价体的信息冗余. 同时, 在空间和深度
                 维度上, 采用伪    3D  卷积对代价体进行卷积. 同样地, 在         MG-MVSNet [31] 中, 也使用分布式   3D  卷积  (D3D) 代替传
                 统卷积, 降低了计算代价. 为了应对多阶段方法在粗阶段可能出现错误预测粗糙深度范围, 从而导致后续细化深
                 度的阶段无法修正的问题, NP-CVP-MVSNet         [51] 采用无参数概率分布模型来描述深度假设值的概率分布, 并使用
                 稀疏代价体细化深度图.
                    基于  CNN  的多阶段方法能够有效利用局部信息和多尺度上下文信息, 但是对于处理高分辨率图像会受到内
                 存限制的影响. 卷积门控递归单元           (gate recurrent unit, GRU) 由重置门和更新门组成, 网络的参数量小. 鉴于      GRU
                 能够实现与    3D CNN  同样的作用, 因此可以采用            进行递归正则化, 提高重建的效率. R-MVSNet          [52] 提出通过
                 GRU  对  2D  代价图进行正则化, 2D  代价图相对于      3D  代价体能够更好地用于高分辨率场景. 图           10 展示了  RMVSNet
                 的结构  [53] . 该网络应用  GRU  的卷积聚合代价图在深度方向上的时间和上下文信息. 为了提高正则化能力, 堆叠了
                 3  层  GRU  单元. 利用  CNN  处理的结果精度高, 但计算成本高. 利用        GRU  处理, 虽然降低了对内存限制的要求, 但
                 也损失了重建的完整性和精度. 因此, D2HC-RMVSNet           [29] 结合  3D CNN  和  GRU  的优点, 基于  LSTM  和  UNet 进行
                 改进, 提出了   HU-LSTM  模块, 采用二维    UNet 结构对每层构建更为强大的          LSTMConvCell, 以聚合多尺度上下文
   289   290   291   292   293   294   295   296   297   298   299