Page 295 - 《软件学报》2025年第4期
P. 295

樊铭瑞 等: 基于深度学习的多视图立体视觉综述                                                         1701


                 信息. AA-RMVSNet  [26] 采用  RNN-CNN  的混合网络, 在深度方向上切片. 对每个切片通过编码器-解码器结构的
                 CNN  正则化, 并采用   RNN  传递  ConvLSTMCell.


                                                                                       Regression




                                                                                       Regression




                                                                                       Regression



                                         Differentiable homography warping  Cost volume  Hypothesis plane generation
                 图和优化后深度图两个方面的损失. 后续大多数方法
                                         Variance cost metric    Feature volume  3D convolutions
                                                 图 9 CasMVSNet 网络结构    [49]







                                                                               ...


                                          GT                          GT
                                         surface                     surface

                             Coarse prediction          Refined prediction             Final prediction
                                  Before flow  After flow  PointFlow    Dynamic feature fetching
                                               图 10 VA-Point-MVSNet 概述  [53]

                    此外, 有研究尝试了其他改进方法以实现降低内存需求的目标. HighRes-MVSNet                   [54] 使用解码器结构对   4  个阶
                 段进行输出, 每个阶段都与下一阶段的初始代价体融合, 并通过构建级联代价体的方式控制代价体的大小. 此外,
                 该网络还在深度预测阶段限制每一层次的搜索范围.
                    (3) 深度估计
                    模型中常用的深度估计方法包括回归、分类和二者相结合的方法. 深度回归是对概率体沿深度方向执行                                   soft-
                 argmin  操作, 实现亚像素水平上的深度预测, 即沿深度方向上的期望值. MVSNet 使用                 L1  损失函数, 考虑初始深度
                                                          [25,40,48,53,55,56] 也采取回归的方式进行预测. 分类方法将问题看
                 作交叉熵损失的多分类任务, 能够直接约束代价体. 文献                 [26,29,35,52] 将问题转化为像素级别的概率分布, 通过
                                                                                             [44]
                 one-hot 编码真值. 但是它们忽略了对深度距离的考虑, 对不同深度平面给予同样的关注. MVSTER                         将问题定义
                 为深度感知分类问题, 预测深度分布和真值之间的距离, 并据此计算损失.
                    回归方法容易产生过拟合问题, 而分类方法具有离散性无法实现准确的预测. 因此, 基于传统分类方法和回归
                 方法的优点, 提出了二者相结合的方法. 文献             [57] 中的方法不仅对多模态分布具有鲁棒性, 而且实现了亚像素水
                 平的估计. Peng  等人  [43] 将深度估计定义为多标签分类任务, 首先分类出最佳的深度范围, 然后回归预测最终的深
                 度值.
   290   291   292   293   294   295   296   297   298   299   300