Page 295 - 《软件学报》2025年第4期

P. 295

樊铭瑞等: 基于深度学习的多视图立体视觉综述 1701

信息. AA-RMVSNet [26] 采用 RNN-CNN 的混合网络, 在深度方向上切片. 对每个切片通过编码器-解码器结构的
CNN 正则化, 并采用 RNN 传递 ConvLSTMCell.

Regression

Differentiable homography warping Cost volume Hypothesis plane generation
图和优化后深度图两个方面的损失. 后续大多数方法
Variance cost metric Feature volume 3D convolutions
图 9 CasMVSNet 网络结构 [49]

...

GT GT
surface surface

Coarse prediction Refined prediction Final prediction
Before flow After flow PointFlow Dynamic feature fetching
图 10 VA-Point-MVSNet 概述 [53]

此外, 有研究尝试了其他改进方法以实现降低内存需求的目标. HighRes-MVSNet [54] 使用解码器结构对 4 个阶
段进行输出, 每个阶段都与下一阶段的初始代价体融合, 并通过构建级联代价体的方式控制代价体的大小. 此外,
该网络还在深度预测阶段限制每一层次的搜索范围.
(3) 深度估计
模型中常用的深度估计方法包括回归、分类和二者相结合的方法. 深度回归是对概率体沿深度方向执行 soft-
argmin 操作, 实现亚像素水平上的深度预测, 即沿深度方向上的期望值. MVSNet 使用 L1 损失函数, 考虑初始深度
[25,40,48,53,55,56] 也采取回归的方式进行预测. 分类方法将问题看
作交叉熵损失的多分类任务, 能够直接约束代价体. 文献 [26,29,35,52] 将问题转化为像素级别的概率分布, 通过
[44]
one-hot 编码真值. 但是它们忽略了对深度距离的考虑, 对不同深度平面给予同样的关注. MVSTER 将问题定义
为深度感知分类问题, 预测深度分布和真值之间的距离, 并据此计算损失.
回归方法容易产生过拟合问题, 而分类方法具有离散性无法实现准确的预测. 因此, 基于传统分类方法和回归
方法的优点, 提出了二者相结合的方法. 文献 [57] 中的方法不仅对多模态分布具有鲁棒性, 而且实现了亚像素水
平的估计. Peng 等人 [43] 将深度估计定义为多标签分类任务, 首先分类出最佳的深度范围, 然后回归预测最终的深
度值.

290 291 292 293 294 295 296 297 298 299 300