Page 292 - 《软件学报》2025年第4期

P. 292

1698 软件学报 2025 年第 36 卷第 4 期

其中, P(d) 表示每个像素在深度值 d 处的概率估计值, [d min ,d max ] 是深度值的范围.
(4) 深度图优化. 初始深度图的边缘信息模糊, 因此需要借助参考图像优化. 将参考图变为原始尺寸的 1/4 后
与初始深度图拼接为 4 通道图, 之后输入到 4 层深度残差结构中. 其中, 残差结构包括 3 层 32 通道的 2D 卷积层
和 1 层 1 通道的卷积层. 为了学习残差, 最后一层去除了 BN 层和 ReLU 层. 同时, 将初始深度图的深度范围设定
为 [0, 1], 在完成优化后再转换回来. 由参考网络输出的深度残差结果和初始深度图相加得到最终深度图.
(5) 后处理. 由于拍摄图像容易被遮挡或受到噪声影响, 预测的深度图可能会存在误差. 因此在生成三维模型
之前, 需要对深度图进行过滤. 根据光度和几何一致性过滤深度图, 确定每个像素的可见性, 并生成可见视图. 然
后, 对可见视图重投影估计出像素的深度值. 最后, 基于融合算法将深度图重投影到三维空间, 生成稠密点云.
MVSNet 网络为基于深度图的深度学习 MVS 算法构建了一个完整的模块流程, 后续的方法针对网络中模块
的问题进行了改进.
(1) 特征提取
针对 MVSNet 中直接使用卷积层序列提取特征时存在特征不能有效提取和利用的问题, 一些研究者提出修改
特征提取模块的结构.
Cost volume
多尺度特征提取能够获得场景下的宏观和细节信息, 对不同视角和不同尺度的图像具有更好的鲁棒性. Xue
等人 [24] 使用 6 种尺寸的 U 型结构和跳跃连接结构提取图像中的深度特征, 这样能够包含更多的全局信息和丰富
[25]
的局部信息. 而金字塔结构常被应用在图像的特征提取模块中以实现提取不同尺度图像的特征. CVP-MVSNet
分别对图像进行采样形成图像金字塔, 然后对所有层级图像分别提取特征图. 而许多网络 [26–28] 提出的另一个策略
是实现一个特征金字塔. 金字塔结构能够从粗到细地提取高层和低层的语义特征以构建级联代价体, 融合多层次
的信息. 然而, 由于不同尺度特征图之间存在语义差异, 直接对特征金字塔提取的特征图进行融合会忽略全局上下
文信息和图像之间的特征关系, 导致多尺度特征的表达能力降低. 为了恢复场景更多细节, Yan 等人 [29] 提出了
D2HC-RMVSNet. 它采用轻量级的 DRENet 提取密集特征, 连接不同的扩张卷积层, 在不丢失分辨率的基础上聚
[30] [30]
合多尺度的上下文信息. ADIM-MVSNet 也采用了多尺度特征聚合模块 (MFA), 如图 6 所示 , 通过局部感知域
[31]
感知纹理丰富的区域. 类似地, MG-MVSNet 使用多粒度特征融合 (multiple granularity feature fusion, MGFF) 模
块, 在提取不同尺度特征图后, 通过密集特征自适应连接模块实现对细粒度特征的融合.

Input images
ADIM 3D CNN
L 3

ADIM 3D CNN
L 2

Fixed
interval 3D CNN
L 1
Multi-scale feature aggregation Predicted depth GT depth
Conv(3×3)+BN+ReLU, Stride=1 DeformConv(3×3)+BN+ReLU Soft-argmax
Homography warping &
Conv(5×5)+BN+ReLU, Stride=2 group-wise correlation Feature aggregation
图 6 ADIM-MVSNet 网络结构 [30]

注意力机制在一些视觉任务中取得了更好的表现. 文献 [32] 构建了图像金字塔分层提取特征, 并引入自注意
力层用于学习聚焦更重要的特征信息. DRI-MVSNet [33] 使用结合通道注意力机制和基于空间池化网络的 CSCP 模
块, 获得通道和空间信息. ATLAS-MVSNet [34] 基于 UNet 结构, 在第 2 阶段引入混合注意力块 (HAB), 通过卷积和
局部注意力层的组合, 实现对密集特征和重要特征的提取. 而 Transformer 以自注意力机制作为编码器和解码器中

287 288 289 290 291 292 293 294 295 296 297