Page 296 - 《软件学报》2025年第4期
P. 296

1702                                                       软件学报  2025  年第  36  卷第  4  期


                    不同于上述深度推断方法, 为改进回归任务鲁棒性不强的弱点, 文献                      [47] 将问题表述为深度反回归任务. 在
                 深度空间中采样并记录序数, 获取代价映射切片. 通过回归获得亚像素序数, 最后将其转化为深度值. 在回归、分
                 类和二者结合方法的基础上, MVSFormer         [38] 采用基于温度的深度预测方法, 对不同方法进行选择, 解决了                argmax
                 不能提供精准的深度值问题.
                    (4) 其他方法
                    为了突破    MVS  目前的瓶颈, 一些网络设计不同于典型            MVSNet 的模型被提出来. 有研究使用将深度图转化
                 为点云的方式表示场景. 其中, 3DVNet        [58] 结合基于深度图和体素的方法, 首先提取图像特征并预测初始的粗深度
                 图, 投影形成特征点云, 通过提出的          3D  场景建模网络和改进的       PointFlow  不断细化深度图. VA-Point-MVSNet [53]
                 将目标场景处理为点云. 如图         10  所示, 它通过  3D  代价体生成粗糙深度图并转化为初始点云, 通过              PointFlow  模块
                 将初始点云迭代回归以得到精细和稠密的点云.
                    综上, 在开创性工作      MVSNet 的基础上, 监督学习方法主要针对改进网络中的各个阶段模块, 缓解了                      MVSNet
                 网络生成模型过程中存在的问题. 同时, 也出现一些与                MVSNet 结构不同的其他网络, 旨在提高重建           MVS  模型的
                 精度和完整度.
                 督无效的问题, U-MVS

                 2.2.2    无监督学习
                    基于监督学习的方法, 在训练阶段依赖于真实数据. 而真值往往难以获取. 目前这类的公开数据集也较为有
                 限, 可能出现模型泛化能力差的问题. 因此, 出现了一系列以无监督的方式学习的方法.
                    Khot 等人  [16] 提出一种仅依赖可用的多视角图像作为监督信号的无监督学习方法. 该方法使用光度一致性损
                 失来训练深度预测       CNN, 将原始视图和可用新视图中像素强度之间的差异作为惩罚项. 由于遮挡以及视图间的光
                 照信息不同等问题的存在, 只使用光照一致性不足以约束模型. 为此, 在损失函数中增加了梯度衡量项增强模型的
                                                                                2
                 鲁棒性. 文献   [59] 提出第  1  个具有对称网络结构的无监督         MVS  网络, 称为   MVS . 该网络遵循    MVSNet 模型, 以
                 一种对称的方式同时预测所有视图的深度图, 包括多尺度特征提取、代价体构建、代价体正则化、优化深度图以
                 及无监督损失评估几个阶段. 为了解决物体的重建边界可能会由于上采样操作而导致的过度平滑的问题, 使用了
                 空间传播网络     (spatial propagation network, SPN) 优化深度图, 并通过特征提取模块引导细化深度图. 针对多视图
                 的遮挡问题, 该网络在深度图中引入交叉视图一致性约束, 并提出损失函数度量一致性. 但是这种方法的缺陷是会
                 消耗大量的    GPU  显存.
                    为了减少环境的变化对重建结果的影响并且适应于对新目标域的重建, 文献                            [60] 提出首先使用元学习在
                 BlendedMVS  数据集上训练, 之后对获得的模型进行微调. 使用目标域                DTU  数据集的训练数据进行自监督学习,
                 提高了自监督网络的性能.
                    M3VSNet [61] 扩展了文献  [16] 的工作, 构建一个多度量无监督网络. 其中, 提出一种多度量的损失函数, 结合像
                 素损失函数和特征损失函数, 同时考虑了从纹理和语义信息多个层次进行匹配.
                    然而, 无监督方法在训练中依赖于视图之间的颜色一致性, 对光照变化高度敏感, 难以应用于光照变化明显的
                 场景. Yang  等人  [62] 应用  CVP-MVSNet 作为骨干网络, 根据输入图像数据生成伪深度标签, 以实现自监督的深度估
                 计. 该算法由用于初始伪标签估计的无监督学习和用于自训练的迭代伪标签改进两个阶段组成.
                    通过比较监督和自监督方法, U-MVS          [63] 被提出. 它采用代表性的    MVSNet 作为主干网络, 主要包括两个阶段:
                 自监督训练前阶段和伪标签训练后阶段. 针对前景监督模糊的问题, 该方法提出了流深度一致性损失. 针对后台监
                                   使用  MonteCarlo-Dropout 来估计不确定性映射, 并从监督中过滤掉不确定性部分.
                    针对无监督重建算法容易无法寻找到不同视图之间的精确对应关系的问题, PatchMVSNet                         [64] 引入基于块的光
                 度一致性损失函数, 以帮助减少模糊匹配.
                    无监督方法大都依赖于不同视图之间的对应点共享相同颜色的假设, 但这并不适用于所有现实情况. 因此,
                 Xu  等人  [65] 提出一种联合数据增强和协同分割的自监督           MVS  框架  JDACS. 该网络在自监督损失中加入语义一致
                 性和数据增强一致性约束, 以解决颜色恒常不稳定的问题.
                    知识蒸馏将复杂教师模型的输出作为简单学生模型的训练目标, 能够有效地提升模型性能. KD-MVS                               [66] 提出
   291   292   293   294   295   296   297   298   299   300   301