Page 303 - 《软件学报》2025年第4期
P. 303
樊铭瑞 等: 基于深度学习的多视图立体视觉综述 1709
(3) 复杂场景下存在大量遮挡和无纹理区域, 这些区域难以被处理. 在构建代价体阶段, 能够通过学习可见性
信息调整来实现可靠的匹配.
(4) 通过 Transformer 方法, 不仅能够更好地表示特征, 而且可以有效地缓解对无纹理和遮挡区域的特征匹配
问题. 从表 4 可以看出, 结合 Transformer 的方法普遍优于其他方法, 尤其是 MVSFormer-H 模型取得了最优的
F-score, 比最初的 MVSNet 模型有 34.4% 的提升.
(5) 复杂的大规模场景信息庞大, 导致构建 3D 代价体造成大量的内存和时间消耗. 提出和引入的多阶段方法
能够从粗到细地预测深度, 或利用 GRU 结构实现递归正则化, 这使得模型的精度和完整度有了很大的提升.
在数据集匮乏的情况下, 无监督方法更为适用. 表 5 中列出了一系列无监督方法, 可以看出以下几点.
(1) 无监督方法尽管没有达到有监督方法的性能, 但是在训练数据缺失的情况下, 重建结果能够达到一定的精
度要求.
(2) 早期提出的网络使用光照一致性作为损失, 导致对光照敏感度较高, 无法泛化到真实的环境中. 后续网络
提出其他一致性损失方式, 帮助实现有效的监督.
(3) 无监督方法精度和完整度无法达到有监督方法的主要原因是监督模糊和监督无效, 对此进行改进能使模
(2) 现有重建方法未能充分利用全局信息. 由于全局上下文信息
型的性能进一步提升.
(4) KD-MVS 采用知识蒸馏的思想, 利用教师模型的输出引导学生模型, 在 DTU 和 Tanks and Temples 数据集
中都取得了目前最好的效果.
(5) RC-MVSNet 的表现仅次于 KD-MVS, 引入神经渲染的, 有效避免了监督模糊, 并为多视图立体视觉带来新
的活力.
(6) 目前, 相对于有监督学习的方法, 基于无监督学习的相关方法较少, 还有进一步提升的空间.
5 总结与展望
在过去几十年里, 基于深度学习的多视图立体视觉得到了迅速发展, 取得了显著成就. 为了取得更广的应用范
围和更高质量的应用效果, 要求算法具有更高精度的点云模型和更小的内存消耗. 为了在该领域实现更高的精度
和效率, 研究学者们提出了一系列方法. 随着在医疗领域、建筑领域、自动驾驶领域等的应用逐渐广泛, 多视图立
体视觉也有了更大的发展空间. 本文回顾了近年来基于深度学习多视图立体视觉具有代表性的方法、数据集、评
价指标等的研究进展. 在文中首先介绍了基于传统方法的多视图立体视觉的发展现状, 提出结合深度学习的必要
性. 描述了针对传统方法的局部功能改进方法, 以及基于深度图、基于体素和基于辐射场深度学习方法的整体架
构改进方法. 为了更好地组织文献, 将现有的模型分类. 对每个类别, 介绍了优化网络的不同方法, 并总结了部分贡
献的主要思想. 随后描述了广泛使用的数据集, 并梳理了评估这些数据集所用的指标. 最后, 在两个数据集上对多
视图立体视觉领域的多个方法进行了对比分析.
基于深度学习的方法对比传统重建方法取得了巨大的突破, 但是仍然存在一些困难有待进一步深入研究. 本
文也总结了多视图立体视觉技术目前所面临的挑战, 同时展望未来可能的研究方向.
(1) 现有方法在个别区域和情况下重建效果不佳, 如低特征、反射、遮挡、弱光照或透明表面等造成的重建
模型表面空洞; 同时, 相邻视角之间变化剧烈、可见性差的情况也会影响重建效果. 因此, 有必要对这些情况下的
重建问题进行进一步研究.
(视图内部和视图之间) 利用的不足和 3D 表
示的不一致, 导致仍然存在特征匹配歧义和不匹配的问题, 而不同视图中不匹配像素则会造成重建的不完全.
(3) 目前基于高分辨率图像重建精细化场景的效率不高. 虽然相关研究工作在减少内存消耗方面已有所进展,
但当使用高分辨率图像重建时, 仍会产生较大的内存和计算需求. 然而当使用效率较高的模型时则会损失高分辨
率图像中的细节信息, 影响模型精度. 在应用阶段想要实现方法的真正落地, 需要平衡效率和精度, 在保证空间分
辨率同时使用网络复杂度较低、内存效率较高的模型.