Page 287 - 《软件学报》2025年第4期
P. 287

樊铭瑞 等: 基于深度学习的多视图立体视觉综述                                                         1693


                 它也包含除深度之外的诸多环境信息, 适合更多样的场景                   [5,6] . 因此, 基于图像的三维重建是当前计算机视觉领域
                 的研究热点.
                    多视图立体视觉      (multi-view stereo, MVS) 是基于图像三维重建的基础, 能够实现根据摄像机参数从多视图视
                 角中恢复场景的三维几何形状, 从而完成二维平面到三维立体的转化. 摄像机参数包括内参和外参, 主要由摄像机
                 本身及拍摄时的位姿决定. 摄像机从多个角度对目标场景拍摄获取多视角图像. 利用多视角图像通过                                 MVS  方法
                 实现三维场景的重建, 流程如图         1  所示  [7] .











                 域的场景容易出现匹配错误的情况, 因此给重建带来困难.
                                                    图 1 MVS   流程图  [7]

                    传统的   MVS  方法通常可以分为       4  种类型: 基于面片的方法、多边形网格法、体素法和基于深度图的方法,
                 如表  1  所示. 基于面片的方法采用面片的方式表示场景, 并通过将重建纹理区域的补丁传播到低纹理区域, 实现场
                 景重建. 基于多边形网格的方法通过三角剖分构建初始稠密点云, 然后根据点云生成多边形网格, 并对网格优化,
                 最后将纹理映射到网格上, 实现重建. 该方法为轻量级方法, 其优势在于能够更清晰地表示目标物体的形状细节信
                 息, 但是只能完成表面重建, 无法对物体的内部进行处理. 基于体素的方法是将场景划分为由块状体素组成的结
                 构, 并通过二值的方式对每块体素标记为空或满, 但是该方法消耗内存大, 且无法满足高分辨率和高精度要求. 而
                 基于深度图的方法根据稀疏重建获得的三维点位置和相机轨迹, 对每个视角的图像逐个计算深度图, 然后通过对
                 深度信息融合获得点云. 因此与其他           MVS  方法相比, 基于深度图的方法更为灵活, 可以保持场景的平滑性.

                                              表 1 传统多视图立体视觉方法对比

                         方法                  特点                   优点                     缺点
                     基于面片的方法           以面片的方式表示场景            能够恢复复杂结构                存在不可靠问题
                     多边形网格法            利用多边形对曲面分割              轻量级方法                需要良好的初始点
                        体素法            将模型划分为块表示              易于提取网格            占用内存大, 精度受限于块大小
                    基于深度图的方法             融合为点云表示              适合大规模场景               需要对深度图融合

                    尽管传统    MVS  方法在重建结果方面精度高, 但仍然存在一些不足.
                    (1) 消耗时间长, 效率低
                    大量特征点匹配和复杂的几何计算导致计算过程的复杂度增加.
                    (2) 完整度不高, 难以处理弱纹理区域以及反射和投射的表面
                    传统  MVS  依赖于几何和光度一致性, 在朗伯场景下能够生成精度较高的模型, 但是对于有弱纹理和反射区


                    (3) 需要手工设定相似性度量
                    传统方法中, 为了实现对特征的密集匹配, 需要手工设定度量的标准来测量图像中两点的相似性, 这种方式具
                 有一定的局限性.
                    (4) 无法实现大规模场景的重建
                    重建过程对内存资源要求高且建模时间长. 在处理大规模场景时, 由于图像数量多, 需要处理大量的信息, 易
                 导致内存不足和耗时过长的问题.
   282   283   284   285   286   287   288   289   290   291   292