Page 299 - 《软件学报》2025年第4期
P. 299

樊铭瑞 等: 基于深度学习的多视图立体视觉综述                                                         1705


                    表  3  总结了常用数据集, 包括      Middlebury MVS  [78] 、EPFL benchmark  [79] 、DTU [23] 、Tanks and Tampels [80] 、
                 ETH3D [81] 、BlendedMVS  [82] 等. 这些数据集涵盖了室内和室外场景以及合成数据. 本节分别从数据集的场景、数
                 据规模、分辨率等方面进行介绍. 与此同时, 本文提供了每个数据集用于评估模型性能的基本指标.


                                               表 3 多视图立体视觉常用数据集

                        数据集名称                       场景                      评估指标                 年份
                                 [78]
                      Middlebury MVS             寺庙、恐龙                     精度、完整度                2006
                                 [79]
                      EPFL benchmark               建筑物                        精度                 2008
                             [23]
                          DTU                   室内小目标场景                精度、完整度、F-score            2016
                                  [80]
                     Tanks and Tampels        室内场景和室外环境                精度、完整度、F-score            2017
                              [81]
                         ETH3D               自然和人造的室内外环境               精度、完整度、F-score            2017
                                [82]
                       BlendedMVS            室内和室外的合成场景                精度、完整度、F-score            2020

                 3.1   数据集

                                              图 15 EPFL benchmark
                 3.1.1    Middlebury MVS
                    Middlebury  是最早用于多视图立体视觉评估的数据集, 如图             14  所示  [78] . 数据集在室内收集了  6  种视角的  790
                 张分辨率为    640×480 像素的图像以及对应的        3D  网格模型真值. 图像由定位在机械臂上相机拍摄获得. 参考                3D  模
                 型则采用激光扫描仪获取.















                                                图 14 Middlebury  数据集示例  [78]

                 3.1.2    EPFL benchmark
                    EPFL benchmark 是建筑外侧的场景集合, 如图       15 所示  [79] , 包括对重建结果的评估. 数据集提供分辨率为         3072×
                 2028 像素的高分辨率图像, 同时使用激光扫描            (LiDAR) 获取户外场景的真值. 使用激光雷达数据, 通过摄像机校
                 准的平均值和方差生成图像的真值.








                                                                数据集示例     [79]


                 3.1.3    DTU
                    DTU  是在实验室环境中获得的小目标场景数据集. 如图                16  所示  [23] , 它具有  128  个不同反射率、纹理和几何
                 属性的室内场景. 每个场景在         7 种不同的光照条件下, 由工业机械臂设定的             49  或  64  个镜头位置  (即固定摄像机轨
                 迹) 进行多视角拍摄, 并由结构光扫描获得表面点云. 最终, 生成分辨率为                    1200×1600 像素的  RGB  彩色图像, 并提
                 供结构光标注. 数据集通过泊松重建来重建曲面以获取网格模型, 并由网络模型渲染生成的深度图真值.
   294   295   296   297   298   299   300   301   302   303   304