Page 299 - 《软件学报》2025年第4期
P. 299
樊铭瑞 等: 基于深度学习的多视图立体视觉综述 1705
表 3 总结了常用数据集, 包括 Middlebury MVS [78] 、EPFL benchmark [79] 、DTU [23] 、Tanks and Tampels [80] 、
ETH3D [81] 、BlendedMVS [82] 等. 这些数据集涵盖了室内和室外场景以及合成数据. 本节分别从数据集的场景、数
据规模、分辨率等方面进行介绍. 与此同时, 本文提供了每个数据集用于评估模型性能的基本指标.
表 3 多视图立体视觉常用数据集
数据集名称 场景 评估指标 年份
[78]
Middlebury MVS 寺庙、恐龙 精度、完整度 2006
[79]
EPFL benchmark 建筑物 精度 2008
[23]
DTU 室内小目标场景 精度、完整度、F-score 2016
[80]
Tanks and Tampels 室内场景和室外环境 精度、完整度、F-score 2017
[81]
ETH3D 自然和人造的室内外环境 精度、完整度、F-score 2017
[82]
BlendedMVS 室内和室外的合成场景 精度、完整度、F-score 2020
3.1 数据集
图 15 EPFL benchmark
3.1.1 Middlebury MVS
Middlebury 是最早用于多视图立体视觉评估的数据集, 如图 14 所示 [78] . 数据集在室内收集了 6 种视角的 790
张分辨率为 640×480 像素的图像以及对应的 3D 网格模型真值. 图像由定位在机械臂上相机拍摄获得. 参考 3D 模
型则采用激光扫描仪获取.
图 14 Middlebury 数据集示例 [78]
3.1.2 EPFL benchmark
EPFL benchmark 是建筑外侧的场景集合, 如图 15 所示 [79] , 包括对重建结果的评估. 数据集提供分辨率为 3072×
2028 像素的高分辨率图像, 同时使用激光扫描 (LiDAR) 获取户外场景的真值. 使用激光雷达数据, 通过摄像机校
准的平均值和方差生成图像的真值.
数据集示例 [79]
3.1.3 DTU
DTU 是在实验室环境中获得的小目标场景数据集. 如图 16 所示 [23] , 它具有 128 个不同反射率、纹理和几何
属性的室内场景. 每个场景在 7 种不同的光照条件下, 由工业机械臂设定的 49 或 64 个镜头位置 (即固定摄像机轨
迹) 进行多视角拍摄, 并由结构光扫描获得表面点云. 最终, 生成分辨率为 1200×1600 像素的 RGB 彩色图像, 并提
供结构光标注. 数据集通过泊松重建来重建曲面以获取网格模型, 并由网络模型渲染生成的深度图真值.