Page 301 - 《软件学报》2025年第4期
P. 301
樊铭瑞 等: 基于深度学习的多视图立体视觉综述 1707
云. 具体来说, 数据集包含 17 818 张的高分辨率图像, 由 113 个包括城市、建筑、雕塑和小物体等室外场景的模型
组成. 每个模型包含 20–1 000 张不等的图像, 由沿非结构化轨迹的摄像机捕获. 为了实现视景照明, 将原始图像混
合真实的环境光照信息. 制作者利用场景图像恢复纹理网络模型, 并据此渲染生成分辨率为 1536×2048 的彩色图
像和深度图.
地反映重建质量.
图 19 BlendedMVS 数据集示例 [82]
3.2 MVS 重建效果的评价指标
常见的数据集评价指标包括精度、完整度和 F-score 综合评价. 针对不同的数据集, 目前评价指标还没有统一
的标准. 本节将介绍上述数据集中所使用的评价标准.
按照距离阈值区间范围评估重建的精度和完整度. 其中, 精度代表待评估模型与真值模型之间的接近程度, 定
义为真值点与重建点距离小于给定阈值的分数, 表示如下:
100 ∑
P(d) = [e r→R < d] (4)
|R|
r∈R
其中, R 为重建点集合, e r→R 为从重建点到真值的距离, d 为距离阈值, [·] 为艾弗森括号.
完整度表示待评估模型与真值模型中重合度, 定义为真值点云中的点到距离其最近重建点的距离低于阈值的
数量, 表示如下:
100 ∑
R(d) = [e g→G < d] (5)
|G|
g∈G
其中, G 为真值, e g→G 表示从重建点到真值的距离, d 为距离阈值.
同时, 引入 F-score 综合评价重建质量, 定义为精度和召回率的调和平均值, 表示如下:
2P(d)R(d)
F(d) = (6)
P(d)+R(d)
其中, P(d) 表示对任意距离阈值 d 的重建精度, R(d) 表示为重建的完整度. 它结合了两者的特性, 只有准确又完整
的重建才能获得较高的 F-score. 调和平均值是算术平均值的一个变形, 能够有效地避免极端值的影响, 从而更好
4 算法性能对比
本节列出了前面描述的典型模型的评价结果, 并进行了总结和讨论. 本文使用该领域内目前最为广泛使用的
数据集: Tanks and Temples 和 DTU 数据集对算法性能进行对比, 并在两个数据集上总结出表现最好的模型. 表 4
和表 5 分别列出上述典型的基于监督学习和无监督学习方法的基线模型在 Tanks and Temples 和 DTU 数据集上
的测试结果.