Page 338 - 《软件学报》2025年第4期
P. 338
1744 软件学报 2025 年第 36 卷第 4 期
机动作是指具身智能体在探索过程中随机选取探索动作, 不接受任何探索奖励的引导. 边界探索是指具身智能体总
是优先探索最近的未知的区域. 所谓边界, 也就是地图中已知空间与未知空间的临界区域. 表 4 中的第 3–8 行总结了
基于第 1.2 节中所述的 5 种探索奖励的自主探索性能. 其中 grid 和 DME 表示基于栅格计数和稠密模型估计分别实
现的两种内在奖励影响. 从实验结果来看, 内在影响奖励在探索面积、探索率和地图准确率方面的优势更加明显. 不
同类型的探索奖励对不同的下游任务的贡献不同, 例如新颖性奖励鼓励具身智能体搜索到更多的物体.
表 5 多物体目标导航性能对比
方法 视觉数据 视觉模块 年份 SR (%)↑ Progress↑ SPL (%)↑ PPL↑
[25]
MultiON RGBD CNN 2020 22.0 40.0 17.0 30.0
Chen等人 [30] RGBD - 2022 51.1 67.3 38.7 49.5
Marza等人 [29] RGBD - 2023 58.3 69.4 43.8 52.1
表 6 MP3D 数据集上的 ObjectNav 性能比较
数据集划分 模型结构 方法 视觉数据 视觉模块 策略类型 年份 SR (%)↑ SPL (%)↑ DTS (m)↓ SoftSPL (%)↑
RedNet
Random - - 有限数据集 - 0.005 0.005 8.05 -
DD-PPO [103] RGBD ResNet 有限数据集 2020 8.0 1.8 6.90 -
THDA [46] RGBD RedNet [129] 增强数据集 2021 28.4 11.0 5.59 18.9
端到端 Red-Rabbit [31] RGBD ResNet18 有限数据集 2021 34.6 7.93 - -
Habitat-Web [14] RGBD ResNet18 有限数据集 2022 35.4 10.2 - -
ZSON [53] RGB ResNet50 视觉语言模型 2022 15.3 4.8 - -
OVRL [108] RGBD ResNet50 增强数据集 2022 28.6 7.4 - -
[45] [130]
SemExp RGBD Mask R-CNN 有限数据集 2020 36.0 14.4 6.73 -
[18] [131]
SSCNav RGBD ACNet 有限数据集 2020 27.1 15.7 - -
验证集 GCExp [106] RGBD - 有限数据集 2021 70.3 51.6 3.66 55.1
[19]
L2M RGBD UNet 有限数据集 2021 39.1 17.0 3.37 22.1
Zhu等人 [21] RGBD Mask R-CNN [130] 有限数据集 2022 43.6 23.2 - -
[20] [130]
PONI RGBD Mask R-CNN 有限数据集 2022 27.8 12.0 5.60 -
模块化
Al-Halah等人 [109] RGB ResNet9 增强数据集 2022 14.6 10.8 - -
Campari等人 [110] RGBD RedNet [129] 有限数据集 2022 27.9 13.1 6.16 23.3
3D-aware [22] RGBD RedNet [129] 有限数据集 2023 34.0 14.6 4.74 30.5
PEANUT [41] RGBD PSPNet [132] 有限数据集 2023 40.5 15.8 - -
ESC [113] RGBD GLIP [133] 视觉语言模型 2023 36.1 17.7 - 24.0
ReVoLT [114] RGBD YOLOv4 有限数据集 2023 85.7 7.0 0.03 -
DD-PPO [103] RGBD ResNet 有限数据集 2020 0.00 0.00 10.32 0.94
Red-Rabbit [31] RGBD ResNet18 有限数据集 2021 23.67 6.22 9.14 12.14
端到端 Habitat-Web [14] RGBD ResNet18 有限数据集 2022 27.8 9.9 - -
THDA [46] RGBD [129] 增强数据集 2021 21.08 8.75 9.20 16.96
测试集
OVRL [108] RGBD ResNet50 增强数据集 2022 23.2 7.6 - -
SemExp [45] RGBD Mask R-CNN [130] 有限数据集 2020 17.85 7.07 8.82 14.50
模块化 PONI [20] RGBD Mask R-CNN [130] 有限数据集 2022 20.01 8.82 8.68 17.08
Stubborn [111] RGBD Mask R-CNN [130] 有限数据集 2022 23.7 9.8 - -
表 4 中还总结了最近的 ANS [83] 、OccAnt [126] 、S-ANS [127] 、UPEN [128] 这 4 种方法的探索性能. ANS [83] 于 2020
年率先提出了面向具身人工智能的视觉自主探索方法, 提出了模块化的主动视觉 SLAM 框架, 在 MP3D 数据集上
2
达到了 73.28 m 的探索面积和 52% 的探索率. 后来, OccAnt [126] 基于占用预期奖励针对自主探索精度展开研究, 在
MP3D 数据集上达到了 0.34 的 IoU 指标和 100.3 的地图准确率指标. 这一结果与表 4 中的占用预期奖励的实验数