Page 337 - 《软件学报》2025年第4期

P. 337

陈铂垒等: 面向具身人工智能的物体目标导航综述 1743

图 30 说明了 IL 阶段采用不同数量的专家演示对 RL 微调的性能的影响. 显然, 当不采用 IL 时, 即 IL 专家演
示数量为 0, 用于 ObjectNav 的 RL 是失败的, 即成功率近乎为 0. 深蓝色表示随着专家演示数量的增加, RL 后的
ObjectNav 成功率逐渐增加. 浅橘色表示随着 IL 数据集规模的扩大, RL 微调过程中获取的奖励先趋于平稳然后降
低, 这意味着 IL 阶段的学习为 RL 提供了一个很好的起点. 这些研究结果表明, 通过有效地权衡 RL 调优后的性能
和 IL 预训练数据集大小, 我们可以在不需要大量昂贵的专家演示的情况下获得更先进的 ObjectNav 性能.

Critic 学习率交互学习
学习阶段衰减阶段 80 30
70.4%成功率
2.5E−4 达到最先进的
60 +9.6%
2.0E−5 20 ObjectNav性能
+9.8%
40
学习率 1.6E−5 RL 20 −3.1% 10 ΔIL→RL
1.2E−5
8E−6 Critic学习率 RL微调的奖励随
Actor学习率 +4K +12K 专家演示数量的
4E−6 0 0
Critic和Actor学习率增加而递减
0.43
0 0 15 30 45 60 75
5 10 15 20 25 0 1k 4k 12k 36k 107k 模仿学习专家演
示的数量
学习步数 (百万) IL
图 29 Critic 和 Actor 的学习率随步数的变化图 30 模仿学习专家演示数量对强化学习调优的
性能影响
5 现有方法的性能比较及分析

基于第 4 节所述的数据集和评价指标, 本文总结了现有的视觉自主探索、ObjectNav 和视觉物体重排布策略
的性能比较, 最优性能用粗体表示. 根据第 2 节所述的 ObjectNav 模型结构和策略划分, 对现有 ObjectNav 方法进
行了细致的分类和梳理. 表 4 为视觉自主探索任务中的算法总结, 表 5 介绍了多目标 ObjectNav 算法性能对比, 表 6–
表 8 按照模型架构, 分别总结了现有的 ObjectNav 策略在不同数据集上的实验结果. 表 9 分别介绍了现有的一阶
段和二阶段视觉物体重排布任务的基线和最佳性能.

表 4 P3D 数据集上的视觉自主探索性能比较

方法年份 EA↑ ER↑ IoU↑ MA↑ Objs. Lands. V.Loc. Nav. Recon.
随机动作－－－－－ 0.25 0.16 0.13 0.64 0.38
边界探索 [125] 1997 －－－－ 0.57 0.50 0.24 0.70 0.46
新颖性奖励 [85] 2020 －－－－ 0.62 0.35 0.22 0.68 0.45
好奇心奖励 [90] 2020 157.27 － 0.34 109.79 0.31 0.21 0.15 0.64 0.40
覆盖奖励 [83] 2020 158.83 － 0.36 116.58 0.56 0.35 0.22 0.68 0.44
占据预期奖励 [54] 2020 147.33 － 0.42 126.86 0.53 0.40 0.21 0.69 0.45
内在影响奖励 (grid) [101] 2022 157.19 － 0.44 133.97 －－－－－
内在影响奖励 (DME) [102] 2022 166.20 － 133.27 －－－－－
ANS [83] 2020 73.28 0.52 －－－－－－－
OccAnt [126] 2020 －－ 0.34 100.30 －－－－－
S-ANS [127] 2022 84.40 －－－－－－－－
UPEN [128] 2022 113.00 0.68 0.46 141.60 －－－－－

5.1 视觉自主探索性能比较及分析
为了对视觉自主探索策略进行总结, 探索面积 (EA)、探索率 (ER)、IoU 和地图准确率 (MA) 被用来评价策略
的性能, 搜索的物体数量 (Objs.)、搜索的路标数量 (Lands.)、视图定位精度 (V.Loc.)、导航准确率 (Nav.) 和重建准
确率 (Recon.) 被用来评估探索策略对下游任务的贡献. 表 4 中的第 1–2 行总结了视觉自主探索任务的基线. 其中随

332 333 334 335 336 337 338 339 340 341 342