Page 341 - 《软件学报》2025年第4期
P. 341
陈铂垒 等: 面向具身人工智能的物体目标导航综述 1747
性能优于端到端的 ObjectNav 策略. 相反, 在 MP3D 测试集上, 端到端的 ObjectNav 策略的性能优于模块化的
ObjectNav 策略. 表 6 中的红色数据表示 GCExp [106] 和 ReVoLT [114] 策略的训练或评估只采用 MP3D 的部分场景, 各
类方法所取得的最佳性能以粗体数据显示. 因此出现成功率、SPL 指标、DTS 指标和 SoftSPL 指标偏高或偏低的
情况.
由于 Gibson 数据集相对于 MP3D 数据集具有较低的复杂度, 因此各种 ObjectNav 策略在 Gibson 数据集上的
性能指标更高, 如表 7 所示. 同样以 DD-PPO 为基准, Li 等人 [35] 提出了基于 Transformer 的端到端的 ObjectNav 策
略, 一方面利用多头注意力机制来捕获历史导航轨迹中不同时间步的长距离依赖关系, 另一方面采用辅助任务改
善模型的训练, 在 Gibson 数据集上达到了最高的 82.8% 的成功率和最高的 48.7% 的 SPL 指标. 值得注意的是, Li
等人 [35] 没有采用任何预训练的视觉编码器. 对于模块化 ObjectNav 策略, 相比于 SemExp [45] 、Al-Halah 等人 [109] 和
Min 等人 [23] 的工作, PONI [20] 和 3D-aware [22] 分别取得 73.6% 和 74.5% 的成功率. 此外, PONI 和 3D-aware 也取得了
较高的 SPL 指标, 3D-aware 达到了最低的 DTS 指标, 仅为 1.16 m. PONI [20] 和 3D-aware [22] 分别采用了 Mask R-
CNN 和 RedNet 作为视觉编码器.
类似于在 MP3D 验证集上的表现, PEANUT [41] 作为最新的模块化 ObjectNav 策略, 在 HM3D 数据集上也取得
了最高的 64.0% 的成功率和最高的 33.0% 的 SPL 指标. 以 DD-PPO 103] 为基准, Habitat-Web [14] 、OVRL [108] 、
ProcTHOR [47] 和 PIRLNav [15] 这 4 种模块化的 ObjectNav 策略都提升了至少 1 倍的性能, 具体来说, 成功率提升了
28.0%–36.2%, SPL 指标提升了 10.0%–20.0%. 其中, PIRLNav 采用了独特的训练范式, 通过将 IL 和 RL 调优相结
合, 取得了 62.2% 的次最优成功率. 值得注意的是, PIRLNav 只采用 RGB 图像作为导航策略的输入, 并没有利用
深度图像数据.
由于 AI2-THOR 数据集相对于其他几种数据集包含较少的场景类型, 各种 ObjectNav 策略在 AI2-THOR 上取
得了较为可观的性能. 基于 AI2-THOR 数据集的 ObjectNav 策略普遍报告了两类评价指标 (L≥5): (1) 导航步数大
于等于 5 步情况下的 SR 和 SPL 指标; (2) 所有步数情况下的 SR 和 SPL 指标 (All).
最早的基于元强学习的泛化学习策略 SAVN [39] 是基于 AI-THOR 数据集提出的, 致力于提高 ObjectNav 策略
在未见过的场景中的泛化能力. 考虑所有步数情况时, SAVN 分别取得了 40.9% 的 SR 和 16.2% 的 SPL 指标, 考虑
[49]
指标. Li 等人
的
和
最新的工作延续了
的
步数大于等于 5 的情况时, SAVN 分别取得了 AI2-THOR
SR
28.7%
SPL
23.5%
SAVN 的思路, 通过将层次化语义信息与元学习相结合, 弥补了已知环境与未知环境的泛化性能差距. 与基于
SAVN 的思路不同, GMAN [40] 提出了一种新颖的生成式元对抗网络, 致力于提高 ObjectNav 策略对于未见过的物
体目标的泛化能力, 在 AI2-THOR 上的性能相较于 SAVN 有所提高. Du 等人 [36] 提出了一种分层强化学习方法, 引
入了一个目标关系图 (ORG) 和一个试探策略网络 (TPN), 成功率达到了 69.3% (All) 和 60.7% (L≥5). 在最新的工
[38]
作中, L-sTDE 通过提出一种基于布局的软总直接效应框架大幅提升了 HOZ 的导航性能, 取得了 75.1% (All) 的
成功率指标和 41.5% 的 SPL 指标. HiNL [37] 在 ORG+TPN 的基础上提出了一种历史启发的导航策略学习框架, 在
AI-THOR 数据集上取得了最佳的物体目标导航性能.
考虑到人类在陌生环境中通常依赖历史经验搜寻目标物体, 研究者开始尝试将人类先验知识融合到导航策略
学习网络中. 作为模块化的 ObjectNav 策略, MJOLNIR [42] 通过从外部数据库提取描述场景先验的知识图谱, 学习
环境中物体-物体之间的空间和语义关系, 在 上取得了 65.3% (All) 和 50.0% (L≥5) 的成功率. HOZ [32] 作
为一种端到端的 ObjectNav 策略, 则进一步考虑了空间-空间, 空间-物体, 物体-物体多层次空间和语义关系, 通过
维护一个分层次语义关系图, 引导具身智能体进行由粗到细的进行分层次目标物体探索. HOZ 的成功率相比于
MJOLNIR 提升了 5.3% (All) 和 12.8% (L≥5). DOA [107] 提出了一种有向物体注意力图来指导具身智能体显式地学
习物体之间的注意力关系并关注正确的物体, 取得了优异的 SR 和 SPL 指标.
利用历史经验辅助当前时刻的动作决策, 是提高导航效率和避免重复探索的重要手段. 考虑到 Transformer 在
捕获长距离依赖特征方面的优势, VTNET [65] , OMT [66] , TransNav [48] 均基于 Transformer 提出了利用经验信息的
ObjectNav 策略. 通过综合利用视觉观察的局部空间特征和全局空间特征, VTNET 学习更强大的视觉表示. OMT
结合目标物体类别关注历史经验中有价值的信息, 从而指导具身智能体在没有先验知识的情况下在室内环境中完