Page 320 - 《软件学报》2025年第4期
P. 320
1726 软件学报 2025 年第 36 卷第 4 期
表 1 物体目标导航策略的优势和局限性总结 (续)
方法 年份 发表渠道 优势 局限性
增量地学习可重用的高维环境特征, 在导航过程 在复杂和未知环境中, 抽象模型的
[110]
Campari等人 2022 CVPR
中有效地获取和回忆历史知识 性能受限于特征提取模块
提出了一种多维度的障碍物地图和一种不依赖环 动作空间过于简化, 容易导致无效
[111]
Stubborn 2022 IROS
境语义的启发式探索策略 的导航步骤
利用自主探索和对比学习技术以具身的方式训练 需要额外收集训练数据, 对复杂环
Min等人 [23] 2022 IROS
语义分割模型并构建环境表示, 提高导航效率 境的泛化性能有待商榷
提出了基于3D语义地图的场景表示和一种角向引
[22] 3D语义地图的更新和维护效率低,
3D-aware 2023 CVPR 导的探索策略, 采用3D场景先验引导智能体识别
目标物体 容易导致导航步骤的浪费
提出 “搜索”和“导航”两种导航思维, 不同的导航 忽略了对探索、避障等重要思维的
Dang等人 [112] 2023 ICCV
阶段灵活地使用不同的思维 建模和讨论
基于Transformer存储历史信息, 实现当前视觉观 对长序列的视觉观测进行建模, 导
Li等人 [35] 2023 IEEE RAL
测与历史记忆的交互 致计算量的急剧增加
深入研究了将模仿学习预训练和强化学习微调相 导航模型设计过于简单, 对复杂场
其探索并导航至具有某种属性的特定实例
PIRLNav [15] 2023 CVPR
结合的训练范式 景的泛化性能未知
[38] 利用环境中的物体布局, 通过因果推断消除已知 导航性能受环境布局信息的制约,
L-sTDE 2023 CVPR
环境和未知环境之间的特征误差 在不同环境间的泛化性能未知
抑制了重复的历史记忆对导航策略的负面影响, 简单地将历史记忆编码为向量, 容
HiNL [37] 2023 CVPR
使智能体能快速响应环境变化 易造成历史信息的丢失和遗忘
采用监督学习, 根据语义地图直接预测未知区域 需要收集大量的地图训练数据, 泛
[41]
PEANUT 2023 ICCV
中物体目标的潜在位置 化性能易受环境布局影响
通过大语言模型将常识性知识引入导航策略实现 导航性能受限于提示符的设计和语
[113]
ESC 2023 ICML
零样本学习, 提高了在未知环境中的泛化性能 义地图构建的准确性
使用多层空间-语义拓扑图构建场景表示, 利用分 损失了细粒度的场景先验信息, 不
ReVoLT [114] 2023 arXiv
层次的场景先验增强导航策略 利于短期规划
提出一种基于对比学习的连续环境表示方法和一
Chen等人 [115] 2023 IEEE TCSVT 种多步前向规划方法, 增强了智能体的环境理解 连续环境表示的性能受限于语义地
和决策能力 图构建的精度
缺乏对避障、导航等思维的讨论,
提出一种基于技能的分层强化学习导航框架, 调
SHRL [116] 2023 IEEE TMM 基于向量的场景表示容易造成历史
度不同的技能解决导航过程中的不同子问题
信息的丢失和遗忘
2.1 单物体与多物体目标导航任务
想象一下, 你走到一个家庭机器人助手面前问它: “能去看看我的笔记本电脑在不在桌子上吗? 如果在, 请拿
来给我.” 为了成功地完成这项任务, 机器人助手需要具备视觉感知、语言理解、情景记忆、推理和规划和导航等
广泛的技能. 作为中间环节, 搜索和导航到一个指定物体 (寻找笔记本电脑) 的能力是不可或缺的, 这也是本文讨
论的重点. 物体目标导航按照任务类型可以分为单目标导航和多目标导航, 定义分别如下.
单物体目标导航: 要求具身智能体在一个事先未知的环境中导航至由一个特定标签指定的物体目标. 对于一
个在事先未知的环境中以随机的坐标和位姿初始化的具身智能体, 类别层次的 (class-level) 物体目标导航要求其
探索并导航至一个物体类别的任何实例 (例如“找到一把椅子”), 实例层次的 (instance-level) 物体目标导航 [33] 要求
(例如“找到一把木质的棕色的椅子”).
多物体目标导航: 要求具身智能体探索环境并按照指定的语义标签序列搜索并导航至多个不同的物体目标,
是对单物体目标导航任务的泛化.
虽然基于地图的记忆结构对于具身智能体来说不一定是最优的, 但它们具有较强的空间结构建模和可解释性
优势, 被研究人员广泛地采用, 也已被证明在各种导航任务中优于基于神经网络的隐式记忆结构 [32,34,36−38] . 基于这
个观点, Wani 等人 [25] 提出了一个统一的框架 MultiON, 采用如图 12 所示的导航框架重点研究了基于地图的环境
表示在单目标和多目标导航中的应用, 验证了简单的语义地图环境表示在提升导航性能方面优于一个更复杂的基