Page 319 - 《软件学报》2025年第4期
P. 319
陈铂垒 等: 面向具身人工智能的物体目标导航综述 1725
表 1 物体目标导航策略的优势和局限性总结 (续)
方法 年份 发表渠道 优势 局限性
综合利用视觉观测中的局部和全局空间特征学习 缺少有效的长期记忆, 易导致重复
ORG+TPN [36] 2020 ECCV
视觉表示, 能够帮助具身智能体脱离局部陷阱 探索
首次提出基于语义地图环境表示的物体导航策略 动作空间大, 采样效率低, 易导致重
SemExp [45] 2020 NeurIPS
和模块化的物体导航策略 复探索
通过想象未知区域中的场景先验信息及其置信度 缺少有效的长期记忆, 易陷入局部探
[18]
SSCNav 2020 ICRA
来增强物体目标导航决策 索区域; 动作空间较大, 采样效率低
利用环境中普遍存在的物体间语义和空间关系, 导航策略的泛化性能受限于外部知
MJOLNIR [42] 2020 CoRL
引导智能体逐步探索目标物体 识和环境布局差异影响
THDA [46] 2021 ICCV 通过数据增强提高训练场景的多样性和复杂性, 依赖大量的训练场景和算力
从而提高导航策略的泛化能力
提出利用辅助任务和奖励函数以端到端的方式训 缺少有效的长期记忆, 易导致重复
Red-Rabbit [31] 2021 ICCV
练通用物体导航策略 探索
提出一种空间注意力机制, 引导智能体关注物体 缺少有效的长期记忆, 易导致重复
Mayo等人 [34] 2021 CVPR
之间的关系和目标物体的方位 探索
[40]
提出交互式导航策略, 支持具身智能体通过改变 缺少有效的长期记忆, 特征融合机
NIE [105] 2021 ICCV
环境状态实现更高效的导航 制较为粗糙
利用由粗到细的分层次场景先验引导智能体逐步 不同层次的拓扑场景先验之间的融
HOZ [32] 2021 ICCV
搜寻物体 合机制较为粗糙
提出利用高层次的房间类别信息引导智能体寻找 导航性能受限于场景分类和拓扑图
GCExp [106] 2021 ROMAN
目标物体 构建的准确性
利用未观察区域中的语义类别不确定性来确定长 动作空间较大, 采样效率低, 导航性
[19]
L2M 2021 ICLR
期导航目标, 具备高效的物体搜索能力 能受限于语义地图构建的准确性
综合利用视觉观测中的局部和全局空间特征学习 缺少有效的长期记忆, 视觉表示的
VTNET [65] 2021 ICLR
视觉表示, 以增强导航策略网络 质量受限于物体检测模型
采用有向物体注意力图指导智能体学习物体之间 拓扑图的构建导致细粒度场景先验
DOA [107] 2021 ACM MM
的注意力关系, 引导智能体关注正确的物体目标 信息的损失, 不利于短期规划
基于大量的专家演示和模仿学习技术提高物体导
[14]
Habitat-Web 2022 CVPR 需要人工收集大量的专家演示
航性能
通过对CLIP模型进行微调, 利用CLIP中内化的丰 缺少有效的长期记忆, 易导致重复
[53]
ZSON 2022 NeurIPS
富的视觉-语言特征提高导航泛化性能 探索
利用知识蒸馏技术学习隐式的场景表示, 为物体 缺少有效的长期记忆, 易导致重复
OVRL [108] 2022 ICLR
导航提供丰富的视觉特征 探索
通过数据增强提高训练场景的多样性和复杂性,
ProcTHOR [47] 2022 NeurIPS 依赖大量的训练场景和算力
从而提高导航策略的泛化能力
Complex & 基于元学习技术, 充分利用视觉观测的上下文内 缺少有效的长期记忆, 易导致重复
Li等人 [49] 2022 Intelligent 容, 提高导航策略对未知环境的泛化性能 探索
Systems
采样效率低, 长期记忆不可避免的
[66]
OMT 2022 ICRA 利用Transformer存储历史信息
丢失
Computational
[48] 从空间和时间维度分别充分利用空间视觉特征和 对长序列的视觉观测进行建模, 导
TransNav 2022 Design and
时序视觉特征, 增强导航策略的性能 致计算量的急剧增加
Engineering
基于生成式元对抗网络技术生成未知环境中的陌 缺少有效的长期记忆, 易导致重复
GMAN 2022 ECCV
生物体的视觉特征, 从而泛化到新的物体目标 探索
提出基于监督学习, 根据语义地图直接预测未知 需要额外收集训练数据, 泛化性能
Zhu等人 [21] 2022 IROS
区域中距离智能体最近的物体位置 易受环境布局影响
提出基于监督学习, 预测未探索区域的潜在信息 需要收集大量的地图训练数据, 泛
PONI [20] 2022 CVPR
增益和目标物体存在的可能性 化性能易受环境布局影响
Al-Halah等人 [109] 2022 CVPR 利用模块化迁移学习提出一种适应多种目标模态 没有对多模态融合进行充分研究,
的语义视觉导航策略 导航效率和成功率较低