Page 311 - 《软件学报》2025年第4期
P. 311
陈铂垒 等: 面向具身人工智能的物体目标导航综述 1717
信息, 避免无效的场景感知; (3) 高效的场景记忆能力. 具身智能体应当跟踪和记录已搜索过的区域, 避免重复和冗
余的搜索. 从微观层面看, 具身智能体至少需要具备 5 种思维 [16] : (1) 直接依赖视觉观测进行决策的思维; (2) 利用
物体间的语义关系搜寻目标物体的搜索思维; (3) 高效地捕获环境布局的探索思维; (4) 根据物体的方位运动到目
标位置的导航思维; (5) 运动过程中的避障思维. 图 3 根据不同的方法所强调的思维对后文介绍的物体目标导航策
略进行了分类.
可导航区域
导航时间 椅子
t=121 s 沙发
盆栽植物
床
目标: 沙发 马桶 语
视 导航失败, 电视 义
餐桌
觉 碰撞了2次 烤箱 类
观 水池 别
测 冰箱
书
钟表
花瓶
杯子
瓶子
基于RGB视觉观测的端到端物体目标导航
导航时间
t=181 s
目标: 沙发
视 导航成功,
觉 碰撞了0次
观
测
预
测
的
语
义
地
图 PIRLNav,
基于语义地图预测的模块化物体目标导航
图 2 主流的物体目标导航示例
HiNL, PIRLNav, CRL, HOZ,
Red-Rabbit, SP, MJOLNIR,
THDA, ZSON, Gcexp
CSR, HOZ,
思维1
HiNL, SAVN, IoN, SAVN,
L2M, 视觉-语言匹配 PONI, SP,
SSCNav, 3D-aware,
PONI, MJOLNIR,
3D-aware, 思维5 思维2 SemExp,
复杂场景探索 思维1: 直接依赖视觉观测进行决策的思维
ORG+TPN, 物体目标 ZSON,
SemExp, 导航 ESC, GCExp,
ESC 高效的场景记忆 ReVoLT, NIE
HiNL, CRL,
PEANUT, 思维4 思维3 CSR, IoN, 思维2: 利用物体间的语义关系搜寻目标物体的搜索思维
SSCNav, PEANUT, L2M, 思维3: 高效地捕获环境布局的探索思维
L2M, PONI,
Red-Rabbit, SSCNav,
3D-aware, ESC, ReVoLT, 思维4: 根据物体的方位运动到目标位置的导航思维
SemExp, ZSON, 3D-aware,
ESC, NIE 思维5: 运动过程中的避障思维
SemExp, PONI,
ORG+TPN
图 3 根据物体目标导航方法强调的思维分类