Page 326 - 《软件学报》2025年第4期
P. 326
1732 软件学报 2025 年第 36 卷第 4 期
确定性, 并进一步平衡探索和利用, 以提高搜寻物体目标的性能.
虽然局部语义地图有助于取得良好的导航性能, 但由于缺少全局的上下文场景先验, 此类方法容易陷入局部
陷阱, 面临泛化能力差等问题. 基于全局语义地图表示, Ramakrishnan 等人 [20] 通过将 ObjectNav 问题解耦为两个子
问题: “去哪里寻找目标”和“如何导航到目标”, 进而提出了一种名为 PONI 的导航策略. 得益于点目标导航技术的
发展, “如何导航到目标”这一问题已经被近乎完美地解决. 因此“去哪里寻找目标”成为了实现 ObjectNav 的关键问
题. PONI [20] 是一种典型的权衡探索与利用的 ObjectNav 算法, 凸显具身智能体的探索能力和场景记忆能力. 如图 21
所示, 在整个导航过程中, PONI 利用视觉观测和位姿信息累积构建已探索区域的全局语义地图. 为了在未知的区
域中搜索物体目标位置, PONI 提出了一个基于区域势函数和物体势函数的 encoder-decoder 架构的模块化导航策
略. 区域势函数指示地图中未知区域所包含的潜在信息量, 指导具身智能体在搜索物体目标的过程中充分探索未
知环境. 物体势函数则指示出未探索区域中存在物体目标的可能性, 指导具身智能体导航至具体的目标物体.
PONI 的提出为模块化导航方法提供了新的范式, 基于全局语义地图表示的 ObjectNav 方法被研究者们进一步拓
展. 不同于 PONI 所采用的势函数, Zhai 等人 [41] 提出了一种名为 PEANUT 的 ObjectNav 方法, 通过直接从全局语
义地图预测物体目标的位置来学习环境布局中的空间和语义规律. Zhu 等人 [21] 则通过直接预测全局地图中不同位
编码器E e t
置到物体目标的距离, 指导具身智能体选择合适的中期导航目标. 然而, 考虑到具身智能体通常置身于 3D 场景中,
构建 2D 语义地图环境表示难免会丢失细粒度的 3D 空间信息. Zhang 等人 [22] 在 PONI 的基础上, 提出了角向引导
探索和类别意识识别两个子策略, 为解决 ObjectNav 问题构建了第 1 个 3D 框架. 即便 3D 环境表示的构建和维护
相对于 2D 环境表示需要大量的计算资源, Zhang 等人通过实验验证了 3D 场景表示的使用能够大大提升 Object-
Nav 性能并降低模型训练的成本. 3D 场景表示使具身智能体能够同时捕捉场景中细粒度 3D 空间和语义信息, 使
其具备更高效的场景记忆和视觉-语言匹配能力.
RGB和深度 物体目标:柜台 空间动作地图
图像 语义分割
语义分割 语义地图 补全后的语义地图 语义置信度地图 (用于动作预测的Q值)
网络 结果
Max Q-value
(Next action)
语义地图补 语义置信度 导航网络
是 停止检测:是否 否 预测网络 0 1
停止 全网络
到目标附近?
图 20 基于局部语义地图的模块化物体目标导航框架 (SSCNav)
智能体位姿 (p t ) 语义地图构建 势函数网络π PF
区域势
解码器 (D a )
区域势能 (U t ) a 可解释局部
导航策略π L
视觉观测 (s t ) 语义地图 (m t ) 物体势 长期目标 (g t )
解码器 (D o )
目标物体类别o 物体势能 (U t ) o 0 1 导航动作 (a t )
图 21 探索和导航相结合的模块化物体目标导航框架 (PONI)
虽然上述基于语义地图表示的模块化导航策略取得了优异的性能, 但是大都依赖人工标注的语义信息. 在实际
应用中, 具身智能体被要求在没有语义注释的环境中也应达到相同的导航效果, 而无需将环境中的物体语义预先注
释一遍. 为此, Min 等人 [23] 提出了一种自监督的 ObjectNav 算法, 利用自主探索和对比学习技术以具身的方式训练语
义分割模型和构建环境表示 (如图 22(a) 所示), 并鼓励具身智能体基于 PONI 算法纯粹地从自己标记的语义地图中