Page 316 - 《软件学报》2025年第4期
P. 316
1722 软件学报 2025 年第 36 卷第 4 期
杂多样的场景, 允许具身智能体为未知环境中的下游任务做无监督的准备 [82] . 在视觉自主探索任务中, 具身智能
体置身于一个事先未知的环境中, 能够捕获自我为中心的局部视觉观测和自身位姿状态. 在没有全局地图和任务
目标的情况下, 具身智能体必须在探索策略的引导下, 在开放的场景中自主探索和收集空间和语义信息, 同时显式
或隐式地构建环境表示. 如图 10 所示, 当接收到明确任务目标时 (例如去客厅拿一杯咖啡), 具身智能体能够凭借
自主探索过程中建立的环境表示和先验知识, 解决诸如物体目标导航等下游任务.
自主探索和收集信息 解决下游任务
请到客厅帮我拿
一杯咖啡…
图 10 视觉自主探索与下游任务示例
为了充分完整地探索环境, 具身智能体不仅需要同时定位与地图构建 (simultaneous localization and mapping,
地图m t
SLAM) 和分层次路径规划等模块的协同工作, 关键还需要一个鲁棒的探索策略持续地提供长期的探索目标. 如图 11
所示的探索框架 [83] , 在每个时间步 t , 具身智能体从环境获得视觉观测 s t 和位姿传感器数据 x t , SLAM 神经网络率
先接收这些数据并建立环境表示:
m t , ˆx t = f SLAM (s t , x t ) (4)
其中, m t 表示部分的基于地图的环境表示, ˆ x t 为具身智能体在 m t 中的位姿估计, 全局探索策略依据现有地图表示 m t
l
和具身智能体位姿估计 ˆ x t 选择合适的长期导航目标 g :
t
l
g = π G (m t , ˆx t ) (5)
t
l
其次, 长期导航目标 g 、位姿估计 ˆ x t 和地图 m t 被整合和输入到路径规划器 f plan 中:
t
( ) ( )
l
trj ˆx t ,g = f plan m t , ˆx t ,g l (6)
t t
输出一条引导探索的全局导航路径 (蓝色). 分层次路径规划策略根据全局导航路径生成航路点作为短期探索
s
目标 g , 进一步结合视觉观测 s t , 利用局部导航策略输出具体的导航动作:
t
( ( ) )
s l (7)
g = waypoint trj ˆx t ,g , ˆx t
t
t
s
( )
a t = π L g , ˆx t (8)
t
其中, a t 为具身智能体经过一次视觉自主探索迭代后执行的导航动作.
传感器位姿
位姿估计x t
数据x t
自主探索策略 长期导航目标
l
(π G ) g t
SLAM神经网络
( f SLAM )
路径规划器
视觉观测s t
局部导航策略 短期导航目标 f plan
导航动作a t s
(π L ) g t
图 11 视觉自主探索架构示意图
现有的视觉自主探索方法基于强化学习框架, 试图赋予具身智能体某种奖励以鼓励具身智能体在环境中的探
索行为. 本文基于 Ramakrishnan 等人 [54] 和 Bigazzi 等人 [84] 的工作, 梳理和总结了 5 种现有的探索策略, 其中包括新
颖性奖励 (novelty reward)、好奇心奖励 (curiosity reward)、覆盖范围奖励 (coverage reward)、占用预期奖励
(occupancy anticipation reward) 和内在影响奖励 (intrinsic impact reward), 如图 5 所示.