Page 316 - 《软件学报》2025年第4期
P. 316

1722                                                       软件学报  2025  年第  36  卷第  4  期


                 杂多样的场景, 允许具身智能体为未知环境中的下游任务做无监督的准备                         [82] . 在视觉自主探索任务中, 具身智能
                 体置身于一个事先未知的环境中, 能够捕获自我为中心的局部视觉观测和自身位姿状态. 在没有全局地图和任务
                 目标的情况下, 具身智能体必须在探索策略的引导下, 在开放的场景中自主探索和收集空间和语义信息, 同时显式
                 或隐式地构建环境表示. 如图         10  所示, 当接收到明确任务目标时        (例如去客厅拿一杯咖啡), 具身智能体能够凭借
                 自主探索过程中建立的环境表示和先验知识, 解决诸如物体目标导航等下游任务.

                                            自主探索和收集信息               解决下游任务
                                                                    请到客厅帮我拿
                                                                     一杯咖啡…





                                              图 10 视觉自主探索与下游任务示例

                    为了充分完整地探索环境, 具身智能体不仅需要同时定位与地图构建                       (simultaneous localization and mapping,
                                                   地图m t
                 SLAM) 和分层次路径规划等模块的协同工作, 关键还需要一个鲁棒的探索策略持续地提供长期的探索目标. 如图                                11
                 所示的探索框架      [83] , 在每个时间步   t , 具身智能体从环境获得视觉观测       s t  和位姿传感器数据   x t  , SLAM  神经网络率
                 先接收这些数据并建立环境表示:

                                                     m t , ˆx t = f SLAM (s t , x t )                 (4)
                 其中,   m t  表示部分的基于地图的环境表示,       ˆ x t  为具身智能体在  m t  中的位姿估计, 全局探索策略依据现有地图表示          m t
                                                          l
                 和具身智能体位姿估计        ˆ x t  选择合适的长期导航目标    g  :
                                                          t

                                                        l
                                                       g = π G (m t , ˆx t )                          (5)
                                                        t
                                     l
                    其次, 长期导航目标      g  、位姿估计   ˆ x t  和地图   m t  被整合和输入到路径规划器   f plan  中:
                                     t
                                                     (   )     (     )
                                                         l
                                                   trj ˆx t ,g = f plan m t , ˆx t ,g l               (6)
                                                         t          t
                    输出一条引导探索的全局导航路径             (蓝色). 分层次路径规划策略根据全局导航路径生成航路点作为短期探索
                      s
                 目标  g  , 进一步结合视觉观测     s t  , 利用局部导航策略输出具体的导航动作:
                      t

                                                             (  (  )  )
                                                   s               l                                  (7)
                                                  g = waypoint trj ˆx t ,g , ˆx t
                                                                   t
                                                   t

                                                              s
                                                             (   )
                                                        a t = π L g , ˆx t                            (8)
                                                              t
                 其中,   a t  为具身智能体经过一次视觉自主探索迭代后执行的导航动作.

                    传感器位姿
                                                 位姿估计x t
                      数据x t
                                                                自主探索策略        长期导航目标
                                                                                   l
                                                                   (π G )         g  t
                                  SLAM神经网络
                                     ( f SLAM )
                                                                                              路径规划器
                    视觉观测s t
                                   局部导航策略        短期导航目标                                         f plan
                    导航动作a t                           s
                                      (π L )         g  t
                                                图 11 视觉自主探索架构示意图

                    现有的视觉自主探索方法基于强化学习框架, 试图赋予具身智能体某种奖励以鼓励具身智能体在环境中的探
                 索行为. 本文基于     Ramakrishnan  等人  [54] 和  Bigazzi 等人  [84] 的工作, 梳理和总结了  5  种现有的探索策略, 其中包括新
                 颖性奖励    (novelty reward)、好奇心奖励  (curiosity reward)、覆盖范围奖励   (coverage reward)、占用预期奖励
                 (occupancy anticipation reward) 和内在影响奖励  (intrinsic impact reward), 如图  5  所示.
   311   312   313   314   315   316   317   318   319   320   321