Page 315 - 《软件学报》2025年第4期
P. 315

陈铂垒 等: 面向具身人工智能的物体目标导航综述                                                        1721


                 些工作尝试将基于知识图谱的常识知识注入拓扑场景图中                    [76,77] , 构建更加鲁棒的离散拓扑场景图. 但是, 为了探索
                 更加适合具身导航任务的环境表征, 研究者们逐渐开始研究连续环境表示的构建方法, 基于对比学习的连续环境
                 表示应运而生     [78,79] . 如图  8  所示, 基于对比学习的连续环境表示方法      [78] 将成对的语义关系嵌入到一个潜在的特征
                 空间, 鼓励具身智能体以探索的方式逐渐构建一个鲁棒的、全面的环境表示. 首先, Fast R-CNN                          [80] 被用于基于
                 RGB  图像检测物体, 物体的属性和成对的物体之间的关系被                  CER  编码器编码为固定长度的向量, 这样的特征向
                 量被期望能够描述连续的、多维度的语义关系. InfoNCE               损失  L contrast   [81] 被用来作为对比损失训练  CER  编码器, 促
                 使特征空间中相似的特征相互靠近, 不同的特征相互远离:

                                                                   (   ) 
                                                                      1  2
                                                                 sim ˜ z ,˜z 
                                                                     i  i 
                                                                        
                                                              exp       
                                                                        
                                                     1  N ∑          τ
                                             L contrast = −  log     (   )                          (1)
                                                     N                  1  2
                                                                        j
                                                       i=1  ∑ N     sim ˜z ,˜z  
                                                                   
                                                                          k 
                                                                   
                                                                           
                                                             j,k=1 exp   
                                                                      τ   
                      (   )               (   )
                                           1
                       1
                      ˜ z ,˜z 2            ˜ z ,˜z 2                            τ 表示  Softmax  温度缩放参数.
                 其中,    i  i   表示成对的正样本,    j  k   表示成对的负样本,    sim(·) 表示点乘操作,
                    如图  9  所示, 通过联合优化一个基于强化学习的探索策略和一个视觉表示模型, Du                     等人  [79] 提出了好奇心驱动
                 的表示学习方法, 促使具身智能体在探索环境的过程中主动地学习环境表示. 具体来说, 探索策略和视觉表示学习
                                                                    L rep  :
                 相互博弈, 视觉表示模型的优化目标是最小化表示学习的目标损失

                                                               (
                                                     min E  [ L rep M ϕ , x )]                        (2)
                                                      ϕ  x∼p data
                    探索策略的奖励函数被设置为最大化表示学习的目标损失:

                                                                    
                                                           T
                                                         ∑         ) 
                                                             (      
                                                    max E    L rep M ϕ , x                        (3)
                                                     θ  x∼π θ       
                                                          t=0
                 其中,    M ϕ  为表示学习模型,   x 为从数据分布   p data  中的采样,   π θ  表示探索策略. 因此, 探索策略被训练以最大化表示
                 学习模型的错误, 具身智能体在这样的过程中被激励去探索充满不确定性的环境. 随着探索策略提供越来越难学
                 习的数据, 学习的环境表示也变得越来越全面和鲁棒.


                                所有的关系对      节点和边
                                                1和2之间的
                                                                                    α 1      α 2
                      Fast R-CNN  (一个批次)     表示
                                         CER      局部CER                策略       π θ      π θ
                            目标检测        编码器
                    I t                             t
                                                    g CSR
                                         f CSR                      强化学习
                                                                 (最大化对比损失)
                                                      主对角
                                    ...       ...     线以外
                                                 主对角线 的是边
                                                 上是节点  特征                       r 1      r 2      r 3
                                                  特征
                   正样本 (相同关系)       负样本 (其他关系)                                  rep 1   rep 2   rep 3
                                                                       Model
                  视
                  野                              图例                          对比损失      对比损失     对比损失
                   A                            目标检测1                   M ϕ
                               状态嵌入                             正
                                 空间             目标检测2           样
                  视                                             本
                  野                             关系嵌入            对       M ϕ          M ϕ       M ϕ
                   B
                                                                负                       表示学习
                   图 8    基于目标检测和对比学习的连续环境表示                    样       M ϕ          (最小化对比损失)
                                                                本
                                                                  图 9    基于对比学习的对抗式连续环境表示
                 1.2   视觉自主探索任务与策略
                    视觉自主探索是具身智能体不可或缺的能力之一, 它使得具身智能体无需依赖人类的部署即可熟悉和适应复
   310   311   312   313   314   315   316   317   318   319   320