Page 325 - 《软件学报》2025年第4期
P. 325

陈铂垒 等: 面向具身人工智能的物体目标导航综述                                                        1731


                    (1) 视觉感知模块: 主要负责对具身智能体的视觉观察进行编码, 或者通过语义分割获取环境语义信息.
                    (2) 语义映射模块: 整合视觉特征、深度信息和语义信息构建环境表示, 例如占用语义地图和拓扑语义地图.
                    (3) 动作决策模块: 根据具身智能体的视觉观测信息和环境表示, 基于传统的分层次导航策略或基于强化学习
                 的导航策略进行路径规划和运动决策.


                                  导航梯度 (仅训练过程中)
                                  正向传播                                        nav
                                  交互梯度 (训练过程和推理过程中)                                             1维
                                                                                              时间卷积
                          当前视觉   ResNet18 (冻结)
                           观测                 图像                      左转     向下看     前进
                                                                                                 ϕ
                                              特征 卷积                                              int
                                     ...                                                  π θ (s t )
                                                              卷积
                                            512×7×7   64×7×7
                         目标物体                                        LSTM    LSTM   LSTM
                           类别      GloVe嵌入          平铺
                          Laptop
                                                         ObjectNav
                                   1×300      全连接层                                           拼接后的策略
                          t=0                         64×7×7                                  和隐藏状态
                        t=1                                                                   k×(512+6)
                      t=2
                                        图 18 基于元学习的自适应         ObjectNav  策略  (SVAN)

                                                                                      a t
                                                                                           θ, ϕ  nav
                                                                       LSTM                        nav
                                                                                            Δ
                                 ResNet18
                                               s t                          k
                                                                缓存
                                          视觉嵌入                              ...    更新       ϕ  ad
                                                                                            Δ
                                                                   Ψ s         s       s t
                     视觉观测
                                                                Ψ           ...  x  更新  x t
                                                 合成特征    x t       Ψ x
                                                                            ...  a  更新  a t
                                                                   Ψ a
                                目标物
                      喷雾瓶       体嵌入                                 Ψ s
                                                                            D ω         D
                   目标物体 (见过            SE(y)        G θ             Ψ x
                   的和未见过的)         语义嵌入                          对抗输入              ω  D
                                                                                   Δ
                                                                              更新D w
                                             z~N(0, 1)
                                                                     Ψ x
                                                                             ad =−E[D(x)·||a||]
                                                特征生成器(FG)            Ψ a
                                                                               对抗损失
                    仅训练阶段:       导航梯度                      θ  ad          环境元鉴别器(EMD)
                                                           Δ
                    训练和推理阶段:          前向传播       参数θ的更新梯度           参数ϕ的更新梯度          鉴别器更新梯度
                                        图 19 用于   ObjectNav  的生成式元对抗网络     (GMAN)

                    基于  2D  占用语义地图环境表示, SSCNav       [18] 将       解耦为标准的视觉感知、语义映射和动作决策模
                 块, 并提出一种基于语义地图补全的、置信度增强的                 ObjectNav  策略. 如图  20  所示, 首先对  RGB  视觉观测进行语
                 义分割, 结合深度图像生成语义地图环境表示. 考虑到基于帧数有限的图像构建的局部地图是残缺的, 一个语义地
                 图补全网络被用来辅助预测视野之外的语义占用情况和语义关系, 弥补传感器视野的限制. 进一步地, 一个语义置
                 信度预测网络被用来预测补全区域的不确定性, 指示预测结果的可信程度. 最后, 该导航框架将物体目标的语义类
                 别嵌入、预测补全的局部地图和置信度得分拼接起来, 输入到导航网络, 用于预测局部的导航动作. SSCNav                               [18] 采
                 用基于语义地图环境表示, 重点强调高效的探索能力和场景记忆能力.
                    类似地, L2M  [19] 提出了一种空间预测策略, 促使具身智能体主动想象和利用视野之外的语义线索. L2M                         同样
                 利用语义类别的不确定性来确定长期导航目标, 不同于                  SSCNav, L2M  通过集成多个模型的分歧来估计模型的不
   320   321   322   323   324   325   326   327   328   329   330