Page 322 - 《软件学报》2025年第4期

P. 322

1728 软件学报 2025 年第 36 卷第 4 期

信息的目标注意力机制, 考虑到具身智能体的上一个动作的动作注意力机制和考虑先前所有步骤的记忆注意力
机制. 视觉图像特征和 3 种注意力机制的融合被作为注意力嵌入, 通过 LSTM 网络预测导航动作. 值得一提的
是, 该方法具有良好的可解释性, 目标注意力揭示了物体目标在图像中可能存在的位置, 动作注意力揭示了下一
步向右转更有助于观测到物体目标, 记忆注意力赋予了“冰箱”更高的注意力, 因为它与“烤面包机”在空间和语
义方面有一定的关联.

环境
图像观测
c
面向探索的相机控制策略π (·)
RGB 地图
策略网络
Actor 相机
启发式
地图构建启发式模块 GRU 动作
方向
Critic
a =“向左看”
c
Depth
Transformer 结构是非常不稳定的. Li 等人
n
n
现有的导航策略π (·) 导航动作 a =“向前移动”
占据的未探索的空闲的智能体移动方向相机视野朝向编码器
图 13 面向探索的主动相机观测策略和现有导航策略的结合

t时刻的视觉观测
目标物体 e
GloV p g sign(β g ) 融合地图
“Toaster” Conv
t时刻动作
ResNet Conv Conv sign(β a ) LSTM AC

t−1时刻动作 p a p
β t时刻记忆
t−1时刻记忆 t时刻隐藏状态
Conv p m sign(β m ) 注意力嵌入
Conv
t−1时刻Cell状态 t时刻Cell状态
(LSTM) (LSTM)
图 14 端到端的视觉注意力概率模型 (具身智能体被要求导航至冰箱附近的烤面包机)

然而, 由于 LSTM 和 GRU 等循环神经网络被证明在捕获运动轨迹中的长期依赖方面是低效的, 不利于处理
和执行长动作序列. 因此, 基于 Transformer 的端到端的方法被提出, 通过利用多头注意力机制来捕获历史导航轨
迹中不同时间步的长距离依赖关系, 图 15 所示的模型采用了 Actor-Critic 强化学习架构, 以 RGB 图像、深度图像
和任务观测作为输入, 预测导航动作. 然而, 考虑到 Transformer 模型的训练往往依赖大量的数据, 在强化学习框架
下直接利用 [35] 进一步提出了一个辅助任务来预测下一个航路点, 有利
于引导强化学习和对环境的表示学习. 同图 14 所示的方法类似, Li 等人 [35] 的工作也重点强调用于物体目标导航
的视觉语言匹配能力和高效的场景记忆能力. 类似地, 基于辅助任务的方法也存在于 Ye 等人 [31] 的工作中. 该工作
证明了辅助任务通过最小化有效的 RNN 维数来避免模型过拟合, 一个高性能具身智能体必须通过学习平滑的、
低维的循环特征来实现长期的连续规划.
除了采用注意力机制和 Transformer 编码器来隐式地维护导航过程中的历史记忆, Du 等人 [36] 提出了一种物体
关系拓扑图 (object representation graph, ORG), 在基于图像的目标检测过程中提取场景中成对的物体间的关系, 以
重点强调用于物体目标导航的高效的场景记忆能力. 如图 16 所示, ORG 被作为局部拓扑环境表示, 与当前视觉特

317 318 319 320 321 322 323 324 325 326 327