Page 317 - 《软件学报》2025年第4期
P. 317
陈铂垒 等: 面向具身人工智能的物体目标导航综述 1723
新颖性奖励: 鼓励具身智能体探索先前未访问过的状态 [85−89] . 在探索过程中, 每个状态 s∈S 被分配一个访问计
数 n(s), 其中 S 为状态空间, 新颖性奖励与当前状态下访问频率的平方根成反比:
1
r t ∝ √ (9)
n(s t )
最具代表性的是文献 [85] 中的工作, 研究者将 3D 环境离散为 2D 网格作为状态空间 S, 其中每个单元格被视
为一个离散的独立状态 s, 并根据公式 (9) 分配新颖性奖励. 早期, 研究者基于这种新颖性奖励定义了基于马尔可
夫决策过程 (Markov decision process, MDP) 的最优值函数的置信区间, 并将其应用于传统的强化学习 (reinforce-
ment learning, RL) [86] . 最近的工作将这一思想扩展到函数近似, Bellemare 等人 [87] 的工作通过引进伪计数的概念,
结合复杂的密度模型 [88] 或直接通过哈希函数 [89] 将高维度连续空间离散化, 用来辅助表格 RL.
好奇心奖励: 鼓励具身智能体探索难以准确预测的状态 [90−92] , 尽管这个状态已被访问多次. 基于动力学
(dynamic) 的好奇心奖励已被证明在大规模场景探索任务中表现良好 [90,91] . 具身智能体首先通过学习一个前向动
力学模型 (forward dynamic model) F 来预测具身智能体在当前状态 s t 下, 采取的动作 a t 对环境的影响:
ˆ s t+1 = F (s t ,a t ) (10)
具身智能体不会因为重新访问相同的区域而获得奖励
然后, 在每个时间步对好奇心奖励 r t 进行计算:
2
r t ∝∥ ˆs t+1 − s t+1 ∥ (11)
2
J (θ) 为目
其中, ˆ s t+1 和 s t+1 分别表示预测的 t +1 时刻的状态和 t +1 时刻的真实状态. 以最小化前向动力学预测损失
标, 前向动力学模型 F 被在线优化:
2
J (θ) = min θ ∥ F θ (s t ,a t )− s t+1 ∥ (12)
2
因此, 如果前向动力学模型 F 能够准确无误地预测状态的转变, 也就意味着具身智能体已经掌握了环境的演
化规律, 好奇心奖励会鼓励具身智能体移动并探索新的状态. 在 Pathak 等人 [90] 的基于好奇心奖励的工作中, 图像
特征被作为前向动力学模型的状态表示, 是对具身智能体的视觉观测状态最直观的表征. Ramakrishnan 等人 [54] 的
工作没有延续这一方法, 他们使用了门控循环单元 GRU 隐藏状态计算好奇心奖励, 有助于缓解具身智能体有限的
局部环境观测导致的偏差. 然而, 具身智能体所处的环境的演化可能存在固有的随机性, 好奇心奖励会诱导具身智
能体重复访问部分随机状态 [90,91] 以获取高额积累奖励, 具身智能体永远无法准确预测并探索这样的场景. 为此,
Burda 等人 [91] 通过将一个固定的、参数随机的神经网络定义为奖励预测函数, 提出了随机网络蒸馏方法来打破这
一僵局. 此外, 基于探索分歧的方法也被用于解决这一问题 [92] , 与基于动力学的方法只采用一个前向动力学模型
不同, 该方法通过学习一组前向预测模型并将它们的预测分歧作为鼓励探索新状态的内在动机.
覆盖奖励: 旨在引导具身智能体在短期内捕获尽可能多的感兴趣的事物 [83,93] . 因此, 基于覆盖范围的奖励最大
化在每个时间步收集的信息, 例如最大化物体和地标的数量, 或者最大化观测区域的面积和体积. 值得一提的是,
基于覆盖范围的奖励与新颖性奖励是截然不同的, 新颖性奖励鼓励访问所有地点而不是观察所有环境. 对于覆盖
奖励, 在特定位置捕获的信息量取决于周围的 3D 结构和具身智能体的观测位姿. 基于覆盖奖励, Chaplot 等人 [83]
提出了基于 RL 的探索策略, 将覆盖范围奖励定义为:
(13)
r t ∝ AS t − AS t−1
AS t 表示在 时刻探索的体素数量. 该奖励鼓励具身智能体调整位姿, 优先考虑环境中未观测过的部分. 所以
t
其中,
[93]
. 然而在大规模环境中, 覆盖奖励容易面临稀疏奖励导致
极端情况 [54] . 例如, 具身智能体从一个大型环境中心位置开始探索, 当探索完成一半后, 将没有足够的奖励信号引
导具身智能体探索另一半空间. 为了克服这一局限, Ramakrishnan 等人 [54] 结合新颖性奖励设计了一个覆盖奖励的
变体, 称为平滑覆盖奖励, 通过对探索过的区域进行访问计数, 允许具身智能体在不常访问的区域中导航以走出稀
疏奖励区域. 基于覆盖奖励的探索策略 [93] 通过将模仿学习和强化学习相结合来优化区域覆盖奖励目标, 以学习更
好的泛化策略.
占用预期奖励: 旨在最大限度地提高环境重建的准确性 [94−100] . 具体来说, 具身智能体被鼓励积极地探索最有