Page 299 - 《软件学报》2025年第10期

P. 299

4696 软件学报 2025 年第 36 卷第 10 期

[1]
强化学习 (reinforcement learning, RL) 是机器学习领域中的一种重要的学习方法. 通常以马尔可夫决策过程
[2]
(Markov decision process, MDP) 来表示环境的信息. 深度强化学习 (deep reinforcement learning, DRL) 将深度学
[3]
习 (deep learning, DL) 与 RL 相结合, 兼备 DL 的信息感知能力和 RL 的决策控制能力, 形成一种端到端的完整智
能系统. 离线强化学习 (offline reinforcement learning, ORL) 是强化学习的一个变种, 将经典的强化学习算法或者
[4]
深度强化学习算法利用在静态数据集上, 预训练环节脱轨于大规模的数据收集, 在策略学习时不需要任何的交互.
解决了大规模在线预训练有限的问题, 减少了计算成本.
目前 ORL 是强化学习最热的子方向之一, 利用预先收集的大规模静态数据集来训练强化学习智能体. 其核心
目的是在固定的数据集上训练出一个好的策略, 能在未知数据分布的数据集上表现良好. 但在这种环境下, 由于数
据的分布不同, 会产生分布偏移, 也叫外推误差, 成为 ORL 的主要问题. 解决外推误差的方法大致可以分为 4 类:
策略约束 [5] 、值函数正则 [6] 、不确定估计 [7] 和基于模型的方法 [8] . Fujimoto 等人 [9] 在双延迟深度确定性策略梯度
算法 (twin delayed deep deterministic, TD3) [10] 的基础上, 提出了批量受限深度 Q 学习算法 (batch constrained deep Q-
learning, BCQ), 从理论上解释了在连续任务中, 外推误差出现的原因以及如何消除. 并提出利用批量约束和添加
动作扰动模型来避免外推误差. 显示约束策略, 这是最早提出的离线强化学习方法. 这方法主要是将动作的选择限
制在离线数据集分布上, 从而避免出现 Q 值高估分布外动作的问题. 而保守的 Q 学习算法 (conservative Q-learning,
CQL) [11] 提出在 Q 值函数更新中添加一个正则项, 使得估计的期望值低于真实值, 打破对 Q 值高估的限制, 提高了
对策略进行正确评估的能力. 为了能在分布外的动作上也学习到好的分数, 基于模型的离线策略优化算法 (model-
based offline policy optimization, MOPO) [12] 在基于模型的方法基础上, 添加了一个奖励惩罚项, 提高了模型的泛化
能力. Kostrikov 等人 [13] 提出隐式 Q 学习方法 (implicit Q-learning, IQL), 采用 SARSA 方法和期望回归方法更新价
值函数, 直接确定 Q 值如何随着不同的动作而变化, 并借助随机动态对未来结果进行平均. 其一方面通过价值函
数评估, 降低模型与估计之间的差距, 另一方面利用 SARSA 方式的随机性特点, 提高策略的泛化能力.
泛化能力是指模型在遇到未曾见过的数据时的表现. 在离线强化学习领域, 模型通常基于离线数据集进行训
练, 因此对泛化能力的关注尤为重要. 泛化性能差主要原因包括数据分布偏移和过拟合等问题. 常见的解决方案包
括数据增强 [14] 、迁移学习 [15] 和对抗学习 [16] 等方法. Wang 等人 [17] 提出利用 3 种不同的状态增强技术: 随机失活法、
混合法和缩放法, 以缓解离线多智能体分布偏移的问题. 通过对状态进行数据增强, 不仅扩大了数据集的规模, 还
提高了局部泛化能力, 进而促进了算法更有效地学习策略. Qiao 等人 [18] 提出了软对抗离线强化学习算法 (soft
adversarial offline reinforcement learning, SAORL), 通过降低 ORL 中对抗示例的攻击强度来学习软对抗示例. 对传
统对抗示例提出了基于 Wasserstein 的约束, 学习软对抗示例的劣例优化问题, 提高智能体在最坏情况下的泛化能
力. 但在稀疏奖励环境下, 经典 ORL 算法面临着无效增强、迁移后性能降低、计算成本增加等问题. 因此, 在离线
强化学习的环境下, 为智能体提供有效泛化仍是亟待解决的难题.
而在 ORL 经典的学习任务中, 通常面临离散任务且稀疏奖励的问题, 即在一个很长的时间步内, 只有几个时
间步可以得到奖励. 目前在强化学习中, Rengarajan 等人 [19] 提出离线指导在线学习算法 (learning online with
guidance offline, LOGO), 使用离线演示数据, 将策略改进步骤与额外的策略指导步骤合并, 以次优策略定位学习策
略, 同时又能够超越学习和接近最优策略. Liu 等人 [20] 提出了分层安全离线强化学习 (hierarchical safe offline
reinforcement learning, HSORL), 利用分层强化学习框架, 通过用分层策略对不安全行为进行建模, 缓解了稀疏性
问题. 其中, 在数据收集的时候, 不安全的状态-动作对通常是稀疏的, 因此不利于建模. 除了指导策略和分层强化
学习外, Lin 等人 [21] 提出转换轨迹变压器算法 (switch trajectory Transformer, SwitchTT), 这是一种对轨迹变压器的
多任务扩展, 利用稀疏激活模型, 来降低在多任务离线模型学习中的计算成本, 同时采用分布轨迹值估计器来提高
在稀疏奖励环境下策略的性能. 本文引入扩散模型, 利用扩散模型的长视野的特点, 结合数据样本的邻域信息, 来
缓解稀疏奖励的问题.
扩散模型 (diffusion model, DM) [22] 类似于生成模型, 从噪声中生成数据样本, 是学习数据分布的一种方法. 随
机采样数据样本, 加上随机噪声, 通过预测去噪网络参数, 生成目标数据. DM 结合数据样本的邻域信息, 在稀疏奖
励的环境下, 即使不能得到下一状态的有效奖励, 也能通过扩散的形式, 生成接近样本数据的数据, 提升样本的利

294 295 296 297 298 299 300 301 302 303 304