Page 301 - 《软件学报》2025年第10期
P. 301
4698 软件学报 2025 年第 36 卷第 10 期
扩散模型具有长视野特性, 通过扩散, 结合样本邻域的信息, 生成贴近样本数据分布的数据. Wang 等人 [32] 提
出扩散 Q 学习算法 (diffusion Q-learning, Diffusion QL), 引入扩散量子学习, 提出用扩散模型来执行策略正则化的
方法. 在稀疏奖励的环境, 利用扩散模型的特点, 该算法捕捉多模态分布, 具有很强的分布匹配技术. Kang 等人 [33]
提出高效扩散策略算法 (efficient diffusion policies, EDP), 采用动作近似方法. 即从已损坏的动作中构建一个替代
动作, 这个替代动作可以轻松地在数据集中生成. 这种方法使得在每个训练步骤中只需要通过噪声预测网络进行
一次预测, 从而显著缩短了训练时间, 避免了繁琐的采样过程. Chen 等人 [34] 提出的从行为候选人中进行选择算法
(selecting from behavior candidates, SFBC), 采用了一种生成式的方法, 将学习到的策略解耦为两部分: 表达性生成
式行为模型和行动评价模型. 这种解耦避免了学习具有封闭形式表达式的显式参数化策略模型, 进一步避免选择
样本外的行动, 提高了计算的效率. 利用扩散的特点, 有效学习数据的分布, 从而解决稀疏奖赏的问题.
2 背景知识
2.1 马尔可夫决策过程
强化学习任务通常使用马尔可夫决策过程来描述, 定义为一个五元组 M = (S,A,P,R,γ), 其中 S 是有限的状态
集, A 是有限的动作集. P : S × A×S → [0,1] 是状态转移模型, R : S × A → R 是即时奖励函数, γ ∈ [0,1] 为折扣因子.
π
(i) (i) ′(i) (i) N d (s,a) 是策略
在离线强化学习中, 智能体得到一个由行为策略 π β 收集的静态数据集 D = {(s ,a , s ,r )} . 假设
i=1
(i)
(i)
(i)
(i)
(i)
(i)
(i)
,
,
π β
π 的贴现状态动作分布, 则有 (s ,a ) ∼ d (·,·) s ′(i) ∼ P(·|s ,a ) r = R(s ,a ). 离线 RL 的目标是找到一个策略
∑ T
π : A×S → [0,1] 希望得到最大化的期望累积奖励. 期望回报 G t = r(s i ,a i ) 作为政策优劣的判别指标, 其中
i=t+1
π s i ∼ P(· | s i ,a i ). 马尔可夫决策过程中的期望回报有两种价值函数表示法. 定义状态值函数
,
s i ∼ d (·) a i ∼ π(· | s i ) 且
为在状态 s 处遵循策略 π 所得到的期望回报 V π (s) = E π (G t | S t = S ), 动作值函数为在状态 s 处执行动作 a, 遵循策略
π 所得到的期望回报 Q π (s,a) = E π (G t | S t = S,A t = A). 为了提高策略的学习率并减小方差, 将策略的优势函数定义
A π (s,a) = Q π (s,a)−V π (s). 但无论使用哪种价值函数学习策略, 都会产生 OOD 行动. 因此有很多方法, 如策略约
为
束、值函数正则化等来解决 OOD 问题.
2.2 期望回归
假设期望回归方程为多元线性方程, 模型表达式定义如下:
T
E(y i ) = x β+b i (1)
i
,
T
其中, 自变量 x i = (x i1, x i2 ,..., x ip ) β 为系数向量, β = (β 1 ,β 2 ,...,β p ) , b i 为误差项. 通常假设 y i 和误差项的同方差性为
一个特定分布. 而期望值回归 [35] , 不仅可以模拟 y i 的期望值, 还可以模拟 y i 的整个分布. 可以同时考虑多个自变量
与因变量之间的关系, 克服了二元线性因考虑不全面导致模型偏差的问题.
期望回归可以定义为:
n ∑
m ω (y i ) = argmin W ω (y i )(y i −m ω ) 2 (2)
m
i=1
其中, 权重定义为:
ω, if y i > m ω
W ω (y i ) = (3)
1−ω, if y i < m ω
其实, 期望值可以看作一个加权平均值, 其权重取决于 y i , 拟合值和当前的不对称水平 ω ∈ (0,1), 其中 ω = 0.5
的值为均方误差方法的结果.
2.3 策略学习
J(π) 最大化.
学习一个最优策略的目标, 是使智能体的期望折扣回报
∞
∑
t
J(π) = E s∼d π (s) E a∼π(a|s) γ r t (4)
t=0

