Page 42 - 《软件学报》2024年第4期
P. 42

1620                                                       软件学报  2024 年第 35 卷第 4 期

         的研究背景,  包括第 1.1 节强化学习和第 1.2 节元学习.
         1.1   强化学习
             强化学习是机器学习的一种范式.  强化学习的框架如图 1 所示,  其主要包含智能体(agent)和环境
         (environment)两部分.  强化学习的运行是智能体与环境两者不断交互的过程,  其中,  环境为智能体提供当前状
         态(state)和数值奖励(reward),  而智能体根据已有信息(通常是当前状态)向环境输出动作(action),  环境再给出
         执行动作后的状态和奖励.  如此循环,  直到任务终止(done).  在这一过程中,  智能体往往以最大化期望累积奖
         励为目标进行动作选择和策略学习.












                                             图 1   强化学习框架

             强化学习的环境模型普遍基于马尔可夫决策过程(Markov decision process, MDP)构建.  MDP 由一个四元
         组〈S,A,R,T〉定义,  其中, S 是环境状态集合, A 是可选动作集合,  状态转移函数 T:S×A×S→[0,1]给出由状态 s 和动
         作 a 转移到状态 s′的概率,  奖励函数 R:S×A×S→给出每一步的奖励数值.
             智能体强化学习算法需要给出一个策略π,  策略在每个状态 s 决定动作 a 的执行与否(确定性策略)或执行
         概率(非确定性策略).  经典的强化学习算法认为环境的 MDP 模型是事先给定的,  策略π的优化目标为最大化
                                                                  *
         期望累积折扣奖励.  设参数化策略π θ 的参数为θ,  则算法计算最优参数θ 的公式为
                                          θ  *  argmax E ∑ T  g =  t  t  ] r                  (1)
                                                      [
                                                θ    θ π  t= 0
         其中, T 指代环境运行的时间步数;  折扣因子g∈[0,1]用于权衡长期奖励与短期奖励,  在 T 过大的环境中能显著
         稳定强化学习算法.
             智能体强化学习算法主要分为基于值函数、基于策略梯度两类.
                                                      π
                                                                 π
             基于值函数的强化学习算法依据状态-动作值函数 Q (s,a)决策.  Q (s,a)指在状态 s 下执行动作 a 后,  继续
                                                                       π
                                                    *
         依据策略π决策的期望累积奖励值.  因此,  最优动作 a 即为状态 s 下取最大 Q (s,a)的动作 a:
                                            *
                                           a =  argmaxQ π ( , ) |sa s                         (2)
                                                 a
              π
             Q (s,a)的计算则基于期望累积折扣奖励的表达式,  以贝尔曼最优方程(Bellman optimality equation)进行迭
         代,  具体如下:
                                                           ′′
                                     Q π  ( ,)sa =  E  [r g+  maxQ π  ( , ) | ,]s a  sa       (3)
                                               s′
                                       k +
                                        1
                                                     a′  k
                                              π
             在基于值函数的深度强化学习算法中,  Q (s,a)由神经网络构建,  并辅以一些设计以增强算法稳定性                              [23] .
         该类算法在离散动作环境中表现更好,  但难以扩展到连续动作环境,  常用算法有深度 Q 网络(deep  Q-network,
         DQN) [23] 、双竞争深度 Q 网络(dueling double deep Q-network,  D3QN) [24] 、深度递归 Q 网络(deep recurrent  Q-
         network, DRQN) [25] 等.
             基于策略梯度的强化学习算法直接对策略函数π θ (a|s)建模并优化.  同样从期望累积折扣奖励的优化目标
         出发,  策略参数θ的梯度为
                                                  π
                                        ∇ θ J(θ)=E π [Q (s,a)∇ θ logπ θ (a|s)]                (4)
                                                         π
             上式可以利用 REINFORCE 算法       [26] 近似估计,  其中,  Q (s,a)由真实的采样轨迹(trajectory)计算,  但这样计
                                                                        π
             π
         算 Q (s,a)的方差很大,  使策略难以提升.  演员-评论家(actor-critic, AC)框架将 Q (s,a)作为独立的评论家模块学
   37   38   39   40   41   42   43   44   45   46   47