Page 149 - 《软件学报》2021年第8期
P. 149

邵明莉  等:面向优先车辆感知的交通灯优化控制方法                                                       2431


                 个路口不同动作对应的 Q 值,维度为(n,4),其中,4 对应第 2.1.2 节定义的 4 种动作.
                    在设计网络结构时,本文采用了 Dueling DQN          [15] 的思想,它与传统 DQN 的不同之处在于,它把 Q 值的计算
                 分为两部分:一部分是价值网络,它只与当前状态 s 有关,而与具体要采取的动作无关,所以它的维度是(n,1),用
                 V(s;ω,α)表示;另一部分是优势网络,它表示执行每种动作的优势值大小,因此它不仅与当前状态 s 有关,也与具
                 体要执行的动作 a 相关,所以它的维度应该与输出层的维度相同,都是(n,4),用 A(s,a;ω,β)表示.其中,ω表示公共部
                 分的网络参数,α表示价值网络独有部分的参数,β表示优势网络独有部分的参数.
                    此时 Q 值的输出由价值网络的输出和优势网络的输出线性组合得到,在状态 s 下,每个动作 a 的 Q 值等于
                 状态 s 的价值 V 与动作 a 的优势值之和.此外,为了使结果更加稳定,这里对优势值 A 做了一个中心化处理:对于
                 每种动作,都将它的 A 值减去所有动作的平均 A 值.计算公式如式(7)所示.
                                                         ⎡          1             ⎤
                                                           ( , ;, ) β −
                                                                          ( , ; , ) β
                                     ( , ;, , ) V sω αβ =
                                    Qs a         ( ; ,) +  ω α  ⎢ A s a ω  a ∑  A s a ω  ⎥            (7)
                                                         ⎣          | A |         ⎦
                 其中,价值网络 V(s;ω,α)体现了当前状态对 Q 值的影响;优势网络 A(s,a;ω,β)体现了在当前状态下,不同的动作对
                 Q 值的影响.综合使用二者,能够使 Q 值的计算结果更准确.
                 2.2.2    模型架构
                    本文提出的算法模型架构如图 5 所示,其中最核心的两个组件分别是预测网络 Q 和目标网络 Q′,二者都采
                 用图 4 所示的 Q 网络结构.其中,预测网络是我们要训练的网络,它始终持有最新参数,用来计算预测 Q 值 Q eval .
                 目标网络的作用是用来指引训练方向,每隔一定的训练轮数,会将预测网络的参数都赋值给目标网络.




























                                                  Fig.5   Model architecture
                                                      图 5   模型架构
                    在动作选择过程中,首先从环境中获得当前状态 s t ,并将其输入到预测网络 Q 中,计算得到当前状态下各个
                 动作的 Q 值,最后利用ε-greedy 算法    [30] 选择出要执行的动作 a t .ε-greedy 算法是一种加入了随机因子的贪心算法,
                 目的是增加智能体的探索尝试.智能体在选择动作时,会以概率ε随机在动作空间中选择一个动作,以概率 1−ε按
                 照预测网络预测的最优 Q 值选择动作.在训练初始阶段,由于 Q 网络还不稳定,此时给ε赋一个较大的值能够帮
                 助智能体做出更多的探索尝试;随着训练的进行,Q 值的预测结果会越来越准确,ε的值也会随之减小,让智能体
                 逐步相信预测 Q 网络的判断.
                    在模型训练过程中,本文采用了 Double DQN           [16] 的思想,将目标 Q 值动作的选择与目标 Q 值的计算这两步
   144   145   146   147   148   149   150   151   152   153   154