Page 151 - 《软件学报》2021年第8期
P. 151

邵明莉  等:面向优先车辆感知的交通灯优化控制方法                                                       2433


                    16        End For
                    17     End For
                    18     If episode%F==0 then
                                           −
                    19        更新目标网络参数θ ←θ
                    20     End If
                    21 End For
                    在每一轮开始,先从环境中获得初始状态,再利用ε-greedy 算法,以概率ε随机在动作空间中选择一个动作,
                 以概率 1−ε,按照预测网络预测的最优 Q 值选择动作.在智能体执行完动作 a 之后,会得到环境反馈的即时奖励 r
                 以及下一状态 s′.此时,本文会采取基于“存储-采样”操作的经验回放机制,将状态转移四元组(s,a,r,s′)存储进经
                 验回放池,再从池中随机获取 B 个样本.对于每个样本,分别利用预测网络和目标网络计算出它的预测 Q 值 Q eval
                 以及目标 Q 值 Q target ;最后,根据第 2.2.2 节定义的损失函数,使用 Adam 优化器         [33] 反向传播更新预测网络参数θ.
                 预测网络的参数每步都会更新,而目标网络的参数每隔 F 轮才更新.

                 3    实   验

                    为了验证本文方法的有效性及可用性.需要进行实验回答以下几个问题.
                    •   问题 1:本文方法是否能够提高车辆的通行效率?即在同一车流场景下,使用本文方法控制的交通灯与
                        使用传统固定时长控制的交通灯对比,对车辆的通行效率是否有明显提升?
                    •   问题 2:本文方法是否能够体现出对特殊车辆的优先性?即在区分车辆优先级的情况下,特殊车辆的平
                        均等待时间是否会比不区分车辆优先级情况下的平均等待时间更短?
                    •   问题 3:本文方法是否能应用于不同的路口场景?即本文方法是否能够有效地扩展到多路口场景中?
                 3.1   实验设计
                    实验使用城市交通模拟器 SUMO 来完成,它能够协助我们设计和实现道路设施的自定义配置与功能,并能
                 在仿真运行期间提供关于车辆及交通灯的实时数据.本文把训练过程分为多轮进行,每轮 3 600 步,每步代表现
                 实场景中的 1s,所以说,每轮相当于现实场景中的 1h.为了更好地模拟现实场景中的随机车流,在实验中设置车
                 流以固定比例及流量随机插入网络,即特殊车辆与普通车辆的比例与流量固定,但车辆驶入的位置与行驶路线
                 由 SUMO 随机生成.
                    为了回答以上 3 个问题,本文进行了如下的实验设计.
                    •   针对问题 1,需要进行对比实验 1.
                    在同一路口场景下,分别使用两种红绿灯控制方案:一个是本文方法训练的模型,另一个是使用固定时长控
                 制.对比两种控制方式下,普通车辆与特殊车辆的平均等待时间差异.在实验中,路口环境使用图 2 所示的四路交
                 叉路口结构,每个方向的入向道路有 3 个车道,每条车道的长度设为 300m.车流由 SUMO 随机生成,为了更符合
                 实际场景中特殊车辆的数目一般都远小于普通车辆的事实,本实验设置特殊车辆与普通车辆的比例为 1:200,设
                 置普通车辆每秒驶入两辆,特殊车辆每 100s驶入一辆.设置固定时长交通灯每隔 30s切换相位,切换顺序为“南北
                 方向直行及右转→南北方向左转→东西方向直行及右转→东西方向左转”循环.
                    •   针对问题 2,需要进行对比实验 2.
                    在同一路口场景下,使用同一种模型结构,对比区分车辆优先级的模型与不区分车辆优先级的模型对特殊
                 车辆的等待时间的影响.本实验采用实验 1 相同的路口设置与车流设置.区分车辆优先级的模型使用的状态和
                 奖励设置参照前文第 2.1.1 节及第 2.1.3 节的定义.不区分车辆优先级的模型在设置状态时,只要格子上有车,不
                 区分该车的类别,均将该格子上的二元组(p,s)中的 p 值设为 1.在定义奖励时,统一计算特殊车辆与普通车辆的平
                 均等待时间,修改奖励计算公式如式(10)所示.
                                                 r =  AVG _W t− 1  −  AVG  _W  t                     (10)
                                                 t        all       all
   146   147   148   149   150   151   152   153   154   155   156