Page 147 - 《软件学报》2021年第8期
P. 147

邵明莉  等:面向优先车辆感知的交通灯优化控制方法                                                       2429






















                                           Fig.2    Intersection scenario and state setting
                                                图 2   交叉口场景及状态设置
                 2.1.2    动作设置
                    动作就是智能体所采取的行为.在本文的问题定义中,交通灯作为智能体,它所执行的动作就是设置不同的
                 信号灯相位.针对图 2 所示的路口场景,一共存在 4 种不冲突的相位,如图 3 所示,分别是:(1)  南北方向直行及右
                 转;(2)  南北方向左转;(3)  东西方向直行及右转;(4)  东西方向左转.因此,智能体的动作空间为{0,1,2,3}.为了使
                 红绿灯状态更稳定,每隔 10s 来计算一次动作,当新选择的相位与当前相位不同时,会在 4s 的黄灯时间后再切换
                 到下一相位.此外,设置每个相位的持续时间不得超过 60s,保证其他方向的车辆及行人的等待时间在可容忍的
                 范围内.



























                                                    Fig.3   Action setting
                                                      图 3   动作设置
                 2.1.3    奖励设置
                    设置奖励的作用是向强化学习模型提供动作执行结果的反馈.恰当的奖励设置能够正确地指导学习过程,
                 以使智能体学习到最佳的行动策略.衡量路口通行效率的指标通常有队列长度、路口吞吐量、车辆通行时间和
                 车辆等待时间.其中,队列长度是指某一时刻路口各个车道上等待的车队长度,路口吞吐量是指单位时间内通过
   142   143   144   145   146   147   148   149   150   151   152