Page 147 - 《软件学报》2021年第8期

P. 147

邵明莉等:面向优先车辆感知的交通灯优化控制方法 2429

Fig.2 Intersection scenario and state setting
图 2 交叉口场景及状态设置
2.1.2 动作设置
动作就是智能体所采取的行为.在本文的问题定义中,交通灯作为智能体,它所执行的动作就是设置不同的
信号灯相位.针对图 2 所示的路口场景,一共存在 4 种不冲突的相位,如图 3 所示,分别是:(1) 南北方向直行及右
转;(2) 南北方向左转;(3) 东西方向直行及右转;(4) 东西方向左转.因此,智能体的动作空间为{0,1,2,3}.为了使
红绿灯状态更稳定,每隔 10s 来计算一次动作,当新选择的相位与当前相位不同时,会在 4s 的黄灯时间后再切换
到下一相位.此外,设置每个相位的持续时间不得超过 60s,保证其他方向的车辆及行人的等待时间在可容忍的
范围内.

Fig.3 Action setting
图 3 动作设置
2.1.3 奖励设置
设置奖励的作用是向强化学习模型提供动作执行结果的反馈.恰当的奖励设置能够正确地指导学习过程,
以使智能体学习到最佳的行动策略.衡量路口通行效率的指标通常有队列长度、路口吞吐量、车辆通行时间和
车辆等待时间.其中,队列长度是指某一时刻路口各个车道上等待的车队长度,路口吞吐量是指单位时间内通过

142 143 144 145 146 147 148 149 150 151 152