Page 154 - 《软件学报》2021年第8期
P. 154
2436 Journal of Software 软件学报 Vol.32, No.8, August 2021
Fig.8 Results of our algorithm in multi-intersection scenario
图 8 多路口场景中,本文算法的结果
3.2.4 实验分析与总结
由于本文算法根据实时的车辆位置、类型以及速度信息作为状态,以这些实时信息作为输入的神经网络计
算出的 Q 值是与当前的环境状态相关的,因此本文算法所做的决策能够适应动态交通流变化,相较于传统的固
定时长控制方法能够显著提高车辆的通行效率:分别使特殊车辆和普通车辆的平均等待时间降低 68%和 22%
左右;与此同时,也使路口队列长度降低了 20%左右.本文所设计的优先级机制主要体现在两个方面.
• 一是在设计状态时将各个入向道路以固定长度划分为不重合的一个个小格子,并且给特殊车辆与普
通车辆设置不同的值,使得 Q 网络能够根据状态识别出车辆的位置以及类型;
• 二是在奖励设置时分别计算特殊车辆与普通车辆的平均等待时间,并设置了奖励平衡系数α来平衡特
殊车辆与普通车辆的权重,使得 Q 网络在训练过程中朝着更大幅度地缩小特殊车辆的等待时间的方
向收敛;同时,为了使奖励最大化,也不会使普通车辆的等待时间过大.
因此,使用本文所设计的优先级策略对比不使用优先级,在训练趋于稳定之后,能够使特殊车辆的平均等待
时间降低 35%左右.
多路口场景与单路口类似,将各个路口的实时状态信息聚合起来统一输入到 Q 网络中,输出针对各个路口
上不同动作的 Q 值.在训练过程中,各个路口利用自己的历史状态动作转移元组,能够学到适用于自己场景的决
策,因此,本文方法能够扩展应用到多路口场景中:对比固定时长控制方法,在训练趋于稳定之后,分别使特殊车
辆和普通车辆的平均等待时间降低 40%和 17%左右;同时,对比不考虑优先级的方法,特殊车辆的平均等待时间
也降低了 10%左右.
4 结论与展望
在城市交通网络中,具有特殊任务的特殊车辆对于通行效率的要求更高.尽管传统的信号抢占方法考虑到
了特殊车辆的优先性,但对于普通车辆的通行干扰过大.基于以上情况,本文提出了一种面向车辆优先级感知的
交通灯优化控制方法,使用 Dueling DQN结构来提高模型的学习效果,并在训练过程中使用 Double DQN方法来
避免过度估计问题.为了实现对特殊车辆的优先控制,在设置状态时,用不同的值来区分特殊车辆与普通车辆,
并在计算奖励时赋予特殊车辆更大的权重,使得本文方法能够在不干扰普通车辆通行的同时,大幅度降低特殊
车辆在路口的等待时间,帮助其更快到达目的地.此外,本文方法也能接收多个路口的状态输入,并给出各个路
口的动作决策,能够扩展应用于多路口场景中.但由于多路口场景各个路口都是联通的,相邻路口之间的车流有
一定的相关性,而本文方法没有考虑到相邻路口之间的信息交互,在多路口场景中的表现不如单路口场景中好.
因此在今后的工作中,我们会将多智能体协同控制强化学习方法应用于多路口控制,以提升多路口场景下的优
化效果.此外,如何高效地为不同的路口交通流路口寻找奖励平衡系数α,也是未来亟需解决的问题.