Page 144 - 《软件学报》2021年第8期
P. 144

2426                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                 method can reduce the average waiting time of special vehicles and ordinary vehicles by about 68% and 22%, respectively. Compared
                 with the method without considering priority, the average waiting time of special vehicles is also optimized by about 35%, all these results
                 prove that the proposed method can not only improve the efficiency of all vehicles, but also give special vehicles higher priority. At the
                 same time, the experiment also shows that the proposed method can be extended to apply in multi-intersection scenes.
                 Key words:    intelligent transportation; traffic signal control; reinforcement learning; deep learning; vehicle priority

                    随着城市化建设的进一步推进和经济的飞速发展,汽车数量在不断飙升.据上海交通出行网统计,截至 2018
                                                 [1]
                 年底,上海市实有小客车规模突破 500 万 .与此同时,城市的交通需求与道路设施之间的矛盾日益突出,交通拥
                 堵也成为了城市发展过程中一个不可忽视的问题.近年来,随着物联网与人工智能技术的发展,智能交通系统成
                 为了现代交通发展的方向         [2,3] ,越来越多的人开始尝试从智能算法中寻求解决城市交通问题的方案,利用物联网
                 技术获取车辆状态以及道路设备状态信息,然后再使用各种智能算法对获取到的信息进行分析,给出缓解交通
                 压力的操作建议      [4,5] .
                    在城市交通中,位于道路交叉路口处的交通灯是指引车辆通行的关键设备,对出行效率起着至关重要的作
                 用.合理的交通灯控制方案能够有效地缓解路口交通压力,提高通行效率.传统的交通灯控制策略基本都是采用
                                                              [6]
                 固定的时间间隔以及固定的相位序列来调整交通灯信号 ,这种方式虽然简单,但却无法适应不同的交通路况:
                 比如,可能在某个十字路口只有一辆车或者只有一个方向上有车,但它却不得不等待一轮红绿灯之后才能通过,
                 或者是等到了绿灯,但绿灯时间不足以通过路口.因此,如何设计一套智能交通灯控制算法,使其能够根据路况
                 动态改变交通灯相位,就是一个非常有意义的研究课题.
                    近年来,车联网技术的发展使得交通灯智能控制成为了可能:通过 GPS、传感器等设备,车辆可以完成自身
                 环境和状态信息的采集,这些信息将通过互联网技术汇聚到中央处理器,经过各种智能算法分析处理,进而控制
                 交通灯相位切换.强化学习完成的目标就是让智能体在与环境交互的过程中学习策略,以达成回报最大化或实
                              [7]
                 现某个特定目标 .它根据实时反馈来调整动作的特征,使其尤为适合解决智能交通灯控制问题.自从 Thorpe 等
                  [8]
                 人 于 1997 年首次将强化学习方法应用于交通信号最优化控制以来,各种基于强化学习的交通灯控制算法层
                 出不穷  [9−13] .但对于大部分目前已有的工作而言,它们的目标定位都是如何缓解道路交通压力,即缩短车辆等待
                 时间以及队列长度,或者是提高路口吞吐率等.但是在实际场景中,某些执行任务的特殊车辆,比如警车、消防车
                 或者救护车等,它们对通行效率的要求更高,相比于普通汽车,应该具有更高的优先级来通过路口                                  [14] .在车联网
                 场景下,传统的控制特殊车辆优先通行的方法大多是基于信号抢占策略,通过识别路网中特殊车辆的位置、速
                 度与周围车流信息,切换交通灯相位,使其能够尽快通过路口.但这种方式往往会对路口的整体流量造成过大的
                 干扰,可能会导致道路发生大范围拥堵,进而引起整个道路交通网崩溃.所以,如何在强化学习算法中引入优先
                 级策略,平衡特殊车辆与普通车辆的通行效率,是本文重点关注与解决的问题.
                    基于以上现状,为了适应动态交通流变化,并在控制特殊车辆优先通行的同时减少对普通车辆的干扰,本文
                 提出一种面向优先车辆感知的交通灯优化控制方法,使用强化学习方法学到能够适应动态交通流变化的交通
                 灯控制策略.为了实现优先车辆感知,在设置状态时,用不同的值对特殊车辆与普通车辆进行区分,并在计算奖
                 励时赋予特殊车辆更大的权重,以实现对特殊车辆的优先处理.此外,本文使用了 Dueling DQN                          [15] 结构来提高模
                 型的学习效果,并在训练过程中使用 Double DQN            [16] 方法来避免过度估计问题.为了验证本文方法的有效性,使
                 用城市交通模拟器 SUMO        [17] 分别在单路口场景与多路口场景中进行实验.结果表明,本方法能够有效地提升路
                 口通行效率,在优先降低特殊车辆的等待时间的同时,也能对普通车辆的等待时间有一定的优化,并且能够应用
                 于多路口场景中.
                    本文第 1 节主要介绍目前已有的利用深度强化学习方法控制交通灯以及控制特殊车辆优先通行的相关工
                 作.第 2 节从问题定义和算法模型两方面详细阐述本文提出的面向优先车辆感知的交通灯优化控制方法,详细
                 阐述状态、动作、奖励函数设置,以及本文所使用的 Q 网络结构、模型架构与算法.第 3 节通过在城市交通模
                 拟器 SUMO 上进行对比实验,验证本文方法能够在提高车辆通行效率的同时,体现出对特殊车辆的优先处理,并
                 且能够扩展应用于多路口场景.第 4 节对本文工作做出总结并给出未来的工作展望.
   139   140   141   142   143   144   145   146   147   148   149