Page 145 - 《软件学报》2021年第8期
P. 145
邵明莉 等:面向优先车辆感知的交通灯优化控制方法 2427
1 相关工作
智慧交通灯控制是构造智慧城市、解决城市交通问题的一个重要研究方向.在众多研究方法中,深度强化
学习以其根据实时反馈来调整动作的特征得到了广泛的应用.这类方法通常把路口交通灯抽象成一个智能体,
控制对象为道路交通网络上的时变交通流,并且将智能体与控制对象的闭环交互过程抽象成马尔可夫决策过
程(Markov decision process,简称 MDP) [18] :智能体将目标优化过程按照时间进程划分为状态相互联系的多个阶
段,并在每个阶段通过观察交通环境的实时状态,提取交通灯控制所需的交通状态信息和反馈奖励信息进行最
优决策.Wei 等人 [19] 提出一种使用深度 Q 神经网络的交通信号控制方法,它综合使用队列长度、车辆数量、车
辆等待时间、路口图像表示以及当前相位作为状态输入,以是否切换相位作为输出,其优化目标在于缩减车辆
队列长度以及等待延迟,缩短旅行时间;Joo 等人 [20] 提出一种能够处理多种路口结构的基于 Q 表的强化学习方
法,它将队列长度和路口吞吐量作为评价指标,其优化目标在于缩短车辆在路口的延迟;Zhang 等人 [21] 将基于值
的元强化学习方法应用于交通灯控制场景中,它利用从已有的场景中学来的知识来加快在新场景中的学习过
程,提高了训练效率.以上方法的关注点都在通行效率上,Yan 等人 [22] 则认为,效率和公平性都应该被考虑到.因
此,他们在设计奖励函数时添加了公平性考量,以降低各辆车之间的旅行时间差异.但总体而言,以上这些方法
都只针对于普通车辆通行的路口场景,它们将所有种类的车都一视同仁,没有考虑到特殊车辆的优先通行性.
现有的控制特殊车辆优先通行的方法大多都是通过数学计算预测特殊车辆到达路口的时间,然后更改交
通灯相位使其无需停车等待通过路口.比如 Qin 等人 [23] 提出的控制策略,在传感器检测到特殊车辆到达时,切换
交通灯为紧急车辆抢占(emergency vehicle preemption,简称 EVP)模式,即打断正常的交通灯相位,为特殊车辆提
供绿灯指引,直至特殊车辆离开路口才恢复到正常模式;Kang 等人 [24] 提出一种交通信号协调方法,通过修改路
口之间的相位偏移量来为特殊车辆构建绿波带,保证了特殊车辆在一段区域内的无障碍通行;Noori 等人 [25] 则
提出一种基于连接车辆的控制策略,在特殊车辆到达路口之前就抢占交通灯相位,清除该方向的车流队列,确保
特殊车辆不被其前面的车阻塞;Mei 等人 [26] 则利用公交信号优先与动脉信号协调相结合的方法,适用于带有公
交专用道的道路场景;Younes 等人 [27] 使用一种动态交通灯调度算法,能够应对多辆特殊车从不同方向驶入路口
的情况,选择更拥堵的车流通过路口.然而这些方法在设计过程中都只着眼于满足特殊车辆的通行需求,而不顾
普通车辆的通行效率,所以很有可能引起普通车辆的大范围阻塞,从而使得路网瘫痪.而这也会进一步影响到特
殊车辆的通行,降低了路口的总体通行量.此外,这些方法也只适用于特殊车辆偶尔出现的情况,若是对于诸如
消防局、医院、警局附近的路口,特殊车辆出现的频率相对较高,这些方法就无能为力了.
基于以上情况,为了能够赋予特殊车辆优先通行权,并且尽可能地减小对普通车流的影响,本文采用基于 Q
值的强化学习方法,在设置状态和奖励函数时增加特殊车辆的权重,使其在与环境不断交互的过程中学到一种
能够平衡特殊车辆与普通车辆通行效率的策略.
2 提出的方法
2.1 问题定义
在基于强化学习的交通灯控制方法中,将交叉路口中结合了控制算法的交通灯抽象为智能体(agent),被控
对象为道路交通网络中的环境(environment).如图 1 所示,在任意时刻 t,智能体从环境中获取当前环境的状态 s t ,
并执行一个动作 a t ,在下一时刻 t+1,环境在动作 a t 的作用下会产生新的状态 s t+1 ;同时,智能体也会接收到一个回
报 r t+1 .在这个不断交互的闭环系统中,强化学习模型跟踪评测智能体所选择动作的控制效果,并以累积奖励值
最大化为目标来优化信号控制策略.将这一过程抽象为一个马尔可夫决策过程,用一个五元组(S,A,P,R,γ)表示.
其中,
• S:表示环境中的状态集合.s t ∈S 表示环境在 t 时刻的状态;
• A:表示智能体能够执行的动作集合.a t ∈A 表示智能体 t 时刻采取的动作;
• P:表示状态转移概率.假设 t 时刻系统的状态为 s t ,智能体执行的动作为 a t ,系统将根据状态转移概率
P(s t+1 |s t ,a t )到达下一个状态 s t+1 ;