Page 99 - 《软件学报》2020年第12期
P. 99
柏梦婷 等:行程时间预测方法研究 3765
节假日进行分为 3 类(或者按照周一到周日、节假日分为 8 类);2) DBSCAN 聚类,即对日期分类后的
每一类数据使用 DBSCAN 方法进行聚类,并存储到新的交通数据库中;
• 在线数据处理分为 4 步:1) 标记异常数据,从待处理数据中发现异常数据并进行标识;2) 对标识的异
常数据根据日期进行分类;3) 寻找 k 近邻,即针对日期分类后的异常数据在分类数据库中使用 KNN
方法寻找最相似的 K 个近邻;4) 计算 K 个近邻的均值,并用均值来替换源数据中的异常数据.
该框架中的分类数据库可以根据需求进行周期性更新.该框架的优势在于能够根据日期对交通数据进行
划分,避免了节假日和周末不同交通模式的影响,通过聚类方法进一步缩小搜索空间,通过 KNN 方法对异常数
据进行插补和替换,从而使得数据库更加健全,减少了异常数据对交通预测研究的影响.
源数据库
待处理数据 日期分类
标记异常数据 DBSCAN聚类
日期分类 分类数据库
寻找K近邻
离线处理数据流
求均值
在线处理数据流
Fig.4 Framework of data processing
图 4 交通数据处理框架
4.2 结合空间信息
目标线路的行程时间会受到周围相邻道路的交通状况的严重影响,很多事故检测算法使用上下游相关的
交通流参数 [100,101] .因此,捕获相邻道路的空间信息能提高行程时间预测的准确度.如何高效地结合空间信息与
时间信息,仍旧值得深入研究.Park 等人 [71] 使用皮尔逊相关系数来度量道路之间相关性.设计更加合适的道路相
关性度量方法有可能帮助提高行程时间预测方法的准确度,如尝试使用欧氏距离、余弦距离等作为道路的相关
性度量.此外,需要及时获取空间相关信息的变化状况,如道路发生交通拥堵等,这样可以避免由于交通状况突
变而导致的模型性能降低.可以使用数据挖掘算法对实时获取的交通数据进行分析,挖掘当前交通模式,以确定
当前交通状况是否发生变化.
4.3 混合预测算法
现有的大多数数据驱动方法的可解释性较差,相对可解释的模型如 SSNN,k-NN,RF 和 GB 等更具有说服力.
考虑 Tak 等人 [91] 提出的分层 k-NN 方法能够在保证准确度的同时降低计算量,Yu 等人 [94] 将 RF 和 k-NN 方法结
合,提高了预测准确率.这些方法启发我们,混合预测算法可能具有更好的性能.状态空间神经网络(SSNN)能够
捕获邻近道路的相关信息,即空间信息,具有上一时刻的状态信息,即短期记忆,随着时间推进,SSNN 无法记忆更
长时间的信息.因此,将 SSNN 和长短期记忆网络(LSTM)相结合,有可能提高 SSNN 模型的预测准确率.此外,可
以使用多层 k-NN 方法选择梯度提升树模型的训练样本来提高模型的预测准确率.
4.4 深度学习算法
2006 年以来,深度学习方法发展迅速,并且已经成功应用于计算机视觉 [102] 、语音识别 [103] 以及自然语言处
理 [104] 等多个领域.然而,深度学习应用于交通领域的研究相对匮乏.因此,未来可以尝试将深度学习用于行程时
间预测.受限玻尔兹曼机(restricted Boltzmann machine,简称 RBM) [105] 可以通过输入的数据学习概率分布,并已