Page 99 - 《软件学报》2020年第12期
P. 99

柏梦婷  等:行程时间预测方法研究                                                                3765


                 节假日进行分为 3 类(或者按照周一到周日、节假日分为 8 类);2) DBSCAN 聚类,即对日期分类后的
                 每一类数据使用 DBSCAN 方法进行聚类,并存储到新的交通数据库中;
             •   在线数据处理分为 4 步:1)  标记异常数据,从待处理数据中发现异常数据并进行标识;2)  对标识的异
                 常数据根据日期进行分类;3)  寻找 k 近邻,即针对日期分类后的异常数据在分类数据库中使用 KNN
                 方法寻找最相似的 K 个近邻;4)  计算 K 个近邻的均值,并用均值来替换源数据中的异常数据.
             该框架中的分类数据库可以根据需求进行周期性更新.该框架的优势在于能够根据日期对交通数据进行
         划分,避免了节假日和周末不同交通模式的影响,通过聚类方法进一步缩小搜索空间,通过 KNN 方法对异常数
         据进行插补和替换,从而使得数据库更加健全,减少了异常数据对交通预测研究的影响.


                                                         源数据库

                                           待处理数据         日期分类

                                          标记异常数据       DBSCAN聚类


                                            日期分类        分类数据库
                                                        寻找K近邻
                                            离线处理数据流
                                                         求均值
                                            在线处理数据流
                                       Fig.4    Framework of data processing
                                           图 4   交通数据处理框架

         4.2   结合空间信息
             目标线路的行程时间会受到周围相邻道路的交通状况的严重影响,很多事故检测算法使用上下游相关的
         交通流参数     [100,101] .因此,捕获相邻道路的空间信息能提高行程时间预测的准确度.如何高效地结合空间信息与
         时间信息,仍旧值得深入研究.Park 等人          [71] 使用皮尔逊相关系数来度量道路之间相关性.设计更加合适的道路相
         关性度量方法有可能帮助提高行程时间预测方法的准确度,如尝试使用欧氏距离、余弦距离等作为道路的相关
         性度量.此外,需要及时获取空间相关信息的变化状况,如道路发生交通拥堵等,这样可以避免由于交通状况突
         变而导致的模型性能降低.可以使用数据挖掘算法对实时获取的交通数据进行分析,挖掘当前交通模式,以确定
         当前交通状况是否发生变化.

         4.3   混合预测算法
             现有的大多数数据驱动方法的可解释性较差,相对可解释的模型如 SSNN,k-NN,RF 和 GB 等更具有说服力.
         考虑 Tak 等人  [91] 提出的分层 k-NN 方法能够在保证准确度的同时降低计算量,Yu 等人                 [94] 将 RF 和 k-NN 方法结
         合,提高了预测准确率.这些方法启发我们,混合预测算法可能具有更好的性能.状态空间神经网络(SSNN)能够
         捕获邻近道路的相关信息,即空间信息,具有上一时刻的状态信息,即短期记忆,随着时间推进,SSNN 无法记忆更
         长时间的信息.因此,将 SSNN 和长短期记忆网络(LSTM)相结合,有可能提高 SSNN 模型的预测准确率.此外,可
         以使用多层 k-NN 方法选择梯度提升树模型的训练样本来提高模型的预测准确率.
         4.4   深度学习算法
             2006 年以来,深度学习方法发展迅速,并且已经成功应用于计算机视觉                      [102] 、语音识别 [103] 以及自然语言处
         理 [104] 等多个领域.然而,深度学习应用于交通领域的研究相对匮乏.因此,未来可以尝试将深度学习用于行程时
         间预测.受限玻尔兹曼机(restricted Boltzmann machine,简称 RBM)     [105] 可以通过输入的数据学习概率分布,并已
   94   95   96   97   98   99   100   101   102   103   104