Page 372 - 《软件学报》2025年第8期
P. 372

李云 等: 面向数据稀缺场景的智能交通流量预测                                                         3795



                 测值, 其中  θ pre  为可训练的神经网络参数.
                                                                           (     )       (           )
                                                                             S       ˆ S   S      S   , 目
                    交通预测模块的输出为预测到的未来交通流数据, 得到源域预测值                       f pre H ;θ pre  为  X p+q  = ˆx t+p+1 ,..., ˆx t+p+q
                                                                             g
                             (    )        (          )
                               T
                                                             S
                 标域预测值    f pre H ;θ pre  为  X ˆ T  = ˆx T  ,..., ˆx T  , 其中  H  和  H T   分别为源域和目标域的时空特征表示.
                               g       p+q  t+p+1  t+p+q     g    g
                    交通预测模块采用平均平方误差损失函数进行性能评估, 则源域和目标域的损失函数分别定义如下:

                                                  (  )   1  T S −1 p+q  S 
 2

                                                           ∑ ∑
                                                                 
 ˆx
                                                L src H S g  =   
 S t+k  − x 
                      (19)
                                                                      t+k
                                                        T  S
                                                           t=0 k=p+1

                                                           T T −1 p+q
                                                  (  )   1  ∑ ∑          2
                                                                      T
                                                L tgt H T g  =   ∥ˆx T t+k  − x ∥                    (20)
                                                                      t+k
                                                        T  T
                                                           t=0 k=p+1
                    综上, 本文提出的     TL-STGCN  模型最终损失函数如下:

                                                               (         )
                                                minL src +L tgt +λmax L wd −γL gard                  (21)
                                                θ g, θ pre   θ w
                 其中,  λ 为交通预测模块和特征表示学习之间的平衡系数.

                 4   实验分析

                 4.1   数据集
                    本文选取真实数据集 PEMS04、PEMS08, PEMS-BAY、METR-LA            [7,22] 来对模型的有效性进行验证. PEMS,
                 METR-LA  分别是加州高速公路和洛杉矶高速公路上的交通流数据, 数据集中包括了车流量、行驶速度、密度等
                 信息. 本文选用其中的车流量数据, 单位为辆/h. 交通流数据由传感器采集, 将采集频率为                        30 s/次的原始数据汇总
                 成时间间隔为     5 min  的数据样本, 即每个传感器每小时收集           12  个数据样本, 每个传感器每天包含         288  个测量值,
                 原始数据集的描述如表        2  所示.
                    本文在   PEMS04、PEMS08、METR-LA、PEMS-BAY      中构建源域数据集       S-PEMS04、S-PEMS08、S-METR-
                 LA、S-PEMS-BAY. 具体来说, 分别从 PEMS04、PEMS08       中选取前    56  天的数据为训练集, 后     3  天的数据为测试
                 集来构建   S-PEMS04、S-PEMS08; 从  METR-LA、PEMS-BAY   分别选取前     100  天的数据为训练集, 后     3  天的数据
                 为测试集以组成      S-METR-LA、S-PEMS-BAY.
                    从原始数据集中构建数据稀缺的目标域数据集                 T-PEMS04、T-PEMS08、T-METR-LA、T-PEMS-BAY. 目标
                 数据集分别选取      4  个原始数据集中最后      14  天的交通流数据, 其中前      11  天为训练集, 后   3  天为测试集. 此外, 定义
                 一个数据稀缺率来模拟目标域数据缺失的百分比, 稀缺率越高表示数据质量越差                           [10,12] . 在实验中, 若没有说明, 则
                 默认将目标域中的稀缺率设置为            20%, 即从训练数据中随机选取        20%  的数据将其替换为      0. 目标域数据集和源域
                 数据集描述如表      3  所示.


                             表 2 原始数据集描述                               表 3 目标域、源域数据集描述

                    数据集       传感器数量           时间范围                    数据集           训练集天数      测试集天数
                    PEMS04       307      2018.01.01–2018.02.28  S-PEMS04, S-PEMS08     56        3
                    PEMS08       170      2017.07.01–2018.08.31  S-METR-LA, S-PEMS-BAY  100       3
                   PEMS-BAY      325      2017.01.01–2017.05.31     目标域数据集              11        3
                   METR-LA       207      2012.03.01–2012.06.30

                 4.2   实验设置及评估指标
                    为了评价    TL-STGCN  模型的有效性, 分别采用平均绝对误差            (mean absolute error, MAE) 函数、均方根误差
                 (root mean square error, RMSE) 函数以及平均绝对百分比误差  (mean absolute percentage error, MAPE) 函数, 定义如下:

                                                      1   N ∑ M−1 p+q
                                                            ∑ ∑
                                               MAE =               x t+k,i − ˆx t+k,i            (22)
                                                     MNq
                                                          i=1 t=0 k=p+1
   367   368   369   370   371   372   373   374   375   376   377