Page 372 - 《软件学报》2025年第8期

P. 372

李云等: 面向数据稀缺场景的智能交通流量预测 3795

测值, 其中 θ pre 为可训练的神经网络参数.
( ) ( )
S ˆ S S S , 目
交通预测模块的输出为预测到的未来交通流数据, 得到源域预测值 f pre H ;θ pre 为 X p+q = ˆx t+p+1 ,..., ˆx t+p+q
g
( ) ( )
T
S
标域预测值 f pre H ;θ pre 为 X ˆ T = ˆx T ,..., ˆx T , 其中 H 和 H T 分别为源域和目标域的时空特征表示.
g p+q t+p+1 t+p+q g g
交通预测模块采用平均平方误差损失函数进行性能评估, 则源域和目标域的损失函数分别定义如下:

( ) 1 T S −1 p+q S
2

∑ ∑

ˆx
L src H S g =
S t+k − x
(19)
t+k
T S
t=0 k=p+1

T T −1 p+q
( ) 1 ∑ ∑ 2
T
L tgt H T g = ∥ˆx T t+k − x ∥ (20)
t+k
T T
t=0 k=p+1
综上, 本文提出的 TL-STGCN 模型最终损失函数如下:

( )
minL src +L tgt +λmax L wd −γL gard (21)
θ g, θ pre θ w
其中, λ 为交通预测模块和特征表示学习之间的平衡系数.

4 实验分析

4.1 数据集
本文选取真实数据集 PEMS04、PEMS08, PEMS-BAY、METR-LA [7,22] 来对模型的有效性进行验证. PEMS,
METR-LA 分别是加州高速公路和洛杉矶高速公路上的交通流数据, 数据集中包括了车流量、行驶速度、密度等
信息. 本文选用其中的车流量数据, 单位为辆/h. 交通流数据由传感器采集, 将采集频率为 30 s/次的原始数据汇总
成时间间隔为 5 min 的数据样本, 即每个传感器每小时收集 12 个数据样本, 每个传感器每天包含 288 个测量值,
原始数据集的描述如表 2 所示.
本文在 PEMS04、PEMS08、METR-LA、PEMS-BAY 中构建源域数据集 S-PEMS04、S-PEMS08、S-METR-
LA、S-PEMS-BAY. 具体来说, 分别从 PEMS04、PEMS08 中选取前 56 天的数据为训练集, 后 3 天的数据为测试
集来构建 S-PEMS04、S-PEMS08; 从 METR-LA、PEMS-BAY 分别选取前 100 天的数据为训练集, 后 3 天的数据
为测试集以组成 S-METR-LA、S-PEMS-BAY.
从原始数据集中构建数据稀缺的目标域数据集 T-PEMS04、T-PEMS08、T-METR-LA、T-PEMS-BAY. 目标
数据集分别选取 4 个原始数据集中最后 14 天的交通流数据, 其中前 11 天为训练集, 后 3 天为测试集. 此外, 定义
一个数据稀缺率来模拟目标域数据缺失的百分比, 稀缺率越高表示数据质量越差 [10,12] . 在实验中, 若没有说明, 则
默认将目标域中的稀缺率设置为 20%, 即从训练数据中随机选取 20% 的数据将其替换为 0. 目标域数据集和源域
数据集描述如表 3 所示.

表 2 原始数据集描述表 3 目标域、源域数据集描述

数据集传感器数量时间范围数据集训练集天数测试集天数
PEMS04 307 2018.01.01–2018.02.28 S-PEMS04, S-PEMS08 56 3
PEMS08 170 2017.07.01–2018.08.31 S-METR-LA, S-PEMS-BAY 100 3
PEMS-BAY 325 2017.01.01–2017.05.31 目标域数据集 11 3
METR-LA 207 2012.03.01–2012.06.30

4.2 实验设置及评估指标
为了评价 TL-STGCN 模型的有效性, 分别采用平均绝对误差 (mean absolute error, MAE) 函数、均方根误差
(root mean square error, RMSE) 函数以及平均绝对百分比误差 (mean absolute percentage error, MAPE) 函数, 定义如下:

1 N ∑ M−1 p+q
∑ ∑
MAE = x t+k,i − ˆx t+k,i (22)
MNq
i=1 t=0 k=p+1

367 368 369 370 371 372 373 374 375 376 377