Page 94 - 《软件学报》2020年第12期

P. 94

3760 Journal of Software 软件学报 Vol.31, No.12, December 2020

Table 2 Data-driven methods (Continued)
表 2 数据驱动方法(续)
作者方法源数据预测范围准确率优点缺点适用范围
京釜高速公路能获取交通状态的计算量大;
Lim k-NN (3.4km): 5min~30min MAPE: 高速公路
等人 [89] 4.3%~14.8% 时间变化和空间性能依赖于短期预测
行程时间变化;参数少数据库的质量
台湾地区 1 号高速 MAPE: 鲁棒性强; 性能受阈值高速公路
k-NN
Wang 公路(88km): <8.6% 结合聚类和影响大;需要短期
等人 [90] (1-NN), 流量,速度, 5min MPE: 回归模型定期校准长距离
聚类
行程时间 <16.2% 进行预测模型参数预测
k-NN 韩国高速公路多层次匹配需要手动高速公路
Tak MAPE:<3.3%
等人 [91] (Mk-NN), 网(1800km): 0~6h RMSE:<3.5% 减少计算量; 整理和长距离
GA 速度鲁棒性强标识数据长期预测
RF, 华沙大学能提取仿真实验
Hamner 主成分 6min~30min RMSE: 城市路网
等人 [92] 仿真实验: <7.5% 数据的局部和真实状况短期预测
分析速度,流量和聚合特征有差异
高峰期 MAPE: 具有可解释性;
I-95S 8.7%~18.4% 能揭示交通要避免
Zhang 过拟合; 高速公路
[9]
等人 GB 高速公路: 5min~30min 非高峰期数据潜在模式; 受参数短期预测
行程时间 MAPE: 能捕捉交通
2.3%~14.8% 状况的突变影响大
沈阳市 232, k-NN 预选数据
Yu RF, MAPE: 计算量较大; 城市道路
等人 [94] k-NN 249 路公交: 6.9%~14.29% 提高了 RF 的性能; 训练时间长网络
行程时间对异常值不敏感
RF:MRE: 需在准确率和
波尔图市 RF 训练速度
Gupta RF, 17%~29% 计算复杂度城市道路
等人 [95] GB 出租车: GB:MRE: 更快;GB 之间权衡;受网络
经纬度,速度 24%~29% 性能更好参数影响大
注:MAPE:平均绝对百分比误差;MRE:平均相对误差;MAE:平均绝对误差;ME:平均误差;MSE:平均平方误差;
MARE:平均绝对值相对误差;MPE:平均百分比误差;RMSE:均方根误差;RRSE:相对方根误差
3.2.1 参数方法
本文讨论行程时间预测的 3 种最常见的参数方法,即线性回归、自回归集成移动平均和卡尔曼滤波方法.
(1) 线性回归
线性回归(linear regression,简称 LR)的基本思想是,假设函数是变量的线性组合.一些研究人员致力于使用
线性回归模型预测行程时间.
Kwon 等人 [24] 使用 LR 方法与逐步变量选择方法以及基于树的方法估算高速公路未来行程时间.实验结果
表明:LR 模型在预测时长不超过 20min 时,与基于树的方法性能相当,历史数据对于长期预测的贡献更大,总体
平均绝对百分比误差不超过 23%.Zhang 等人 [47] 使用 LR 模型预测高速公路行程时间,其中,模型系数是出发时
间的平滑函数.因此,这种方法需要预先存储不同出发时间的模型参数.I-880 和 I-405 数据集上的实验结果表明:
当预测范围不超过 60min 时,I-880 数据集上的预测误差为 5%~24%;当预测时间范围从 0 逐渐增加到 90min 时,
I-405 数据集上的预测误差从 8%逐渐增加到 14%.Rice 等人 [48] 也提出了具有时变系数的 LR 方法,结合当前交
通状况和历史数据进行预测,并使用 I-10E 的高速公路数据进行实验.结果表明,未来 1h 预测行程时间的均方根
误差低于 10min.Sun 等人 [49] 提出了多变量局部 LR 模型拟合未来流量和历史以及当前流量之间的关系,实验结
果表明:局部线性回归性能优于最近邻和核平滑方法,平均相对误差为 11.38%.我们认为:由于最近邻和核平滑
方法仅使用历史平均来预测行程时间,当前数据只用于计算权重,而多变量局部回归使用当前数据进行预测,因
而能捕获近期交通状况,获得更好的预测效果.此外,Fei 等人 [22] 也使用 LR 方法对行程时间进行了预测.
(2) 自回归集成移动平均
1976 年,Box 和 Jenkins 等人 [25] 提出了时间序列预测的自回归集成移动平均模型(autoregressive integrated
moving average model,简称 ARIMA),并指出:许多时间序列去除局部趋势后,序列的其中一部分与其他部分呈
现出相似性.具体地说,ARIMA 是指将非平稳时间序列转化为平稳时间序列,然后对因变量和随机误差的当前

89 90 91 92 93 94 95 96 97 98 99