Page 185 - 《高原气象》2025年第6期
P. 185
6 期 周秋雪等:一种适用于复杂地形下最高气温订正的机器学习方法 1593
带, 经纬度不同, 气候背景和天气特征也有差异。 验证集数据(2024 年 1 -6 月)中 MAE 的大小, 前期
2. 3 检验指标 随着因子逐个增加, 测试集和验证集的 MAE 均逐
参考中国气象局《中短期天气预报质量检验办 渐减小, 当加入第 25 个特征因子(R12)时, 验证集
法》, 本文选取平均绝对误差(MAE)和预报准确率 的 MAE 减小至 1. 43 ℃。随后继续加入特征因子,
(FA)来表征模型输出产品对 2 m 最高温度的预报 虽然测试集的 MAE 在波动中略微减小, 但是验证
效果及订正性能。计算公式如下: 集的 MAE 基本维持在 1. 53~1. 88 ℃, 不再继续减
(1) 平均绝对误差(Mean Absolute Error) 小。因此把加入第 25 个特征因子的模型当作目标
1 N | 模型并对其进一步调参(表 1), MAE 最后降低至
N
MAE = ∑ | F i - O i (6)
i = 1 1. 33 ℃, 确定该模型为本文研究的目标模型(简称
式中: F i 代表第 i 站的 2 m 气温预报值; O i 代表第 i 为 LGB, LightGBM 的缩写)。该模型共使用了 25
站的 2 m 气温实况; N 为预报的总站(次)数。计算 个特征因子, 相关性从大到小依次为: T_af、 Tmax_
时保留2位小数。 2m、 T_1000、 T_925、 T_05、 T_850、 T_700、 TD_
(2) 预报准确率(Forecast Accuracy) 2m、 T_500、 u_500、 RH_200、 High、 Lat、 u_700、
FA = N r × 100% (7) Lon、 v_100m、 v_10m、 ∆ T_500、 v_1000、 v_925、
Sta_id、 v_850、 ∆H_200、 RH_500、 R12。
N f
式中: N r 为平均绝对误差≤2 ℃的站(次)数; N f 为预
表1 最终模型的主要参数
报的总站(次)数。计算时保留1位小数。
Table 1 Main parameters of the model
为了全方位评估模型的预报性能和提高效果,
Learning_rate max_depth num_leaves n_estimators
同时与 EC 模式、 四川省气象台数值预报客观释用
0. 04 8 195 500
城镇预报指导报(SPCO)和中央台城镇预报指导报
(SCMOC)2 m 最高气温产品作对比分析, 计算 4 种 3 LightGBM 模型 2 m 最高温度订正
产品2 m最高气温的平均绝对误差和预报准确率。
2. 4 模型训练 效果检验
对于基于决策树的模型, 调参方法基本为以下 3. 1 检验指标的时间差异
四 个 步 骤 : (1)首 先 选 择 较 高 的 学 习 率(learn‐ 表 2 和表 3 给出了 2024 年 1 -6 月 LGB、 SPCO、
ing_rate), 这样可以加快收敛速度, 一般为 0. 1 附 SCMOC的2 m最高气温客观预报产品以及EC模式
近 ; (2)树 的 深 度(max_depth)、 叶 节 点 数(num_ 2 m 最高气温在全省和不同地区的平均绝对误差
leaves)等基本参数调整, 这是提高精确度的最重要 (MAE)和预报准确率(FA)。对比发现 LGB 的 2 m
的参数。树的深度越大, 越容易导致过拟合, 两者 最高气温的订正效果显著, 全省的平均绝对误差相
大致的换算关系为 num_leaves=2 (max_depth) , 但实际调 较于 EC 模式减小 2. 48 ℃, 准确率提高 36. 97%。
参时, num_leaves应该小于 2 (max_depth) , 否则可能导致 其中 LGB 在川西高原和攀西地区的提高效果尤为
过拟合; (3)正则化参数调整, 降低过拟合; (4)最 突出, 平均绝对误差较 EC 模式分别减小 6. 72 ℃和
后降低学习率和增加迭代次数(n_estimators)来提 3. 61 ℃, 准确率分别提高 67. 2% 和 57. 5%。对于
高准确率。特征因子的所有数据进入 LightGBM 模 盆地而言, LGB 平均绝对误差减小 1. 01 ℃, 准确
型后, 将通过网格搜索方式训练调参和交叉验证方 率提高 23. 8%, 由于 EC 模式在盆地的准确度要远
式优化算法。 超于川西高原和攀西地区, 因此 LGB 的提高效果
先将学习率定为 0. 1、 树深度为 7、 叶节点数为 没有另外两个区域突出。由此可见, 复杂地形对于
100、 迭代次数为 100, 估计器 boosting_type 的类型 模式本身 2 m 最高气温的准确度是非常重要的影响
默认为 GBDT, 模型训练样本和交叉验证样本比例 因素。
为 8∶2。为了尽量提高模型效果、 避免过度拟合, 对于全省而言, 本省客观预报 SPCO 的预报准
首先根据相关系数的变化特征, 初次建模选择相关 确度要略优于中央台客观预报 SCMOC, 但不同地
系数绝对值≥0. 8 的因子(共计 6 个), 然后根据其余 区的优势程度表现不同, SPCO 对盆地的订正效果
因子相关系数绝对值从高到低逐个加入建模, 共训 要优于 SCMOC, 而 SCMOC 对于川西高原的订正
练 46 个模型(因子数从 6 增至 51)。除了对比每个 效果要略优于 SPCO, 因此四川省气象台预报员在
模型测试集 MAE 的大小, 同时也要考虑各模型在 进行 2 m 最高气温预报时会同时考虑 SPCO 和 SC‐

