Page 185 - 《高原气象》2025年第6期

P. 185

6 期周秋雪等：一种适用于复杂地形下最高气温订正的机器学习方法 1593
带，经纬度不同，气候背景和天气特征也有差异。验证集数据（2024 年 1 -6 月）中 MAE 的大小，前期
2. 3 检验指标随着因子逐个增加，测试集和验证集的 MAE 均逐
参考中国气象局《中短期天气预报质量检验办渐减小，当加入第 25 个特征因子（R12）时，验证集
法》，本文选取平均绝对误差（MAE）和预报准确率的 MAE 减小至 1. 43 ℃。随后继续加入特征因子，
（FA）来表征模型输出产品对 2 m 最高温度的预报虽然测试集的 MAE 在波动中略微减小，但是验证
效果及订正性能。计算公式如下：集的 MAE 基本维持在 1. 53~1. 88 ℃，不再继续减
（1）平均绝对误差（Mean Absolute Error）小。因此把加入第 25 个特征因子的模型当作目标
1 N | 模型并对其进一步调参（表 1）， MAE 最后降低至
N
MAE = ∑ | F i - O i （6）
i = 1 1. 33 ℃，确定该模型为本文研究的目标模型（简称
式中： F i 代表第 i 站的 2 m 气温预报值； O i 代表第 i 为 LGB， LightGBM 的缩写）。该模型共使用了 25
站的 2 m 气温实况； N 为预报的总站（次）数。计算个特征因子，相关性从大到小依次为： T_af、 Tmax_
时保留2位小数。 2m、 T_1000、 T_925、 T_05、 T_850、 T_700、 TD_
（2）预报准确率（Forecast Accuracy） 2m、 T_500、 u_500、 RH_200、 High、 Lat、 u_700、
FA = N r × 100% （7） Lon、 v_100m、 v_10m、 ∆ T_500、 v_1000、 v_925、
Sta_id、 v_850、 ∆H_200、 RH_500、 R12。
N f
式中： N r 为平均绝对误差≤2 ℃的站（次）数； N f 为预
表1 最终模型的主要参数
报的总站（次）数。计算时保留1位小数。
Table 1 Main parameters of the model
为了全方位评估模型的预报性能和提高效果，
Learning_rate max_depth num_leaves n_estimators
同时与 EC 模式、四川省气象台数值预报客观释用
0. 04 8 195 500
城镇预报指导报（SPCO）和中央台城镇预报指导报
（SCMOC）2 m 最高气温产品作对比分析，计算 4 种 3 LightGBM 模型 2 m 最高温度订正
产品2 m最高气温的平均绝对误差和预报准确率。
2. 4 模型训练效果检验
对于基于决策树的模型，调参方法基本为以下 3. 1 检验指标的时间差异
四个步骤：（1）首先选择较高的学习率（learn‐ 表 2 和表 3 给出了 2024 年 1 -6 月 LGB、 SPCO、
ing_rate），这样可以加快收敛速度，一般为 0. 1 附 SCMOC的2 m最高气温客观预报产品以及EC模式
近；（2）树的深度（max_depth）、叶节点数（num_ 2 m 最高气温在全省和不同地区的平均绝对误差
leaves）等基本参数调整，这是提高精确度的最重要（MAE）和预报准确率（FA）。对比发现 LGB 的 2 m
的参数。树的深度越大，越容易导致过拟合，两者最高气温的订正效果显著，全省的平均绝对误差相
大致的换算关系为 num_leaves=2 （max_depth），但实际调较于 EC 模式减小 2. 48 ℃，准确率提高 36. 97%。
参时， num_leaves应该小于 2 （max_depth），否则可能导致其中 LGB 在川西高原和攀西地区的提高效果尤为
过拟合；（3）正则化参数调整，降低过拟合；（4）最突出，平均绝对误差较 EC 模式分别减小 6. 72 ℃和
后降低学习率和增加迭代次数（n_estimators）来提 3. 61 ℃，准确率分别提高 67. 2% 和 57. 5%。对于
高准确率。特征因子的所有数据进入 LightGBM 模盆地而言， LGB 平均绝对误差减小 1. 01 ℃，准确
型后，将通过网格搜索方式训练调参和交叉验证方率提高 23. 8%，由于 EC 模式在盆地的准确度要远
式优化算法。超于川西高原和攀西地区，因此 LGB 的提高效果
先将学习率定为 0. 1、树深度为 7、叶节点数为没有另外两个区域突出。由此可见，复杂地形对于
100、迭代次数为 100，估计器 boosting_type 的类型模式本身 2 m 最高气温的准确度是非常重要的影响
默认为 GBDT，模型训练样本和交叉验证样本比例因素。
为 8∶2。为了尽量提高模型效果、避免过度拟合，对于全省而言，本省客观预报 SPCO 的预报准
首先根据相关系数的变化特征，初次建模选择相关确度要略优于中央台客观预报 SCMOC，但不同地
系数绝对值≥0. 8 的因子（共计 6 个），然后根据其余区的优势程度表现不同， SPCO 对盆地的订正效果
因子相关系数绝对值从高到低逐个加入建模，共训要优于 SCMOC，而 SCMOC 对于川西高原的订正
练 46 个模型（因子数从 6 增至 51）。除了对比每个效果要略优于 SPCO，因此四川省气象台预报员在
模型测试集 MAE 的大小，同时也要考虑各模型在进行 2 m 最高气温预报时会同时考虑 SPCO 和 SC‐

180 181 182 183 184 185 186 187 188 189 190