Page 185 - 《高原气象》2025年第6期
P. 185

6 期                   周秋雪等:一种适用于复杂地形下最高气温订正的机器学习方法                                         1593
               带, 经纬度不同, 气候背景和天气特征也有差异。                          验证集数据(2024 年 1 -6 月)中 MAE 的大小, 前期
               2. 3 检验指标                                         随着因子逐个增加, 测试集和验证集的 MAE 均逐
                   参考中国气象局《中短期天气预报质量检验办                          渐减小, 当加入第 25 个特征因子(R12)时, 验证集
               法》, 本文选取平均绝对误差(MAE)和预报准确率                         的 MAE 减小至 1. 43 ℃。随后继续加入特征因子,
              (FA)来表征模型输出产品对 2 m 最高温度的预报                         虽然测试集的 MAE 在波动中略微减小, 但是验证
               效果及订正性能。计算公式如下:                                   集的 MAE 基本维持在 1. 53~1. 88 ℃, 不再继续减
                  (1) 平均绝对误差(Mean Absolute Error)                小。因此把加入第 25 个特征因子的模型当作目标
                                   1  N        |                 模型并对其进一步调参(表 1), MAE 最后降低至
                                   N
                            MAE = ∑ | F i - O i          (6)
                                     i = 1                       1. 33 ℃, 确定该模型为本文研究的目标模型(简称
               式中: F i 代表第 i 站的 2 m 气温预报值; O i 代表第 i             为 LGB, LightGBM 的缩写)。该模型共使用了 25
               站的 2 m 气温实况; N 为预报的总站(次)数。计算                      个特征因子, 相关性从大到小依次为: T_af、 Tmax_
               时保留2位小数。                                          2m、  T_1000、  T_925、  T_05、  T_850、  T_700、  TD_
                  (2) 预报准确率(Forecast Accuracy)                   2m、  T_500、  u_500、  RH_200、  High、  Lat、  u_700、
                              FA =  N r  × 100%          (7)     Lon、  v_100m、  v_10m、  ∆ T_500、  v_1000、  v_925、
                                                                 Sta_id、 v_850、 ∆H_200、 RH_500、 R12。
                                    N f
               式中: N r 为平均绝对误差≤2 ℃的站(次)数; N f 为预
                                                                             表1  最终模型的主要参数
               报的总站(次)数。计算时保留1位小数。
                                                                         Table 1  Main parameters of the model
                   为了全方位评估模型的预报性能和提高效果,
                                                                  Learning_rate  max_depth  num_leaves  n_estimators
               同时与 EC 模式、 四川省气象台数值预报客观释用
                                                                     0. 04        8         195         500
               城镇预报指导报(SPCO)和中央台城镇预报指导报
              (SCMOC)2 m 最高气温产品作对比分析, 计算 4 种                     3  LightGBM 模型 2 m 最高温度订正
               产品2 m最高气温的平均绝对误差和预报准确率。
               2. 4 模型训练                                             效果检验
                   对于基于决策树的模型, 调参方法基本为以下                         3. 1 检验指标的时间差异
               四 个 步 骤 : (1)首 先 选 择 较 高 的 学 习 率(learn‐               表 2 和表 3 给出了 2024 年 1 -6 月 LGB、 SPCO、
               ing_rate), 这样可以加快收敛速度, 一般为 0. 1 附                 SCMOC的2 m最高气温客观预报产品以及EC模式
               近 ; (2)树 的 深 度(max_depth)、 叶 节 点 数(num_           2 m 最高气温在全省和不同地区的平均绝对误差
               leaves)等基本参数调整, 这是提高精确度的最重要                      (MAE)和预报准确率(FA)。对比发现 LGB 的 2 m
               的参数。树的深度越大, 越容易导致过拟合, 两者                          最高气温的订正效果显著, 全省的平均绝对误差相
               大致的换算关系为 num_leaves=2        (max_depth) , 但实际调   较于 EC 模式减小 2. 48 ℃, 准确率提高 36. 97%。
               参时, num_leaves应该小于 2     (max_depth) , 否则可能导致     其中 LGB 在川西高原和攀西地区的提高效果尤为
               过拟合; (3)正则化参数调整, 降低过拟合; (4)最                      突出, 平均绝对误差较 EC 模式分别减小 6. 72 ℃和
               后降低学习率和增加迭代次数(n_estimators)来提                     3. 61 ℃, 准确率分别提高 67. 2% 和 57. 5%。对于
               高准确率。特征因子的所有数据进入 LightGBM 模                       盆地而言, LGB 平均绝对误差减小 1. 01 ℃, 准确
               型后, 将通过网格搜索方式训练调参和交叉验证方                           率提高 23. 8%, 由于 EC 模式在盆地的准确度要远
               式优化算法。                                            超于川西高原和攀西地区, 因此 LGB 的提高效果
                   先将学习率定为 0. 1、 树深度为 7、 叶节点数为                   没有另外两个区域突出。由此可见, 复杂地形对于
               100、 迭代次数为 100, 估计器 boosting_type 的类型             模式本身 2 m 最高气温的准确度是非常重要的影响
               默认为 GBDT, 模型训练样本和交叉验证样本比例                         因素。
               为 8∶2。为了尽量提高模型效果、 避免过度拟合,                             对于全省而言, 本省客观预报 SPCO 的预报准
               首先根据相关系数的变化特征, 初次建模选择相关                           确度要略优于中央台客观预报 SCMOC, 但不同地
               系数绝对值≥0. 8 的因子(共计 6 个), 然后根据其余                    区的优势程度表现不同, SPCO 对盆地的订正效果
               因子相关系数绝对值从高到低逐个加入建模, 共训                           要优于 SCMOC, 而 SCMOC 对于川西高原的订正
               练 46 个模型(因子数从 6 增至 51)。除了对比每个                     效果要略优于 SPCO, 因此四川省气象台预报员在
               模型测试集 MAE 的大小, 同时也要考虑各模型在                         进行 2 m 最高气温预报时会同时考虑 SPCO 和 SC‐
   180   181   182   183   184   185   186   187   188   189   190