Page 192 - 《高原气象》2026年第2期
P. 192

高     原      气     象                                 45 卷
              492



















































                          图2 特征筛选前后LightGBM (a、 b)和XGBoost (c、 d)预测当前出现低能见度的特征重要性
                  Fig. 2 The feature importance of LightGBM algorithm and XGBoost algorithm in predicting the current low visibility
                         by feature screening [(a) and (b) are LightGBM algorithms, (c) and (d) are XGBoost algorithms]

             925 hPa、 850 hPa 三个高度层的散度特征, 且各高                   征对于单个预测的贡献程度。对于每个预测样本,
             度层散度特征是 LightGBM 算法预报当前和未来                         模型都产生一个预测值, SHAP 值就是该样本中每
             1 h 低能见度模型中重要性排名前十的特征之一,                           个特征所分配到的数值。SHAP 值不仅能反映出每
             表明在建立低能见度预报模型时散度特征是一个                              一个样本中特征的影响力, 而且还表现出影响的正
             需要考虑的重要特征。                                         负性(夏侯杰和肖安, 2024)。本文以 LightGBM_
                  此外, 对比剔除的 8 个特征(hgt_925、 prmsl、               24_1h 模型为例, 基于 SHAP 值解释模型的预测。
             spfh_925、  spfh_1000、  tmp_1000、  tmp_2m、  tmp_    图 4是以散点展示 24个特征大小的 SHAP值分布图
             850、 dpt_ob)在特征筛选前的重要性排名都在中位                       和各特征 SHAP 值绝对平均值重要性柱状图, 即特

             数以后, 也证明以特征的相关性为依据筛选特征,                            征值对模型输出的贡献和全局重要性。由各样本
             可有效避免特征冗余, 降低机器学习的特征维度。                            的 SHAP 值散点图[图 4(a)]可知, rh_ob 特征的
             3. 3 基于SHAP值对模型的解释                                 SHAP 值分布区间最大且表现为不连续的三部分:
                  传统的 feature importance 只显示哪个特征重               强负贡献区、 无明显贡献区、 强正贡献区, 且所有
             要, 但我们并不清楚该特征是怎样影响预测结果                             小值样本集中在 SHAP 值负贡献侧-10~-5, 该区间
             的, 因此, 本文引入 SHAP 值(SHapley Additive ex‐            也夹杂部分特征值相对较大的样本; 另有部分大值
             Planations)更详细地解释模型的预测, 展示每个特                      样本的 SHPA 值在 0 值附近, 表明没有明显贡献;
   187   188   189   190   191   192   193   194   195   196   197