Page 192 - 《高原气象》2026年第2期
P. 192
高 原 气 象 45 卷
492
图2 特征筛选前后LightGBM (a、 b)和XGBoost (c、 d)预测当前出现低能见度的特征重要性
Fig. 2 The feature importance of LightGBM algorithm and XGBoost algorithm in predicting the current low visibility
by feature screening [(a) and (b) are LightGBM algorithms, (c) and (d) are XGBoost algorithms]
925 hPa、 850 hPa 三个高度层的散度特征, 且各高 征对于单个预测的贡献程度。对于每个预测样本,
度层散度特征是 LightGBM 算法预报当前和未来 模型都产生一个预测值, SHAP 值就是该样本中每
1 h 低能见度模型中重要性排名前十的特征之一, 个特征所分配到的数值。SHAP 值不仅能反映出每
表明在建立低能见度预报模型时散度特征是一个 一个样本中特征的影响力, 而且还表现出影响的正
需要考虑的重要特征。 负性(夏侯杰和肖安, 2024)。本文以 LightGBM_
此外, 对比剔除的 8 个特征(hgt_925、 prmsl、 24_1h 模型为例, 基于 SHAP 值解释模型的预测。
spfh_925、 spfh_1000、 tmp_1000、 tmp_2m、 tmp_ 图 4是以散点展示 24个特征大小的 SHAP值分布图
850、 dpt_ob)在特征筛选前的重要性排名都在中位 和各特征 SHAP 值绝对平均值重要性柱状图, 即特
数以后, 也证明以特征的相关性为依据筛选特征, 征值对模型输出的贡献和全局重要性。由各样本
可有效避免特征冗余, 降低机器学习的特征维度。 的 SHAP 值散点图[图 4(a)]可知, rh_ob 特征的
3. 3 基于SHAP值对模型的解释 SHAP 值分布区间最大且表现为不连续的三部分:
传统的 feature importance 只显示哪个特征重 强负贡献区、 无明显贡献区、 强正贡献区, 且所有
要, 但我们并不清楚该特征是怎样影响预测结果 小值样本集中在 SHAP 值负贡献侧-10~-5, 该区间
的, 因此, 本文引入 SHAP 值(SHapley Additive ex‐ 也夹杂部分特征值相对较大的样本; 另有部分大值
Planations)更详细地解释模型的预测, 展示每个特 样本的 SHPA 值在 0 值附近, 表明没有明显贡献;

