Page 118 - 《高原气象》2025年第6期
P. 118
高 原 气 象 44 卷
1526
准确地捕捉关键特征并提高预测性能。 更大冰雹样本上的预测性能依然保持较高水平, 这
另外, 在相同的硬件条件和数据集下进行全 进一步验证了所提出方法在不同冰雹尺度上的稳
流程的训练、 验证和测试时, 十次实验中, LightG‐ 健性和有效性。
BM 算法的平均运行时间为 86 s, XGBoost 算法为 3. 2 特征因子重要性分析
118 s, 而随机森林算法则需要 160 s。LightGBM 根据前期分析, LightGBM 算法在青海地区冰
的高效性不仅源于创新的决策树生长策略, 更多 雹天气预测任务中表现优异, 不仅预测效果显著,
得益于其在算法层面进行了多方位的优化, 支持 而且训练效率较高。为了深入探究 LightGBM 模型
并行训练、 直方图加速等, 极大节省了内存和计算 的内在机制, 图 5 展示了基于 LightGBM 算法构建
开销。 的冰雹预测模型中, 针对直径≥2 mm[图 6(a)]和直
与先前实验流程一致, 本研究进一步针对直径 径≥5 mm[图 6(b)]两种冰雹样本, 分别分析的四类
≥10 mm 和直径≥20 mm 的冰雹样本进行了实验评 特征因子重要性得分的排名情况。LightGBM 通过
估, 以探讨模型在更大冰雹样本上的适用性和泛化 记录每个特征在决策树中参与分裂的次数, 反映特
能力。实验结果表明, 在 LightGBM 模型上, 针对 征在树节点中的使用频率。结合每次分裂时的信
直径≥10 mm 的冰雹样本, 平均命中率达到 0. 940, 息增益, LightGBM 进一步对这些增益进行加权平
平均误报率为 0. 061, 平均临界成功指数为 0. 938; 均, 从而计算出每个特征的总贡献度, 并据此确定
针 对 直 径 ≥20 mm 的 冰 雹 样 本 , 平 均 命 中 率 为 其重要性得分。这种方法综合考虑了特征在模型
0. 936, 平均误报率为 0. 058, 平均临界成功指数为 训练过程中的贡献, 从而准确地量化了各特征的相
0. 928。与较小直径的冰雹预测结果相比, 模型在 对重要性。
图6 基于LightGBM算法的冰雹预测模型的四类特征因子重要性得分前三名的柱状图
(a)冰雹直径≥2 mm, (b)冰雹直径≥5 mm
Fig. 6 Bar charts of the top three feature importance scores for the four categories of factors in the hail prediction
model based on the LightGBM algorithm.(a) Experimental results for hail diameters ≥2 mm;
(b) Experimental results for hail diameters ≥5 mm
由图 6 可以看出, 直径≥2 mm 的实验中, 排名 度, 从而使得各因子对模型贡献的比较更加公平合
前十的重要特征依次为温度垂直积分(p54. 162)、 热 理。而在直径≥5 mm 的实验中, 排名前十的重要特
能垂直积分(p60. 162)、 2 m露点温度(d2m)、 500 hPa 征则为: 温度垂直积分(p54. 162)、 500 hPa 东西向
东西向风速(u500)、 400 hPa 温度(t400)、 20 hPa 位 风速(u500)、 200 hPa 风的南北方向分量(v200)、
势高度(z20)、 100 hPa 温度(t100)、 200 hPa 风的南 2 m 露点温度(d2m)、 热能垂直积分(p60. 162)、
北方向分量(v200)、 200 hPa 风的东西方向分量 200 hPa 风的东西方向分量(u200)、 100 hPa 温度
(u200)、 水汽通量(ie)。经过标准化处理后, 热力 (t100)、 20 hPa 位势高度(z20)、 水汽通量(ie)、 400
条件的贡献度最高, 占比超过了总体的 50%; 动力 hPa 温度(t400)。经过标准化处理后, 热力条件的
条件和特性高度层的贡献度均超过了 15%。标准 贡献度占比超过 30%, 动力条件和特性高度层的贡
化处理确保了不同量纲的特征因子具有相同的尺 献度均在 20% 以上。综上所述, 通过对两组实验中

