Page 116 - 《高原气象》2025年第6期

P. 116

高原气象 44 卷
1524
2. 2. 2 检验方法集存在类别分布数量失衡问题，在这种情况下，模
为全面评估决策树算法在冰雹识别任务中的型往往倾向于预测为多数类别（非冰雹），容易忽视
性能，本研究采用了多个量化指标，包括命中率、数量占少数的冰雹类别。当类别失衡程度较严重
误报率、临界成功指数、准确率和召回率，计算公时，欠采样主类比过采样少数类更为合理（McGov‐
式为式（1）~（5）如下。 ern et al， 2014），可避免潜在的数据偏差。因此，
TP
命中率 = （1）本研究保留了所有的正样本（冰雹事件），并从负样
TP + FP 本中随机抽取一部分，调整样本数量以使其处于合
FP
误报率 = （2）
TP + FP 理的区间范围内。本研究选取 2009 -2019 年的数
TP 据作为训练集， 2020 年的数据作为验证集， 2021 -
临界成功指数 = （3）
TP + FP + FN 2023 年的数据作为独立测试集。训练集用于模型
TP + TN
准确率 = （4）参数的学习，验证集用于评估模型在训练过程中的
TP + TN + FP + FN
TP 表现，并辅助选择最优的超参数。三种决策树模型
召回率 = （5）
TP + FN 通过多个基学习器的集成决策生成最终的预测结
本研究中设定冰雹样本为正例，非冰雹样本为果。首先，本研究对直径≥2 mm 的冰雹样本进行建
负例。其中 TP 表示模型正确地将正例预测为正例模分析，随后将焦点转向符合 WMO 标准（直径
的数量， TN 表示模型正确地将负例预测为负例的 ≥5 mm）的冰雹样本进行进一步研究，以全面评估
数量， FP 表示模型错误地将负例预测为正例的数不同尺寸冰雹样本的预报能力。具体的冰雹样本
量， FN表示模型错误地将正例预测为负例的数量。分布见表 2，根据冰雹样本数量，随机抽取等量的
命中率反映了模型对真实冰雹事件的捕捉程非冰雹样本，以确保正负样本数量比为 1∶1。最
度；误报率衡量了模型将无冰雹样本错误识别为冰
终，测试集用于评估经过超参数优化后的模型的泛
雹的情况；临界成功指数综合考虑了命中、虚警和化能力，以及在实际应用中的性能表现。
漏报，是一个综合性评价指标；准确率表示模型在
表2 两种冰雹直径样本训练集、验证集和测试集的
所有样本中的正确率；召回率评估了模型捕捉全部
样本数量
冰雹事件的能力。
Table 2 Sample size distribution of the training， valida‐
2. 2. 3 预测模型 tion， and test sets for two hail diameter groups
图 4展示了基于决策树算法进行冰雹天气预报
冰雹样本（≥2 mm）冰雹样本（≥5 mm）
的完整流程。将 ERA5 数据、地面气象站点的冰雹
训练集（2009 -2019年） 49152 9524
观测数据和灾情直报系统中的雹灾数据输入模型，
验证集（2020年） 4536 2420
经过多源数据融合后，得到空间分辨率为 0. 25°×
测试集（2021 -2023年） 9456 3920
0. 25°，时间分辨率为 1 h 的初始数据集，而冰雹作
为小概率事件，正负样本数量差异较大。初始数据图 5 展示了随机森林（Random Forest）、 XG‐
Boost 和 LightGBM 三种决策树模型在验证集上的
ROC 曲线，横坐标是假正例率，表示被错误地预测
为正类别的样本占所有实际为负类别的样本的比
例；纵坐标是真正例率，表示正确地预测为正类别

的样本占所有实际为正类别的样本的比例，在冰雹
分类中要在更小的假正例率的情况下追求更大的
真正例率。概率阈值是将二分类模型输出的概率
值转换为最终的类别预测的决策边界， ROC 曲线
可以帮助我们在灵敏度和特异度之间进行权衡，以
选择最合适的概率阈值。从图 5 中可以看出，假正
图4 决策树模型预测冰雹流程图例率为 0. 4 的时候，三种模型的真正例率几乎接近
Fig. 4 Decision tree model flowchart for predicting hailstones 于 1，因此本研究将概率阈值设置为 0. 4，当模型预

111 112 113 114 115 116 117 118 119 120 121