Page 116 - 《高原气象》2025年第6期
P. 116
高 原 气 象 44 卷
1524
2. 2. 2 检验方法 集存在类别分布数量失衡问题, 在这种情况下, 模
为全面评估决策树算法在冰雹识别任务中的 型往往倾向于预测为多数类别(非冰雹), 容易忽视
性能, 本研究采用了多个量化指标, 包括命中率、 数量占少数的冰雹类别。当类别失衡程度较严重
误报率、 临界成功指数、 准确率和召回率, 计算公 时, 欠采样主类比过采样少数类更为合理(McGov‐
式为式(1)~(5)如下。 ern et al, 2014), 可避免潜在的数据偏差。因此,
TP
命中率 = (1) 本研究保留了所有的正样本(冰雹事件), 并从负样
TP + FP 本中随机抽取一部分, 调整样本数量以使其处于合
FP
误报率 = (2)
TP + FP 理的区间范围内。本研究选取 2009 -2019 年的数
TP 据作为训练集, 2020 年的数据作为验证集, 2021 -
临界成功指数 = (3)
TP + FP + FN 2023 年的数据作为独立测试集。训练集用于模型
TP + TN
准确率 = (4) 参数的学习, 验证集用于评估模型在训练过程中的
TP + TN + FP + FN
TP 表现, 并辅助选择最优的超参数。三种决策树模型
召回率 = (5)
TP + FN 通过多个基学习器的集成决策生成最终的预测结
本研究中设定冰雹样本为正例, 非冰雹样本为 果。首先, 本研究对直径≥2 mm 的冰雹样本进行建
负例。其中 TP 表示模型正确地将正例预测为正例 模分析, 随后将焦点转向符合 WMO 标准(直径
的数量, TN 表示模型正确地将负例预测为负例的 ≥5 mm)的冰雹样本进行进一步研究, 以全面评估
数量, FP 表示模型错误地将负例预测为正例的数 不同尺寸冰雹样本的预报能力。具体的冰雹样本
量, FN表示模型错误地将正例预测为负例的数量。 分布见表 2, 根据冰雹样本数量, 随机抽取等量的
命中率反映了模型对真实冰雹事件的捕捉程 非冰雹样本, 以确保正负样本数量比为 1∶1。最
度; 误报率衡量了模型将无冰雹样本错误识别为冰
终, 测试集用于评估经过超参数优化后的模型的泛
雹的情况; 临界成功指数综合考虑了命中、 虚警和 化能力, 以及在实际应用中的性能表现。
漏报, 是一个综合性评价指标; 准确率表示模型在
表2 两种冰雹直径样本训练集、 验证集和测试集的
所有样本中的正确率; 召回率评估了模型捕捉全部
样本数量
冰雹事件的能力。
Table 2 Sample size distribution of the training, valida‐
2. 2. 3 预测模型 tion, and test sets for two hail diameter groups
图 4展示了基于决策树算法进行冰雹天气预报
冰雹样本(≥2 mm) 冰雹样本(≥5 mm)
的完整流程。将 ERA5 数据、 地面气象站点的冰雹
训练集(2009 -2019年) 49152 9524
观测数据和灾情直报系统中的雹灾数据输入模型,
验证集(2020年) 4536 2420
经过多源数据融合后, 得到空间分辨率为 0. 25°×
测试集(2021 -2023年) 9456 3920
0. 25°, 时间分辨率为 1 h 的初始数据集, 而冰雹作
为小概率事件, 正负样本数量差异较大。初始数据 图 5 展 示 了 随 机 森 林(Random Forest)、 XG‐
Boost 和 LightGBM 三种决策树模型在验证集上的
ROC 曲线, 横坐标是假正例率, 表示被错误地预测
为正类别的样本占所有实际为负类别的样本的比
例; 纵坐标是真正例率, 表示正确地预测为正类别
的样本占所有实际为正类别的样本的比例, 在冰雹
分类中要在更小的假正例率的情况下追求更大的
真正例率。概率阈值是将二分类模型输出的概率
值转换为最终的类别预测的决策边界, ROC 曲线
可以帮助我们在灵敏度和特异度之间进行权衡, 以
选择最合适的概率阈值。从图 5 中可以看出, 假正
图4 决策树模型预测冰雹流程图 例率为 0. 4 的时候, 三种模型的真正例率几乎接近
Fig. 4 Decision tree model flowchart for predicting hailstones 于 1, 因此本研究将概率阈值设置为 0. 4, 当模型预

