Page 115 - 《高原气象》2025年第6期
P. 115
6 期 刘 杰等:基于决策树算法的青海省高原地区冰雹预报及关键特征因子分析 1523
表1 本研究中作为输入的特征因子
Table 1 Characterization factors used as inputs in this study
分组 简写符号 变量描述
特性高度层 t20、 t50、 t100、 t200、 t300、 t400、 t500、 t600 20, 50, 100, 200, 300, 400, 500, 600 hPa的温度(单位: K)
-2
2
z20、 z50、 z100、 z200、 z300、 z400、 z500、 z600 20, 50, 100, 200, 300, 400, 500, 600 hPa的位势高度(单位: m·s )
-1
动力条件 d200、 d300、 d400、 d500 200, 300, 400, 500 hPa散度(单位: s )
-1
w200、 w300、 w400、 w500 200, 300, 400, 500 hPa垂直速度(单位: Pa·s )
-1
u200、 u300、 u400、 u500 200, 300, 400, 500 hPa风的东西方向分量(单位: m·s )
-1
v200、 v300、 v400、 v500 200, 300, 400, 500 hPa风的南北方向分量(单位: m·s )
-1
-2
水汽条件 p84. 162 水汽通量散度垂直积分(单位: kg·m ·s )
vimd 水汽通量垂直积分(单位: kg·m )
-2
ie 水汽通量(单位: kg·m ·s )
-2
-1
-1
热力条件 cape 对流有效位能(单位: J·kg )
-2
p54. 162 温度垂直积分(单位: K·kg·m )
-2
p60. 162 热能垂直积分(单位: J·m )
d2m 2 m露点温度(单位: K)
deg0l 零度高度层(单位: m)
地理条件 longitude 经度(°)
latitude 纬度(°)
性。基于这些优势, 本研究选择这三种决策树模型 地随机抽取样本和特征, 训练出多个不同的决策
作为基础模型, 构建面向冰雹的机器学习预报 树, 最终将它们的预测结果进行集成(李文娟等,
模型。 2018)。这种引入随机性的策略, 有效降低了单棵
图 3 展示了 3 种决策树模型的流程图。随机森 树的方差, 使模型对异常值的鲁棒性更强, 适用于
林(Random Forest)采用 Bagging 技术, 通过有放回 高维复杂的气象数据集。
图3 三种决策树模型的流程图
Fig. 3 Flowchart of the three decision tree models
XGBoost 则基于梯度提升框架(GBDT), 通过 它采用了高效的 Leaf-wise 分裂策略, 能够更快更
迭代地纠正残差, 逐步提升整体模型精度。它引入 精准地生长决策树。同时, LightGBM 通过直方图
了正则化和列压缩等技术, 可以高效利用内存和计 算法摒弃了数据预处理环节, 直接从连续特征中构
算资源, 展现出极佳的大规模数据处理能力(Chen 建信息映射, 减少了信息损失(Ke et al, 2017)。大
and Guestrin, 2016)。 幅提升了算法的训练效率, 使其能够快速高质量地
LightGBM 在 XGBoost 的基础上, 进一步优化 从冰雹相关的时空、 动力、 能量等多源异构大气数
了决策树生长策略、 直方图算法和并行处理能力。 据中挖掘出复杂的非线性模式。

