Page 115 - 《高原气象》2025年第6期

P. 115

6 期刘杰等：基于决策树算法的青海省高原地区冰雹预报及关键特征因子分析 1523
表1 本研究中作为输入的特征因子
Table 1 Characterization factors used as inputs in this study
分组简写符号变量描述
特性高度层 t20、 t50、 t100、 t200、 t300、 t400、 t500、 t600 20， 50， 100， 200， 300， 400， 500， 600 hPa的温度（单位： K）
-2
2
z20、 z50、 z100、 z200、 z300、 z400、 z500、 z600 20， 50， 100， 200， 300， 400， 500， 600 hPa的位势高度（单位： m·s ）
-1
动力条件 d200、 d300、 d400、 d500 200， 300， 400， 500 hPa散度（单位： s ）
-1
w200、 w300、 w400、 w500 200， 300， 400， 500 hPa垂直速度（单位： Pa·s ）
-1
u200、 u300、 u400、 u500 200， 300， 400， 500 hPa风的东西方向分量（单位： m·s ）
-1
v200、 v300、 v400、 v500 200， 300， 400， 500 hPa风的南北方向分量（单位： m·s ）
-1
-2
水汽条件 p84. 162 水汽通量散度垂直积分（单位： kg·m ·s ）
vimd 水汽通量垂直积分（单位： kg·m ）
-2
ie 水汽通量（单位： kg·m ·s ）
-2
-1
-1
热力条件 cape 对流有效位能（单位： J·kg ）
-2
p54. 162 温度垂直积分（单位： K·kg·m ）
-2
p60. 162 热能垂直积分（单位： J·m ）
d2m 2 m露点温度（单位： K）
deg0l 零度高度层（单位： m）
地理条件 longitude 经度（°）
latitude 纬度（°）

性。基于这些优势，本研究选择这三种决策树模型地随机抽取样本和特征，训练出多个不同的决策
作为基础模型，构建面向冰雹的机器学习预报树，最终将它们的预测结果进行集成（李文娟等，
模型。 2018）。这种引入随机性的策略，有效降低了单棵
图 3 展示了 3 种决策树模型的流程图。随机森树的方差，使模型对异常值的鲁棒性更强，适用于
林（Random Forest）采用 Bagging 技术，通过有放回高维复杂的气象数据集。

图3 三种决策树模型的流程图
Fig. 3 Flowchart of the three decision tree models
XGBoost 则基于梯度提升框架（GBDT），通过它采用了高效的 Leaf-wise 分裂策略，能够更快更
迭代地纠正残差，逐步提升整体模型精度。它引入精准地生长决策树。同时， LightGBM 通过直方图
了正则化和列压缩等技术，可以高效利用内存和计算法摒弃了数据预处理环节，直接从连续特征中构
算资源，展现出极佳的大规模数据处理能力（Chen 建信息映射，减少了信息损失（Ke et al， 2017）。大
and Guestrin， 2016）。幅提升了算法的训练效率，使其能够快速高质量地
LightGBM 在 XGBoost 的基础上，进一步优化从冰雹相关的时空、动力、能量等多源异构大气数
了决策树生长策略、直方图算法和并行处理能力。据中挖掘出复杂的非线性模式。

110 111 112 113 114 115 116 117 118 119 120