Page 183 - 《高原气象》2025年第6期
P. 183
6 期 周秋雪等:一种适用于复杂地形下最高气温订正的机器学习方法 1591
从而判断是否会产生某类天气现象(例如高温、 暴 子过多导致过拟合。因此特征工程的关键是找到
雨、 冰雹等)。但这种思维方式大多基于历史抽象 最能反映因变量本质的自变量因子。当处理后的
经验, 难以客观量化, 而机器学习的最大优势正是 数据集进入 LightGBM 模型后, 将经过反复的模型
从海量的历史数据中挖掘规律。LightGBM 算法的 训练和交叉验证方式对算法进行优化。待 LightG‐
本质是一系列 if-then 条件判断的嵌套集成学习算 BM 模型达到最优后, 通过常用的模型评估算法对
法, 与预报员的预报思路不谋而合。该算法具体是 训练集和测试集进行模型检验评估。
将许多准确率较低的树模型组合起来, 经过不断迭 根据天气学原理(朱乾根等, 2007), “Z”坐标
∂y)
代并采用梯度下降的方法, 在每次迭代时通过向损 系下, 大尺度系统零级简化的热力学能量方程为:
失函数的负梯度方向移动来使得损失函数越来越 ∂T = - u ∂T + v ∂T + Q (5)
小, 最终得到一棵较优的树, 并以此作为预测模型 ∂t ( ∂x C P
(Yasser and Hemayed, 2017)。算法原理如下: 该式表示大尺度系统中的局地温度变化主要受温
准备 N 个数据集样本(x , y), (x , y),…(x , 度平流和非绝热加热影响。式中: u为东西风; v为
2
n
2
1
1
y), 其中 x为因变量, y为自变量, 初始化以梯度函 南北风; Q 为热量; C 为定压比热。本项目选取的
p
n
数L获取第一颗决策树f(x): 特 征 因 子 如 下 : 1000~500 hPa (1000、 925、 850、
0
f 0( x) = arc min c∑ L( ) (1) 700、 500 hPa)的温度和 24 h 变温、 1000~200 hPa
N
y i ,c
i = 1 (1000、 925、 850、 700、 500、 200 hPa)的相对湿度
设定模型迭代次数 m=1, 2,…,M, 在第 m 次迭 和 24 h变高、 10 m风场、 100 m风场、 1000~500 hPa
代过程中对每一个样本寻找负梯度方向: (1000、 925、 850、 700、 500 hPa)的风场、 24 h海平面变
é ∂L( y i ,f ( x i ) ù 压、 2 m温度、 2 m露点温度、 白天时段(09:00 -20:00)
ê ê
) ú ú
γ im = - ê ê ∂f ( ) ú ú (2)
ë x i û 12 h 降水量共计 40 个模式预报因子。另外还加入
f ( ) x = f m - 1( ) x
站号、 经度、 纬度、 海拔、 坡度、 坡向、 粗糙度、 起
将计算的负梯度(x , γ )作为样本训练下一棵 伏度 8 个描述站点地理位置和地貌特征的因子, 起
i
im
决策树 f(x), 对应的叶节点区域为 R , j=1, 2,…, 报当日 05:00整点温度和 12:00 -15:00最高温度 2个
jm
m
J, 计算最佳拟合值:
γ jm = arg min γ∑ x i ∈ R jm ( x i ) (3) 实况因子及月份作为唯一的时间因子。其中坡度、
L y i ,f m - 1( ) + γ
坡向、 地表粗糙度、 地表起伏度均基于 DEM 数据,
至此完成第m棵树的训练: 利用 ArcGIS软件计算得出。统计建模时段内(2021
(
f m( x) = f m + 1( x) + ∑ γ jm I x ∈ R jm) (4) 年 1 月 1 日至 2023 年 12 月 31 日)逐日实况 2 m 最高
J
j = 1 气温与51个因子之间的相关系数大小(图1)。
当循环迭代到M步时, 获得最终模型。 各层风的大小、 等温线疏密及风与等温线夹角
另外, 大多数机器学习工具都无法直接支持类 可表征冷暖平流的强弱, 地面变压可表征地面冷高
别特征作为输入, 需要转换成多维特征, 而 LightG‐ 压和热低压活动。因此选用模式预报的各层温度、
BM 增加了针对类别特征的决策规则, 可以将站号 变温、 风、 变高和地面变压作为可影响温度平流的
作为预报因子输入, 使模型自动学习不同站点的地 因子[图 1(a)], 其中各层温度与 2 m 最高气温相关
形信息特征, 所以该算法对温度、 能见度等与地形 性最大, 相关系数均超过了 0. 7, 且位势高度越低、
地貌具有高相关性的气象要素预报十分有利。 相关系数越高, 说明越接近地面, 温度平流对 2 m
3. 2 模型建立 气温影响越大。u越大表示西风分量越大, v越大表
LightGBM 模型训练分为 5 个步骤(南东亮等, 示南风分量越大, 特别是对流层低层, 偏南风一般
2019): 数据采样、 特征工程、 模型训练、 交叉验证 表征暖湿空气, 偏北风一般表征干冷空气, u、 v 风
和模型评估。数据采样包括 2 m 温度实况资料(因 对 2 m 气温的影响需结合温度因子综合判断。相较
变量)、 地形数据和模式预报(自变量)等, 并对其 于各层温度, 其温度变化量的相关性显著降低, 这
进行筛选和清洗, 建立可信度高的样本数据集。特 可能是因为变化量是指 20:00 的 24 h 变化, 没有特
征工程是 LightGBM 建模中最重要的部分, 由于模 殊天气时, 最高气温一般出现在 15:00 前后。冯良
型最终效果受建模因子种类、 数量及其数据质量共 敏(2023)在分析四川省转折性天气过程时发现, 低
同影响, 所以选取的建模因子要使模型尽可能最大 层大气温度的变化量与最高气温的相关性最高。
程度学习到数据之间的内在规律, 还要避免建模因 另外, 200 hPa变高与 2 m最高气温也具有较好的正

