Page 183 - 《高原气象》2025年第6期
P. 183

6 期                   周秋雪等:一种适用于复杂地形下最高气温订正的机器学习方法                                         1591
               从而判断是否会产生某类天气现象(例如高温、 暴                           子过多导致过拟合。因此特征工程的关键是找到
               雨、 冰雹等)。但这种思维方式大多基于历史抽象                           最能反映因变量本质的自变量因子。当处理后的
               经验, 难以客观量化, 而机器学习的最大优势正是                          数据集进入 LightGBM 模型后, 将经过反复的模型
               从海量的历史数据中挖掘规律。LightGBM 算法的                        训练和交叉验证方式对算法进行优化。待 LightG‐
               本质是一系列 if-then 条件判断的嵌套集成学习算                       BM 模型达到最优后, 通过常用的模型评估算法对
               法, 与预报员的预报思路不谋而合。该算法具体是                           训练集和测试集进行模型检验评估。
               将许多准确率较低的树模型组合起来, 经过不断迭                               根据天气学原理(朱乾根等, 2007), “Z”坐标
                                                                                           ∂y)
               代并采用梯度下降的方法, 在每次迭代时通过向损                           系下, 大尺度系统零级简化的热力学能量方程为:
               失函数的负梯度方向移动来使得损失函数越来越                                        ∂T  = - u  ∂T  + v  ∂T  +  Q   (5)
               小, 最终得到一棵较优的树, 并以此作为预测模型                                      ∂t ( ∂x              C P
              (Yasser and Hemayed, 2017)。算法原理如下:                 该式表示大尺度系统中的局地温度变化主要受温
                   准备 N 个数据集样本(x , y), (x , y),…(x ,             度平流和非绝热加热影响。式中: u为东西风; v为
                                                    2
                                                           n
                                                 2
                                        1
                                            1
               y), 其中 x为因变量, y为自变量, 初始化以梯度函                      南北风; Q 为热量; C 为定压比热。本项目选取的
                                                                                    p
                n
               数L获取第一颗决策树f(x):                                   特 征 因 子 如 下 :  1000~500  hPa (1000、  925、  850、
                                    0
                          f 0( x) = arc min c∑ L( )      (1)     700、 500 hPa)的温度和 24 h 变温、 1000~200 hPa
                                         N
                                             y i ,c
                                        i = 1                   (1000、 925、 850、 700、 500、 200 hPa)的相对湿度
                   设定模型迭代次数 m=1, 2,…,M, 在第 m 次迭                  和 24 h变高、 10 m风场、 100 m风场、 1000~500 hPa
               代过程中对每一个样本寻找负梯度方向:                               (1000、 925、 850、 700、 500 hPa)的风场、 24 h海平面变
                              é ∂L( y i ,f ( x i ) ù             压、 2 m温度、 2 m露点温度、 白天时段(09:00 -20:00)
                              ê ê
                                          ) ú ú
                        γ im = - ê ê  ∂f ( )  ú ú        (2)
                              ë       x i  û                     12 h 降水量共计 40 个模式预报因子。另外还加入
                                            f ( ) x = f m - 1( ) x
                                                                 站号、 经度、 纬度、 海拔、 坡度、 坡向、 粗糙度、 起
                   将计算的负梯度(x , γ )作为样本训练下一棵                      伏度 8 个描述站点地理位置和地貌特征的因子, 起
                                    i
                                       im
               决策树 f(x), 对应的叶节点区域为 R , j=1, 2,…,                 报当日 05:00整点温度和 12:00 -15:00最高温度 2个
                                                jm
                      m
               J, 计算最佳拟合值:
                     γ jm = arg min γ∑ x i ∈ R jm (  x i  )  (3)  实况因子及月份作为唯一的时间因子。其中坡度、
                                       L y i ,f m - 1( ) + γ
                                                                 坡向、 地表粗糙度、 地表起伏度均基于 DEM 数据,
               至此完成第m棵树的训练:                                      利用 ArcGIS软件计算得出。统计建模时段内(2021
                                             (
                       f m( x) = f m + 1( x) + ∑ γ jm I x ∈ R jm)  (4)  年 1 月 1 日至 2023 年 12 月 31 日)逐日实况 2 m 最高
                                        J
                                       j = 1                     气温与51个因子之间的相关系数大小(图1)。
               当循环迭代到M步时, 获得最终模型。                                    各层风的大小、 等温线疏密及风与等温线夹角
                   另外, 大多数机器学习工具都无法直接支持类                         可表征冷暖平流的强弱, 地面变压可表征地面冷高
               别特征作为输入, 需要转换成多维特征, 而 LightG‐                     压和热低压活动。因此选用模式预报的各层温度、
               BM 增加了针对类别特征的决策规则, 可以将站号                          变温、 风、 变高和地面变压作为可影响温度平流的
               作为预报因子输入, 使模型自动学习不同站点的地                           因子[图 1(a)], 其中各层温度与 2 m 最高气温相关
               形信息特征, 所以该算法对温度、 能见度等与地形                          性最大, 相关系数均超过了 0. 7, 且位势高度越低、
               地貌具有高相关性的气象要素预报十分有利。                              相关系数越高, 说明越接近地面, 温度平流对 2 m
               3. 2 模型建立                                         气温影响越大。u越大表示西风分量越大, v越大表
                   LightGBM 模型训练分为 5 个步骤(南东亮等,                   示南风分量越大, 特别是对流层低层, 偏南风一般
               2019): 数据采样、 特征工程、 模型训练、 交叉验证                     表征暖湿空气, 偏北风一般表征干冷空气, u、 v 风
               和模型评估。数据采样包括 2 m 温度实况资料(因                         对 2 m 气温的影响需结合温度因子综合判断。相较
               变量)、 地形数据和模式预报(自变量)等, 并对其                         于各层温度, 其温度变化量的相关性显著降低, 这
               进行筛选和清洗, 建立可信度高的样本数据集。特                           可能是因为变化量是指 20:00 的 24 h 变化, 没有特
               征工程是 LightGBM 建模中最重要的部分, 由于模                      殊天气时, 最高气温一般出现在 15:00 前后。冯良
               型最终效果受建模因子种类、 数量及其数据质量共                           敏(2023)在分析四川省转折性天气过程时发现, 低
               同影响, 所以选取的建模因子要使模型尽可能最大                           层大气温度的变化量与最高气温的相关性最高。
               程度学习到数据之间的内在规律, 还要避免建模因                           另外, 200 hPa变高与 2 m最高气温也具有较好的正
   178   179   180   181   182   183   184   185   186   187   188