Page 188 - 《高原气象》2026年第2期
P. 188

高     原      气     象                                 45 卷
              488
             高度与 1000 hPa、 850 hPa 的位势高度存在强相关                   925 hPa 气温特征。(6)露点温度观测值和 2 m 气温
             关系, 剔除 925 hPa 位势高度特征。(2)1000 hPa、                 观测值之间有正的强相关关系(0. 86), 二者与机场
             925 hPa、 850 hPa 三个高度层的比湿两两强相关,                    能见度观测值的相关系数分别为 0. 05 和 0. 20, 2 m
             相关系数绝对值均在 0. 9 以上, 低层比湿特征选一                        气温观测值与机场能见度的相关性更大, 保留 2 m
             个即可, 同时考虑到 1000 hPa、 925 hPa 的比湿与                  气 温 观 测 特 征 。(7)1000 hPa、 950 hPa、 925 hPa、
             1000 hPa 的位势高度有强相关关系, 故选择 850                      850 hPa 四个高度层的垂直速度彼此之间的相关系
             hPa 比湿特征。(3)海平面气压与 1000 hPa 位势高                    数绝对值均不超过 0. 25, 1000 hPa、 925 hPa、 850
             度、 850 hPa 气温、 925 hPa 气温有强相关关系, 剔                 hPa 三个高度层的散度两两之间的相关系数绝对值
             除海平面气压特征。(4)850 hPa 气温、 925 hPa 气温                 均不超过 0. 30, 且与其他特征相关性不高, 故保留
             分别与 1000 hPa 气温、 2 m 气温强相关, 剔除 1000                各高度层的垂直速度特征和散度特征。至此, 从 32
             hPa 气温、 2 m 气温两个特征。(5)850 hPa 气温、 925              个初级特征中筛选出 24 个特征参加模型训练(表
             hPa 气温之间具有强相关性, 应剔除一个, 考虑机                         2)。基于 24 个筛选特征建立的 LightGBM 和 XG‐
             场能见度与 925 hPa 气温的相关性略高, 因此保留                       Boost分别记为LightGBM_24和XGBoost_24。

                                                 表2  用于模型训练的24个特征
                                             Table 2  The 24 features for model training
                   特征类别                                            特征名称
                EC预报特征(19个)        div_1000、 div_850、 div_925、 dpt_2m、 hgt_500、 hgt_700、 hgt_850、 hgt_1000、 rain03、 rh_1000、 rh_850、
                                             rh_925、 spfh_850、 tmp_925、 vis、 vvel_1000、 vvel_850、 vvel_925、 vvel_950
               实时观测特征(5个)                            wind_ob、 windspeed_ob、 tmp_ob、 rh_ob、 prmsl_ob
                 div、 hgt、 rh、 spfh、 tmp、 vvel 分别为 1000~500 hPa 各层散度、 位势高度、 相对湿度、 比湿、 气温、 垂直速度, prmsl 为海平面气压, ob 代
              表景德镇国家站和机场地面观测实况数据(In the table, div, hgt, rh, spfh, tmp, and vvel represent the divergence, geopotential height, relative
              humidity, specific humidity, air temperature, and vertical velocity of each layer from 1000 to 500 hPa respectively. prmsl is the sea level pressure,
              and ob represents the ground observation actual data of Jingdezhen National Station and the airport)
             2.2.2.3 样本均衡                                       虑降水的影响, 剔除小时降水量大于 0. 0 mm·h 的
                                                                                                          -1
                  当样本不均衡时, 机器学习算法模型的准确率                         样本。根据机场和景德镇国家站能见度的逐时观
             易受多数类样本的干扰, 因此在训练模型之前需要                            测值确定样本的分类标签: 当前的能见度值确定标
             对样本进行均衡处理。王琮(2022)提出了一种基                           签 target, 未来 1 h 的能见度值确定标签 target+1。

             于迁移学习的受限样本下冰雹识别建模方法。王                              本文将能见度<1 km 的样本标签为 1, 能见度≥1 km
             坤等(2020)根据多数类样本和少数类样本的比例                           的样本标签为 0, 挑选出当前时次低能见度样本
             设置过采样倍例, 采用合成少数类过取样方法构建                            435个, 下一时次低能见度样本 431个, 分别与朴素
             短时强降水预报模型的训练样本集。黄威和牛若                              随机下采样得到的 870个非低能见度样本组合成模
             芸(2017)采用混合滑动训练期的方法将正负样本                           型训练样本, 运用机器学习模型预测当前及未来
             的数量比例控制在 1∶2。根据机场气候志统计, 年                          1 h是否有低能见度现象。
             均低能见度日出现的概率为 0. 04, 属于小概率事                             网格搜索法(Zhou et al, 2019)是以穷举搜索的
             件。为帮助模型更好的识别低能见度样本, 本文采                            形式, 对指定参数的取值进行排列组合, 在训练集
             用朴素随机下采样方法(Moon et al, 2020)从非低                    上多次迭代后达到调整各个模型主要参数的目的,
             能见度样本类中取出低能见度样本数量两倍的非                              本文使用该方法, 结合 5 折交叉验证法(姜红等,

             低能见度记录, 与低能见度样本组成模型训练样                             2021)确定模型主要参数的最佳组合。具体方法
             本, 其中 80% 作为训练集, 20% 作为测试集, 选用                     为: 先对比交叉验证平均准确率和测试集的准确
             LightGBM、 XGBoost、 SVM 分别建立二分类模型,                  率, 判断模型的拟合效果, 再依据模型拟合情况,
             预测当前及未来1 h是否会出现低能见度天气。                             人工增加或删除网格搜索法的指定参数, 多次交替
             2. 2. 3 模型训练                                       使用网格搜索法和人工调参, 直至机器学习模型的
                  机场低能见度主要受辐射雾影响, 研究暂不考                         准确率最大, 且与交叉验证平均准确率基本相等,
   183   184   185   186   187   188   189   190   191   192   193