Page 187 - 《高原气象》2026年第2期
P. 187

2 期                       殷齐娥等:基于机器学习的机场低能见度短临预报研究                                         487
               场观测数据质控。由于低能见度事件较少, 完全采                           分段线性插值(Ibarra et al, 2019), 得到逐小时预报
               用机场观测可以获得的低能见度样本会很少, 景德                           数据, 一共 26 个初级预报特征。预测标签为当前
               镇国家气象观测站与机场仅相距 2. 7 km, 且气候特                      及未来 1 h有无低能见度天气。所有 32个初级特征
               征相似, 因此将景德镇国家气象观测站的地面观测                           和预测标签均存在时, 记为一条完整记录, 总共获
               数据(不含 RVR)加入数据集进行数据增强, 以解决                        得 56276 个完整且连续的逐小时记录, 用于机器学
               机场低能见度样本数少的问题。                                    习模型训练。基于 32个初级特征建立的 LightGBM
                   预报数据来源于 ECWMF 数值模式(下文简称                       和 XGBoost 分 别 记 为 LightGBM_32 和 XG‐
               EC 模式)输出的 5 个地面和 21 个高空数值产品, 每                    Boost_32。
               天 08:00 和 20:00 起报的逐 3 h 预报数据, 共 26 个预            2. 2. 2 特征工程
               报因子, 包括 850 hPa、 925 hPa、 1000 hPa三个高度            2.2.2.1 定性特征哑编码
               层的散度(div_850、 div_925、 div_1000)、 相对湿度                机场观测数据中风向包含了静风C和风向不定
              (rh_850、 rh_925、 rh_1000)、 比湿(spfh_850、 spfh_      VRB两种特殊的文本特征, 本文采用定性特征哑编
               925、  spfh_1000)、  气 温(tmp_850、  tmp_925、  tmp_   码(天池平台, 2020)对文本型的特征进行转换, 用
               1000), 850 hPa、 925 hPa、 950 hPa、 1000 hPa 四个     0替换C, 用9999替换VRB。
               高度层的垂直速度(vvel_850、 vvel_925、 vvel_950、            2.2.2.2 根据各特征的相关性进行特征选择
               vvel_1000), 500 hPa、 700 hPa、 850 hPa、 925 hPa、       Manandhar et al(2019)指出机器学习特征工程
               1000 hPa 五 个 高 度 层 的 位 势 高 度(hgt_500、 hgt_        要求特征之间相互独立, 应避免各因子之间的共线
               700、 hgt_850、 hgt_925、 hgt_1000), 2 m 露点温度        性对模型预报造成干扰, 因此有必要在建模前分析
              (dpt_2m)和气温(tmp_2m), 海平面气压(pmsl), 3 h
                                                                 预报因子之间的偏相关关系, 在相关性强的因子中
               降雨量(rain_3h), 能见度(vis)。预报数据的时间                    进行有选择的剔除。计算 32 个特征和机场能见度
               范围为 2020 年 8 月 24 日 23:00 至 2023 年 11 月 10 日
                                                                 观测值之间的相关系数, 其中相关系数绝对值大于
               08:00。机场预报员日常业务参考 EC模式产品和机
                                                                 0. 85为强相关。表 1列出了初级特征之间强相关的
               场自动观测系统实时观测数据作能见度预报, 故本
                                                                 预报因子。从表 1 中可以看出: (1)925 hPa 的位势
               文选择 EC 模式预报数据和自动站观测数据做预报
               因子。                                                            表1  强相关的预报因子
               2. 2 主要研究方法                                               Table 1  Factors with high correlation
               2. 2. 1 数据清洗                                          预报因子1           预报因子2           相关系数
                   由于机场地面观测记录中有较多缺测, 需要对                              hgt_1000       spfh_1000        -0. 87
               观测数据进行质控。挑选 2020年 8月 24日 23:00至                        hgt_1000        spfh_925        -0. 87
               2023 年 11 月 10 日 08:00 连续性较好的风向、 风速、                   hgt_1000        hgt_925          0. 89
               气温、 相对湿度、 海平面气压、 露点温度、 能见度、                            hgt_1000         prmsl           0. 89
               RVR共 8个因子的逐时观测记录。首先剔除同一时                               hgt_850         hgt_925          0. 88
               刻前 6 个因子中缺失两个及以上因子的观测记录,                                prmsl          tmp_850         -0. 88
               然后采用随机森林算法(贺倩等, 2022)填充缺失的                              prmsl          tmp_925         -0. 87
               能见度观测值。由于RVR数值在能见度低于1500 m                            spfh_1000        spfh_850         0. 91
               时, 与能见度数值接近, 故参考 RVR 对填充的能见                           spfh_1000        spfh_925         0. 97
               度值进行手动订正, 以对观测数据进行质量控制。                                spfh_850        spfh_925         0. 94
               至此, 形成以风向、 风速、 气温、 相对湿度、 海平面                           tmp_1000        tmp_850          0. 90
               气压、 露点温度共 6 个特征组成的初级观测特征,                              tmp_1000        tmp_925          0. 91
               而能见度数据用于确定机器学习的标签。                                     tmp_2m          tmp_850          0. 88
                   通过两次线性插值获得景德镇国家地面观测                                tmp_2m          tmp_925          0. 91
               站和机场的逐小时预报数据作为训练模型的初级                                  tmp_850         tmp_925          0. 96
               预报特征。具体做法是将ECMWF预报数据经过双                                 dpt_ob         tmp_ob           0. 86
               线性插值到机场和景德镇国家地面观测站, 获得两                              相关系数绝对值在 0. 85 以上(The absolute value of the correla‐
               个站点的逐 3 h预报数据; 再将逐 3 h预报数据进行                      tion coefficient is above 0. 85)
   182   183   184   185   186   187   188   189   190   191   192