Page 187 - 《高原气象》2026年第2期
P. 187
2 期 殷齐娥等:基于机器学习的机场低能见度短临预报研究 487
场观测数据质控。由于低能见度事件较少, 完全采 分段线性插值(Ibarra et al, 2019), 得到逐小时预报
用机场观测可以获得的低能见度样本会很少, 景德 数据, 一共 26 个初级预报特征。预测标签为当前
镇国家气象观测站与机场仅相距 2. 7 km, 且气候特 及未来 1 h有无低能见度天气。所有 32个初级特征
征相似, 因此将景德镇国家气象观测站的地面观测 和预测标签均存在时, 记为一条完整记录, 总共获
数据(不含 RVR)加入数据集进行数据增强, 以解决 得 56276 个完整且连续的逐小时记录, 用于机器学
机场低能见度样本数少的问题。 习模型训练。基于 32个初级特征建立的 LightGBM
预报数据来源于 ECWMF 数值模式(下文简称 和 XGBoost 分 别 记 为 LightGBM_32 和 XG‐
EC 模式)输出的 5 个地面和 21 个高空数值产品, 每 Boost_32。
天 08:00 和 20:00 起报的逐 3 h 预报数据, 共 26 个预 2. 2. 2 特征工程
报因子, 包括 850 hPa、 925 hPa、 1000 hPa三个高度 2.2.2.1 定性特征哑编码
层的散度(div_850、 div_925、 div_1000)、 相对湿度 机场观测数据中风向包含了静风C和风向不定
(rh_850、 rh_925、 rh_1000)、 比湿(spfh_850、 spfh_ VRB两种特殊的文本特征, 本文采用定性特征哑编
925、 spfh_1000)、 气 温(tmp_850、 tmp_925、 tmp_ 码(天池平台, 2020)对文本型的特征进行转换, 用
1000), 850 hPa、 925 hPa、 950 hPa、 1000 hPa 四个 0替换C, 用9999替换VRB。
高度层的垂直速度(vvel_850、 vvel_925、 vvel_950、 2.2.2.2 根据各特征的相关性进行特征选择
vvel_1000), 500 hPa、 700 hPa、 850 hPa、 925 hPa、 Manandhar et al(2019)指出机器学习特征工程
1000 hPa 五 个 高 度 层 的 位 势 高 度(hgt_500、 hgt_ 要求特征之间相互独立, 应避免各因子之间的共线
700、 hgt_850、 hgt_925、 hgt_1000), 2 m 露点温度 性对模型预报造成干扰, 因此有必要在建模前分析
(dpt_2m)和气温(tmp_2m), 海平面气压(pmsl), 3 h
预报因子之间的偏相关关系, 在相关性强的因子中
降雨量(rain_3h), 能见度(vis)。预报数据的时间 进行有选择的剔除。计算 32 个特征和机场能见度
范围为 2020 年 8 月 24 日 23:00 至 2023 年 11 月 10 日
观测值之间的相关系数, 其中相关系数绝对值大于
08:00。机场预报员日常业务参考 EC模式产品和机
0. 85为强相关。表 1列出了初级特征之间强相关的
场自动观测系统实时观测数据作能见度预报, 故本
预报因子。从表 1 中可以看出: (1)925 hPa 的位势
文选择 EC 模式预报数据和自动站观测数据做预报
因子。 表1 强相关的预报因子
2. 2 主要研究方法 Table 1 Factors with high correlation
2. 2. 1 数据清洗 预报因子1 预报因子2 相关系数
由于机场地面观测记录中有较多缺测, 需要对 hgt_1000 spfh_1000 -0. 87
观测数据进行质控。挑选 2020年 8月 24日 23:00至 hgt_1000 spfh_925 -0. 87
2023 年 11 月 10 日 08:00 连续性较好的风向、 风速、 hgt_1000 hgt_925 0. 89
气温、 相对湿度、 海平面气压、 露点温度、 能见度、 hgt_1000 prmsl 0. 89
RVR共 8个因子的逐时观测记录。首先剔除同一时 hgt_850 hgt_925 0. 88
刻前 6 个因子中缺失两个及以上因子的观测记录, prmsl tmp_850 -0. 88
然后采用随机森林算法(贺倩等, 2022)填充缺失的 prmsl tmp_925 -0. 87
能见度观测值。由于RVR数值在能见度低于1500 m spfh_1000 spfh_850 0. 91
时, 与能见度数值接近, 故参考 RVR 对填充的能见 spfh_1000 spfh_925 0. 97
度值进行手动订正, 以对观测数据进行质量控制。 spfh_850 spfh_925 0. 94
至此, 形成以风向、 风速、 气温、 相对湿度、 海平面 tmp_1000 tmp_850 0. 90
气压、 露点温度共 6 个特征组成的初级观测特征, tmp_1000 tmp_925 0. 91
而能见度数据用于确定机器学习的标签。 tmp_2m tmp_850 0. 88
通过两次线性插值获得景德镇国家地面观测 tmp_2m tmp_925 0. 91
站和机场的逐小时预报数据作为训练模型的初级 tmp_850 tmp_925 0. 96
预报特征。具体做法是将ECMWF预报数据经过双 dpt_ob tmp_ob 0. 86
线性插值到机场和景德镇国家地面观测站, 获得两 相关系数绝对值在 0. 85 以上(The absolute value of the correla‐
个站点的逐 3 h预报数据; 再将逐 3 h预报数据进行 tion coefficient is above 0. 85)

