Page 189 - 《高原气象》2026年第2期
P. 189

2 期                       殷齐娥等:基于机器学习的机场低能见度短临预报研究                                         489
               得到最优模型。                                           估指标可知, 虽然 EC 模式预报能见度的准确率高
               2. 2. 4 模型评估                                      达 0. 99, 但低能见度的 F1_score 为 0, 表明 EC 模式
                   本文采用 ROC 曲线对模型的性能进行可视                         对于 1 km 以下能见度的预报能力较差, 满足不了
               化, 通过对比分析模型的准确率(Accuracy)、 精确                     机场对低能见度预报精度的需求。三种机器学习
               率(Precision)、 召回率(Recall)、 F1_score、 AUC 值
                                                                 模型运行结果中, LightGBM_32 和 XGBoost_32 模
              (ROC 曲线下面积)进行评估(Tao et al, 2024)。其
                                                                 型对低能见度的短临预报准确率均在 0. 90 以上,
               中 F1_score 是评估分类模型性能的综合性指标, 是
                                                                 低能见度的 F1_score 值均超过 0. 80, 但 SVM 模型
               精确率和召回率的调和均值, F1-Score 越高, 模型
                                                                 对低能见度的短临预报准确率仅 0. 65, 低能见度的
               对预测目标的预测能力越好(张睿智等, 2024)。
                                                                 F1_score 值为 0, 表明 LightGBM_32 和 XGBoost_32
               3  结果和分析                                          模型的预报能力明显高于 SVM 模型, 但 LightG‐
                                                                 BM_32 和 XGBoost_32 模型的评估指标值相差不
                   本文使用网格搜索法对三种机器学习算法模
                                                                 大。为进一步对比两个模型的性能, 本文剔除相关
               型进行调参, 人工辅助调整备选参数, 当交叉验证
                                                                 性大于 0. 85的 8个特征, 减少特征共线性对模型的
               平均准确率和测试集的准确率基本相等时, 得到模
                                                                 干扰, 将剩余的 24 个特征用于 LightGBM 算法模型
               型参数的最佳组合。表 3 为基于 32 个初选特征训
               练所得的三个机器学习模型的关键评估指标和对                             和 XGBoost算法模型的训练, 对模型预测性能进行
               EC模式的逐3 h能见度预报能力评估。                               综合评估, 并通过 ROC 曲线将分类模型的性能可
                   对比表 3 中三种机器学习模型和 EC 模式的评                      视化。

                                         表3  特征筛选前各模型的交叉验证平均准确率和准确率
                          Table 3  The mean cross-validation score and accuracy of each model before feature screening
                     模型名称               LightGBM_32            XGBoost_32              SVM              EC
                     预测目标             当前        未来1 h       当前        未来1 h       当前        未来1 h       逐3 h
                 交叉验证平均准确率            0. 90      0. 88      0. 91      0. 89      0. 64      0. 67       -
                      准确率             0. 93      0. 93      0. 93      0. 92      0. 61      0. 65      0. 99
                 F1_score(低能见度)       0. 91      0. 89      0. 91      0. 89      0. 00      0. 00      0. 00

               3. 1 特征筛选结果分析                                     仅召回率增加 0. 01, 表明特征筛选对当前低能见度
                   对比特征筛选前后 LightGBM 和 XGBoost 两种                预报模型的准确率影响并不明显, 也不影响模型的
               算法预测当前和未来 1 h 低能见度的 ROC 曲线(图                      误报率, 但可以减少模型的漏报率。
               1), 两种算法模型性能基本相同, AUC均为0. 98。                         表 5 是特征筛选前后 LightGBM 和 XGBoost 两
                   为进一步对比四个模型在特征筛选前后对于                           种机器学习算法对未来 1 h 低能见度的预测效果。
               当前和未来 1 h 低能见度的预测效果,表 4 和表 5 列                    四个模型的准确率在0. 92及以上, F1_score在0. 89

               出了最佳参数模型预测当前和未来 1 h 低能见度的                         及以上, 模型综合性能良好, 模型预测低能见度的
               预测评估指标值,表中 0 和 1 为分类标签,0 表示非                      精确率和召回率均在 0. 87 及以上, 误报和漏报较
               低能见度类别,1 表示低能见度类别,ln 表示学习率                        少。对于未来 1 h 低能见度的预报, 特征筛选后模
               learning_rate,n 表示基学习器数量 n_estimators。由           型的 F1_score 均有增加, 说明在现有特征下, 剔除
               表 4 可知,四个模型预测当前低能见度的准确率均                          相关性高的特征可以提高两种算法模型预测未来
               为 0. 93,  其 中 LightGBM_24_0h 模 型 F1_score 为       1 h 低能见度的综合性能, 且 XGBoost 算法模型比
               0. 92, 在四个模型中综合性能最好, 且准确率、 精                      LightGBM 算法模型提高程度大, 尤其精确率的提
               确率和召回率也最高。可见, 在预报当前是否会出                           高最明显, 增加了 0. 03, 表明特征筛选有利于减少
               现低能见度时, 使用 LightGBM_24 进行训练, 建立                   模型误报。而 XGBoost算法模型比 LightGBM 算法
               的模型性能最优, 误报率和漏报率最低, 但特征筛                          模型提高程度大可能与本文样本量和特征数量少
               选前后, 同一种算法模型的准确率、 精确率不变,                          有关, 也可能与 LightGBM 算法使用了独占特征绑
   184   185   186   187   188   189   190   191   192   193   194