Page 77 - 《高原气象》2026年第2期
P. 77

2 期                        黄嘉雯等:基于机器学习的青海湖水位变化模拟研究                                         377
                   上述每个模型都是针对数据集和任务开发的,                          型复杂性的概念来评估性能随着复杂性的增加而
               且具有一组独特的超参数和输入, 因此使用相对模                           提高的程度(表3)。图3为该方法的流程图。

                                                  表 3  模型特征和复杂性分类概述
                                   Table 3  Overview of model characteristics and complexity classification
                模型    模型类型         模型结构                                超参数                            模型复杂度
                MLR     参数           线性                                 无                              基础(0)
                 RF    非参数      分段线性集成平均           树的数量、 修剪标准(如最大深度或每个节点或叶子的样本数量)                      简单(1)
                SVM    非参数         非线性核                     Epsilon管、 L2正则化、 容差、 核类型、 C                中等(2)
                MLP    非参数       非线性隐藏层          隐藏层数量、 激活函数、 求解器、 L2正则化、 学习率、 迭代次数、 容差                复杂(2)
                LSTM   非参数      非线性LSTM单元             LSTM单元数量、 学习率、 批次大小、 优化器、 训练轮数                   复杂(3)

               3. 3 评估方法                                         的均方误差, 其中修改模型中与第 j 个变量相关联
                   为评估模型性能, 采用四种常用的水文模型评                         的数据被随机混洗或排除。%IncMSE 表示当与第 j
                                                                                                   j
               估指标(Hagen et al, 2021): 皮尔逊相关系数(Pear‐             个变量相关联的数据从原始模型中排除或混洗时
               son Correlation Coefficient, R)、 纳什效率系数(Nash-     MSE的变化率。
               Sutcliffe  Efficiency,  NSE)、  归 一 化 均 方 根 误 差        NAO和 AMO对青海湖水位变化具有明显相关
              (Normalized Root Mean Square Error, NRMSE)和克       性, 其%IncMSE 值分别达到 0. 48 和 0. 22, 而 Niño
               林 - 古 普 塔 效 率 系 数(Kling-Gupta  Efficiency,        3. 4 也超过了 0. 02, 大气环流的远程效应通过调节
               KGE), 具体计算如式(1)~(4)所示。                            降水模式和温湿度条件, 进而影响局地的水文过
                                  n                              程。其次, 降水量(Precip, 0. 05)和气温(T1000, >
                                              )
                                 ∑ (Q obs i  )(Q rec i
                          R =    i = 1                   (1)     0. 02)对湖泊水位有直接影响。另外, 垂直风速
                                 n       n                      (W1000, >0. 02)和长波辐射(LW, >0. 02)以及不
                                       ) 2     ) 2
                                ∑ (Q obs i ∑ (Q rec i
                                i = 1    i = 1                   同层次的相对湿度(RH400、 RH450, >0. 02) 对区
                                  n                              域水汽输送、 凝结以及降水都有重要作用。
                                              ) 2
                                 ∑ (Q rec i  - Q obs i  1        4. 2 不同特征数量下的模型预测结果
                      NRMSE =    i = 1          *  - -----  (2)
                                        n         Q obs              不同特征数量条件下, 各模型的预测性能有明
                                    n                            显差异。当特征数量为前 10 个时[图 5(a)~(e)],
                                                ) 2
                                   ∑ (Q rec i  - Q obs i
                         NSE = 1 -  i = 1                (3)     模 型 性 能 排 序 为 :  LSTM>MLP>RF>SVM>MLR。
                                    n        - -----
                                           - Q obs ) 2           LSTM 的 决 定 系 数(Coefficient  of  Determination,
                                   ∑ (Q obs i
                                   i = 1                2        R)达到 0. 95, 散点分布高度集中, 预测值与观测
                                                                  2
                                                - -----
                                            2
                                )
                                 2
                                         - 1 +
                                                Q rec
               KGE = 1 - ( R - 1 +  ( ) ( )                      值之间具有高度一致性。非线性拟合及时间序列
                            2
                                                    - 1 (4)
                                                - -----
                                     σ Q prec
                                                                 预测能力最强。MLP 次之(R =0. 82), 多层网络结
                                                                                           2
                                                Q obs
                                     σ Q obs
               式中: n 表示样本量; Q rec 为预测值; Q obs 为观测值;              构使其能有效捕捉非线性关系。而 RF和 SVM的 R                   2
               R² 为决定系数; σ 为标准差; 带有上划线的符号表                       分别为 0. 72和 0. 74, 散点分布相对分散, 性能接近
               示算术平均值。                                           但对时间序列特征的动态捕捉能力较弱, MLR 表
                                                                 现最弱 (R =0. 39)。当特征增加到前 20 个时[图 5
                                                                          2
               4  结果分析                                          (f)~(j)], 所有模型性能均有所提升, 其中 LSTM
                                                                                                            2
               4. 1 重要性分析                                        的 R²降至 0. 92, 整体表现仍最优。而 MLP 的 R 从
                   RF 提取了前 50 个重要性特征变量(表 4), 并                   0. 82 提升到 0. 90, 接近 LSTM 的表现。RF 和 SVM
               对这些变量的相对重要性进行了量化分析(图 4),                          的表现变化不大, 分别为 0. 70 和 0. 72。MLR 的性
                                                                              2
               均方误差增加百分比(%IncMSE)是 RF 算法中评估                      能提升有限(R =0. 43)。对于同一模型, 当特征继
               特征重要性的指标, 公式如(5)所示。                               续增加到前 30 甚至前 50 时, 各模型的性能趋于稳
                                                                 定。LSTM 在前 10个特征时表现最好, 特征增加后
                                      MSE j - MSE 0
                          %IncMSE j =                    (5)
                                         MSE 0                   表现反而略有下降。相比之下, MLP在特征增加后
               式中: MSE 和 MSE 分别表示原始模型和修改模型                       表现提升明显, 在 30 个特征时[图 5(k)~(o)]达到
                                j
                         0
   72   73   74   75   76   77   78   79   80   81   82