Page 76 - 《高原气象》2026年第2期
P. 76

高     原      气     象                                 45 卷
              376
                                                               (Sentinel-3A/3B)对青海湖的水位变化的监测成果。
                                                                研究显示, 不同高度计的数据在青海湖的监测结果
                                                                较为一致, 融合后的水位数据均方根误差(Root
                                                                Mean Square Error, RMSE)为 0. 204 m, 与地面观测
                                                                数据的相关系数为 0. 941 (Ma et al, 2024)。时间跨
                                                                度为1959年1月至2017年12月。
                                                                    大气数据来源于高分辨率欧洲中期天气预报
                                                                中心第五代再分析数据集(ECMWF Reanalysis 5th
                                                                Generation, ERA5)。该数据集涵盖了从 1000 hPa
                   图2 1959 -2017年青海湖年平均水位过程线
                   Fig. 2 Annual mean water level process line of   到 50 hPa 之间的 20 个气压层, 包含了一系列标准
                         Qinghai Lake from 1959 to 2017         大气变量。表 1概述了用于特征选择的大气变量和
                                                                地表变量(参见表 2的符号列表)。并选择美国国家
             2. 2 数据来源
                                                                海 洋 和 大 气 管 理 局(National  Oceanic  and Atmo‐
                  青海湖水位月均数据源自青海省水文气象部
                                                                spheric Administration, NOAA)气候预测中心下载
             门的长期观测记录, 并结合多种高度计冰云与陆地                            的 NAO、 AMO、 太平洋 10 年涛动(Pacific Decadal
             高程卫星(ICESat/-2)、 冰雪卫星(CryoSat-2)、 杰森               Oscillation,  PDO)和 尼 诺 3. 4 区 海 表 温 度 异 常
             系列海洋高度计卫星(Jason-1/2/3)及哨兵三号卫星                     (Niño 3. 4)气候指数作为额外的输入变量。

                                              表1  再分析数据的大气和表面变量概述
                                Table 1  Overview of atmospheric and surface variables from reanalysis data
               数据     时间范围       空间分辨率     时间分辨率       气压层         大气变量                   地表变量
              ERA5   1959 -2017年  0. 25°×0. 25°  1 h  50~1000 hPa  RH, T, U, V, W  Cloud, Precip, SLP, SW, t2m, td2m, LW


                  表2  再分析数据的大气和表面变量的符号列表                        位数并除以四分位间距(第 25~75个百分位数)的标
                  Table 2  Symbol list of atmospheric and surface   准化方法。该方法能有效保留数据的异常值信息
                      variables derived from reanalysis data
                                                                并降低其对整体数据分布的影响, 生成的标准化数
               符号          变量名称          符号      变量名称           据具有中位数为 0、 标准差为 1 的特性。对于水位
               Cloud        云量            SW    入射短波辐射          数据, 通过减去最小值并除以极差的方法, 将输入
               td2m  表面以上2 m处的露点温度         T       气温           与目标数据统一缩放到 0~1 的区间内, 有效提升模
               LW        出射长波辐射           t2m  空气温度2 m以上        型计算效率, 并保持数据原始分布特征。
               Precip       降水            U        东风           3. 2 模型构建
               RH          相对湿度           V        北风
                                                                    基准模型采用 MLR, 其描述了因变量和自变
               SLP      平均海平面气压           W      垂直风速
                                                                量之间的线性关系, 并使用了与现有研究相同的
                                                                MLR算法(Kadam et al, 2019)。RF由多个回归树组
              3  研究方法
                                                                成, 通过集成方式实现非线性数据的预测, 并可提
             3. 1 数据处理                                          供变量重要性排序(Pedregosa et al, 2012)。SVM通
                  为了合理划分数据集, 1959 -2001 年的数据用                   过核函数映射非线性关系, 构建超平面优化模型的
             于训练, 2002 -2006 年作为交叉验证集以防止过拟                      拟合效果(Cortes and Vapnik, 1995)。多层感知机
             合, 而 2007 -2017 年则用于测试。首先使用 RF 算                  (Multi-layer perceptron, MLP) 作为一种前馈神经网
             法进行特征选择, 确定适用于所有机器学习和基准                            络, 通过多层结构与激活函数捕捉复杂非线性关
             模型的统一输入变量。通过对数据的特征筛选, 提                            系, 权重通过反向传播算法优化(Singh et al, 2012;
             取了前 50 个对水位变化具有重要性的特征, 按数                          Ghorbani et al, 2018)。LSTM 专门用于处理时间序
             量划分为五组特征子集(分别为前 10、 20、 30、 40、                    列数据, 利用遗忘门、 输入门和输出门能有效捕捉
             50个特征), 用于模型性能的逐级比较分析。                             长期依赖关系, 数据输入结构需调整为三维格式以
                  在数据预处理中, 针对大气数据采用了去除中                         适应模型需求(Hochreiter and Schmidhuber, 1997)。
   71   72   73   74   75   76   77   78   79   80   81