Page 138 - 《高原气象》2025年第3期
P. 138

高     原      气     象                                 44 卷
              696
             的表现受到一定限制(Sutskevere et al, 2014)。这                态。首先, 遗忘门 f t 负责从先前的细胞状态中过滤
             是因为 LSTM 难以有效捕捉空间位置关系。此外,                          掉不相关的信息, 仅保留相关的信息, 并将其传递
             由于 LSTM 的输入为一维数据, 难以充分反映空间                         给输入门。遗忘门的作用在于筛选出对当前情境
             状态信息。因此, 在处理时空序列数据时, LSTM                          无关的过去信息, 从而保持记忆单元的灵活性。接
             的性能可能并不理想。为了弥补这一缺陷, 基于                             着, 输入门 i t 根据当前的输入信息来添加新的信息
             LSTM 理论, Shi et al (2015b)提出了 ConvLSTM。            到细胞状态中。输入门的操作使得 ConvLSTM 能
             与传统的 LSTM 相比, ConvLSTM 在考虑时空关联                     够灵活地吸收当前时刻的重要信息, 从而适应不同
             性方面表现更出色。它通过引入卷积操作, 使模型                            的输入条件。最后, 输出门 o t 通过对更新后的细胞
             能够更好地捕捉空间特征, 从而提高对时空序列问                            状态应用激活函数 tanh, 并乘以门值, 计算得到隐
             题的建模能力。这使得 ConvLSTM 成为处理时空                         藏状态 H t 。这个过程使得 ConvLSTM 能够有效地
             序列数据的有效选择, 特别是在需要同时考虑时间                            输出经过时间和空间关联调控后的最终结果。输
             和空间关系的场景中表现突出。ConvLSTM 的方                          出门的激活函数和门值的乘法操作起到对细胞状
             程表达式如下:                                            态进行筛选和调控的作用, 确保最终的隐藏状态能
               i t = σ (W xi ∗X t + W hi ∗H t - 1 + W ci ∘ C t - 1 + b i )  够精准地捕捉到输入序列中的关键信息。总之,
               f t = σ (W xf ∗X t + W hf ∗H t - 1 + W cf ∘ C t - 1 + b f )  ConvLSTM 通过遗忘门、 输入门和输出门的联动操
               C t = f t ∘ C t - 1 + i t ∘ tan h(W xc ∗X t + W hc ∗H t - 1 + b c )  作, 实现了对时空序列中状态信息的动态管理和更
               o t = σ (W xo ∗X t + W ho ∗H t - 1 + W co ∘ C t + b o )  新, 为处理具有强时空关联性的问题提供了强大的
               H t = o t tan h(C t )                            建模能力。
                                                        (1)     2. 3 SST-ConvLSTM
                                                                    图 1(a)展示了本文中用于处理时空序列数据
             式中: i t , f t , o t 分别为输入门, 遗忘门和输出门; C t
             为单元状态; H t 为隐藏状态; W 为权重; b 为偏差;                    的神经网络模型结构。为了验证本文所述训练过
             X t 为输入信息的数量; tan h 为一种激活函数双曲正                     程在泛化性能上的提升, 同时保持一定的高精度预
             切函数; ∗表示卷积算子; ∘表示哈达玛乘积。                            测, 本文选择了一个相对简单的网络结构进行实
                  ConvLSTM 中的记忆单元 C t 是该模型的关键                   验。该网络基于 ConvLSTM 架构, 适用于预测和分
             创新, 因为它在时间维度上存储和维护状态信息。                            类任务, 由四个 ConvLSTM2D 层构成, 每个层包含
             记忆单元 C t 的数据流受到三个门的调控, 这三个门                        64个大小为3×3的滤波器。第一层具有特定的输入
             分别是遗忘门 f t 、 输入门 i t 和输出门 o t 。这些门的作               形状, 并在最终层添加了 Conv3D 层, 以确保输出
             用是决定如何通过保留或丢弃信息来更新细胞状                              形状与输入形状相匹配。

















                   图1 ConvLSTM的神经网络示意图(a), ConvLSTM的预测过程(b), 以及SST-ConvLSTM模型的预测过程(c)
                        Fig. 1 Schematics of the neural network of ConvLSTM (a), forecasting process of ConvLSTM (b),
                                     and forecasting process of the proposed SST-ConvLSTM model (c)
                  图 1(b)详细描述了 ConvLSTM 的训练和预测                   33°N, 间隔为 1°, 共生成 10 行; 列索引表示经度,
             过程。在本研究中, ConvLSTM 所需的输入数据需                        从 100°E -108°E, 间隔也为 1°, 共生成 9 列。最终,
             以矩阵形式表示。因此, 需要将原始降水数据转换                            将每日的降水量数据转化为一种标准化的矩阵表
             为矩阵格式。具体来说, 在为每天的日降水量生成                            示形式, 每个矩阵均为 10行 9列。矩阵中的每一个
             一个降水矩阵时, 其中行索引表示纬度, 从 24°N -                       元素精确对应着特定日期在某一纬度和经度位置
   133   134   135   136   137   138   139   140   141   142   143