Page 162 - 《软件学报》2025年第9期
P. 162

李文艺 等: 增量构造式随机循环神经网络                                                            4073


                 点之间存在耦合, 隐含层状态在时间上存在前后依赖, 因此与前馈神经网络相比, RNN                         的参数学习更加复杂、耗
                 时. Horn  等人  [6] 指出在  RNN  的误差平面上存在更多的伪极小值, 从而使          RNN  的参数学习更容易陷入局部最优.
                 鉴于  RNN  对时序数据处理能力强、应用范围广, 进一步研究                RNN  模型的构造方法及其学习方法有重要理论与
                 实践意义.
                    RNN  的典型学习方法有沿时间反向传播             (back propagation through time, BPTT) 算法  [7] , 实时循环学习  (real-
                 time recurrent learning, RTRL) 算法  [8] , 卡尔曼滤波  (Kalman filter, KF) 方法等  [9,10] . BPTT  算法沿时间反向传递每一
                 时刻的误差梯度, 然后用误差梯度更新网络参数. RTRL               算法首先利用前向传播计算梯度, 再利用梯度信息更新网
                 络参数. 由于   BPTT  算法利用了所有时刻的梯度信息, 因此占用存储空间大, 且算法存在长程依赖问题. RTRL                         算
                 法仅保留当前的梯度信息, 空间复杂度小, 但是参数更新频繁, 计算量偏大. KF                     方法是把   RNN  视为一个动态系统
                 输入与内部状态的函数, 其模型参数作为系统状态, 从而采用状态估计方法来配置                         RNN  参数.
                    当前  RNN  在网络拓扑结构有诸多改进          [11] . 文献  [12] 提出了一种对角循环神经网络      (diagonal RNN, DRNN),
                 其仅保留了    RNN  中每个隐含节点到自身的反馈连接权重, 删除了隐含节点之间的相互连接权重, 通过结构简化,
                 减少了模型参数, 实现了网络的轻量化. 为捕获更长间隔的信息依赖关系, 长短期记忆                           (long short-term memory,
                 LSTM) 网络与门控循环单元       (gated recurrent unit, GRU) 网络  [13,14] 及其改进结构, 例如时空  LSTM (spatio-temporal
                 LSTM, ST-LSTM) [15] 、双向  LSTM (bi-directional LSTM, Bi-LSTM) [16] 、变门  GRU (variant GRU) [17] 等被相继提出.
                 LSTM  是将内部存储状态与门控机制嵌入到             RNN  中, 从而可控制内部信息的存贮与传递过程. GRU             是  LSTM  的
                 简化版本, 其仅考虑引入门控机制实现信息传递的有效调控. ST-LSTM                   可实现内部信息沿空间与时间两个维度传
                 递, 从而能够学习空间和时间两个维度上的依赖关系, 在人体姿态识别中取得良好效果                            [15] . Bi-LSTM  是在  LSTM
                 中设置了两个独立的隐含层, 实现了隐含层信息的双向传递, 使得网络既能利用历史信息也能利用未来信息                                    [16] .
                 变门  GRU  通过改变   GRU  的门控信号生成机制, 使得门控信号的产生更加简单, 同时保持了                    GRU  的性能  [17] . 然
                 而, 上述模型在具体应用中通常要使用试凑法来确定网络结构, 用迭代方法训练网络参数, 因此网络学习过程复杂、
                 速度较慢.
                    将随机学习用于神经网络训练是一种提升其学习速度的有效方法                       [18,19] , 并产生了一系列轻量化的机器学习模
                 型, 如随机向量函数链接网络         (random vector functional-link network, RVFLN) [20] , 极限学习机  [21] 等. 上述方法首先
                 随机生成部分模型参数, 其余模型参数采用非迭代优化算法来确定, 其学习速度快. 神经网络的增量式随机学习实
                 现了网络结构与参数的同步配置           [22−26] , 实现了模型结构根据学习任务的自主构建, 其基本思想是逐步向网络中添
                 加随机隐含节点, 直至网络达到某些设定值时停止学习. 该方法既能实现网络结构的增量构造又能实现网络参数
                 的随机学习    [22−26] . 其中, 随机配置网络  (stochastic configuration network, SCN) 是一种最新的增量式随机学
                 习  [23−26] , 其学习过程是: 逐步向网络中添加随机生成的、且满足一定约束条件的隐含节点, 并实时优化新增模型
                 参数, 直到网络残差达到期望要求时学习停止. 由于               SCN  引入了随机参数约束机制, 有效保证了网络的万能逼近
                 能力. 目前针对不同的应用环境, SCN         衍生出了块增量、并行增量等版本            [24−26] .
                    目前, RNN  的随机学习模型主要是回声状态网络              (echo state network, ESN)  [27] , 其采用随机方法生成输入权重
                 与内部反馈权重, 再采用线性回归方法计算输出权重, 避免了耗时的误差梯度反传计算, 实现了                             RNN  参数的快速
                 学习  [28] . 然而, 在实际应用中  ESN  结构的构建问题并没有很好的解决. 针对如何确定               ESN  结构, 当前方法包括剪
                 枝方法  [29−32] 、构造方法  [33] 、构造-剪枝方法  [34] . 文献  [29] 采用粒子群优化方法对  ESN  的输出权重优化, 删除贡献
                 度较小的输出权重. 文献       [30] 把  ESN  隐层输出视为高维特征, 把输出权重的优化问题转化为特征选择问题, 进而
                 实现输出权重的剪枝. 文献        [31] 利用  L1  正则化方法, 实现了   ESN  输出权重的剪枝. 文献      [32] 利用灵敏度分析方
                 法判断子储备池模块的贡献度, 并根据网络规模适应度确定子储备池模块的个数, 删除灵敏度低的子模块. 文
                 献  [33] 提出了生长型回声状态网络        (growing ESN, GESN), 其基本思想是: 每次向    ESN  中添加一个子储备池, 直
                 到  ESN  满足设定值时停止学习. 文献        [34] 提出了一种自组织的      ESN (pseudo-inverse decomposition-based self-
                 organizing modular ESN, PDSM-ESN), 其首先采用生长方法添加子储备池, 然后剪枝掉对泛化性能不利的子储备
                 池, 从而实现隐含节点的自组织. 上述方法在一定程度上解决了                   ESN  的结构学习, 但所得到的       ESN  内部权重连接
   157   158   159   160   161   162   163   164   165   166   167