Page 162 - 《软件学报》2025年第9期
P. 162
李文艺 等: 增量构造式随机循环神经网络 4073
点之间存在耦合, 隐含层状态在时间上存在前后依赖, 因此与前馈神经网络相比, RNN 的参数学习更加复杂、耗
时. Horn 等人 [6] 指出在 RNN 的误差平面上存在更多的伪极小值, 从而使 RNN 的参数学习更容易陷入局部最优.
鉴于 RNN 对时序数据处理能力强、应用范围广, 进一步研究 RNN 模型的构造方法及其学习方法有重要理论与
实践意义.
RNN 的典型学习方法有沿时间反向传播 (back propagation through time, BPTT) 算法 [7] , 实时循环学习 (real-
time recurrent learning, RTRL) 算法 [8] , 卡尔曼滤波 (Kalman filter, KF) 方法等 [9,10] . BPTT 算法沿时间反向传递每一
时刻的误差梯度, 然后用误差梯度更新网络参数. RTRL 算法首先利用前向传播计算梯度, 再利用梯度信息更新网
络参数. 由于 BPTT 算法利用了所有时刻的梯度信息, 因此占用存储空间大, 且算法存在长程依赖问题. RTRL 算
法仅保留当前的梯度信息, 空间复杂度小, 但是参数更新频繁, 计算量偏大. KF 方法是把 RNN 视为一个动态系统
输入与内部状态的函数, 其模型参数作为系统状态, 从而采用状态估计方法来配置 RNN 参数.
当前 RNN 在网络拓扑结构有诸多改进 [11] . 文献 [12] 提出了一种对角循环神经网络 (diagonal RNN, DRNN),
其仅保留了 RNN 中每个隐含节点到自身的反馈连接权重, 删除了隐含节点之间的相互连接权重, 通过结构简化,
减少了模型参数, 实现了网络的轻量化. 为捕获更长间隔的信息依赖关系, 长短期记忆 (long short-term memory,
LSTM) 网络与门控循环单元 (gated recurrent unit, GRU) 网络 [13,14] 及其改进结构, 例如时空 LSTM (spatio-temporal
LSTM, ST-LSTM) [15] 、双向 LSTM (bi-directional LSTM, Bi-LSTM) [16] 、变门 GRU (variant GRU) [17] 等被相继提出.
LSTM 是将内部存储状态与门控机制嵌入到 RNN 中, 从而可控制内部信息的存贮与传递过程. GRU 是 LSTM 的
简化版本, 其仅考虑引入门控机制实现信息传递的有效调控. ST-LSTM 可实现内部信息沿空间与时间两个维度传
递, 从而能够学习空间和时间两个维度上的依赖关系, 在人体姿态识别中取得良好效果 [15] . Bi-LSTM 是在 LSTM
中设置了两个独立的隐含层, 实现了隐含层信息的双向传递, 使得网络既能利用历史信息也能利用未来信息 [16] .
变门 GRU 通过改变 GRU 的门控信号生成机制, 使得门控信号的产生更加简单, 同时保持了 GRU 的性能 [17] . 然
而, 上述模型在具体应用中通常要使用试凑法来确定网络结构, 用迭代方法训练网络参数, 因此网络学习过程复杂、
速度较慢.
将随机学习用于神经网络训练是一种提升其学习速度的有效方法 [18,19] , 并产生了一系列轻量化的机器学习模
型, 如随机向量函数链接网络 (random vector functional-link network, RVFLN) [20] , 极限学习机 [21] 等. 上述方法首先
随机生成部分模型参数, 其余模型参数采用非迭代优化算法来确定, 其学习速度快. 神经网络的增量式随机学习实
现了网络结构与参数的同步配置 [22−26] , 实现了模型结构根据学习任务的自主构建, 其基本思想是逐步向网络中添
加随机隐含节点, 直至网络达到某些设定值时停止学习. 该方法既能实现网络结构的增量构造又能实现网络参数
的随机学习 [22−26] . 其中, 随机配置网络 (stochastic configuration network, SCN) 是一种最新的增量式随机学
习 [23−26] , 其学习过程是: 逐步向网络中添加随机生成的、且满足一定约束条件的隐含节点, 并实时优化新增模型
参数, 直到网络残差达到期望要求时学习停止. 由于 SCN 引入了随机参数约束机制, 有效保证了网络的万能逼近
能力. 目前针对不同的应用环境, SCN 衍生出了块增量、并行增量等版本 [24−26] .
目前, RNN 的随机学习模型主要是回声状态网络 (echo state network, ESN) [27] , 其采用随机方法生成输入权重
与内部反馈权重, 再采用线性回归方法计算输出权重, 避免了耗时的误差梯度反传计算, 实现了 RNN 参数的快速
学习 [28] . 然而, 在实际应用中 ESN 结构的构建问题并没有很好的解决. 针对如何确定 ESN 结构, 当前方法包括剪
枝方法 [29−32] 、构造方法 [33] 、构造-剪枝方法 [34] . 文献 [29] 采用粒子群优化方法对 ESN 的输出权重优化, 删除贡献
度较小的输出权重. 文献 [30] 把 ESN 隐层输出视为高维特征, 把输出权重的优化问题转化为特征选择问题, 进而
实现输出权重的剪枝. 文献 [31] 利用 L1 正则化方法, 实现了 ESN 输出权重的剪枝. 文献 [32] 利用灵敏度分析方
法判断子储备池模块的贡献度, 并根据网络规模适应度确定子储备池模块的个数, 删除灵敏度低的子模块. 文
献 [33] 提出了生长型回声状态网络 (growing ESN, GESN), 其基本思想是: 每次向 ESN 中添加一个子储备池, 直
到 ESN 满足设定值时停止学习. 文献 [34] 提出了一种自组织的 ESN (pseudo-inverse decomposition-based self-
organizing modular ESN, PDSM-ESN), 其首先采用生长方法添加子储备池, 然后剪枝掉对泛化性能不利的子储备
池, 从而实现隐含节点的自组织. 上述方法在一定程度上解决了 ESN 的结构学习, 但所得到的 ESN 内部权重连接

