Page 335 - 《软件学报》2024年第6期
P. 335
龙茂森 等: 特征扩展的随机向量函数链神经网络 2911
下面给出 FA-RVFLNN 的三阶段增量学习算法, 该算法可动态地调节增强节点数和模糊扩展单元数, 使得系
统达到较好的分类性能, 其学习过程如算法 1 所示.
算法 1. 三阶段增量学习算法.
X ∈ R N×m T ∈ R N×c ; 增强节点的最大数量 S ma 及其训练阈值 ε 1 ; 模糊扩展单元的最大数
x
输入: 训练数据 ; 训练标签
量 L ma 及其训练阈值 ε 2 ;
x
T L
,
输出: 增强层的参数 B = [b s ,...,b 2 ,b 1 ], d = [d s ,...,d 2 ,d 1 ] ; 特征映射 β ; 模糊层的参数 σ = [σ 1 ,σ 2 ,...,σ s ] D = [D 1 ,
L
,
D 2 ,...,D L ] C = [C 1 ,C 2 ,...,C L ] ; 输出层的连接权值 W S,L .
1. 设置增强节点数 S=1, 模糊扩展单元数 L=1, 当前迭代次数 n=1. // 阶段 1, 初始化网络模型
2. 随机生成权值 B = [b 1 ] 和偏置 d = [d 1 ], 利用公式 (13) 计算增强层的输出 E 1 .
3. 根据公式 (14), 公式 (16) 和公式 (17), 计算特征层的输出 Z M , 再由公式 (25)–公式 (29) 计算模糊扩展单元的输
出 F 1 .
4. 根据公式 (18), 公式 (22) 和公式 (24), 随机生成用于构建第 1 个模糊扩展单元的参数 σ 1 , D 1 , C 1 .
对于上述的三阶段增量学习算法, 在固定最大节点数
5. 计算 FA-RVFLNN 的输出 Y 1 和误差 R 1 :
Y 1 = A 1,1 W 1,1 = [E 1 |X|Z M |F 1 ]W 1,1 , R 1 = ∥ Y 1 −T∥,
其中, W 1, 是初始网络的输出权值, 可通过公式 (28) 算得, ∥·∥ 为 L 范数.
2
1
6. n=n+1.
7. While S< S max and R n–1 < ε 1 // 阶段 2, 增强节点的增量学习
8. 根据公式 (13) 随机生成一组权值 b S+ 和偏置 d S+1 , 计算第 S+1 个增强节点的输出 e S+1 , 更新增强层的参数
1
B=[b S+1 |B], d=[d S+1 |d] 以及特征扩展层的输出 A S+1,L =[e S+1 |A S, L ].
L
9. 计算输出 Y n = A S +1,L W S +1,L 及误差 R n = ∥Y n −T∥ . 其中, W S+1, 可用公式 (32) 和公式 (34) 更新.
10. S = S+1, n = n+1.
11. End while
12. While L< L max and R n–1 < ε 2 // 阶段 3, 模糊节点的增量学习
13. 根据公式 (18), 公式 (22) 和公式 (24), 随机生成第 L+1 个模糊扩展单元的参数 σ L+1 , D L+1 , C L+1 . 再由公式 (25)–
公式 (29) 计算模糊扩展单元的输出 F L+1 , 更新 A S,L+1 =[A S,L |F L+1 ].
1
14. 计算输出 Y n = A S,L+1 W S,L+1 及误差 R n = ∥Y n −T∥ . 其中, W S,L+ 可用公式 (33) 和公式 (34) 更新.
15. L = L+1, n = n+1.
16. End while
在公式 (32)–公式 (34) 中, 我们将增强节点和模糊节点分别添加至特征扩展层 A S, 的左右两侧, 主要考虑到:
L
在增强节点和模糊节点被交替添加到 A S, 之后, 不同类别的特征相对位置不变, 仍然可较容易地从 A S, 中按块区
L
L
分它们, 这为解释 FA-RVFLNN 内部的推理过程以及进行模型的再次预测提供了便利.
S max , L ma 的情况下, 设置的训练阈值 ε 1 , ε 2 应该满足关
x
系 ε 1 ≥ε 2 , 其目的是让 FA-RVFLNN 尽量使用可解释性更好的主体结构, 不得已再增大补充结构的网络规模以提升
分类性能, 这时 FA-RVFLNN 在可解释性和分类性能上都可以表现良好. 此外, 在实验过程中, 为了模型对比的公
平性, 在对 FA-RVFLNN 进行训练时, 我们也用到了文献 [19] 提出的带有内部剪枝和更新机制的动态增量学习算
法 (DILA).
3 实验评估
本节进行一系列对比实验, 采用 UCI [33] 和 KEEL [34] 上的 25 个基准分类数据集 (如表 1) 来评估各模型的性能
表现, 这些数据集与文献 [19] 使用的一致. 实验程序在配备了 Inter i5-8400 2.8 GHz 处理器和 12 GB 内存的桌面