Page 329 - 《软件学报》2024年第6期
P. 329
龙茂森 等: 特征扩展的随机向量函数链神经网络 2905
据进行模糊推理. 而经过 ELM-AE 映射后的特征节点含义不明确. 因此, 随着 BL-DFIS 使用的模糊规则数的增多,
其可解释性会受到不利影响 (这种情况在某些大型复杂的数据集上表现得更为明显), 减少 BL-DFIS 的模糊规则
数量显得尤为重要.
(2) 已有的研究表明 RVFLNN 在解决分类 [21] 、回归 [22] 、时间序列预测 [23] 、视觉跟踪 [7] 的任务上都可从直接
链接获益. 文献 [21−23] 也说明直接链接对 RVFLNN 的识别准确性起着重要的增强作用, 虽然 BL-DFIS 由 RVFLNN
发展而来, 但它缺少从输入到输出的直接链接. 此外, 文献 [24] 证明在增强节点数不受限时, RVFLNN 是有界有限
维集合上连续函数的通用逼近器, 因而增强节点对 RVFLNN 也有重要的作用.
(3) “黑盒性质”是人工神经网络 (ANN) 的显著弱点, ANN 既无法将网络参数合理地解释为其所学的知识, 也
让人们难以直观地理解它如何在内部做出决策. 然而, 基于神经网络和模糊规则系统 (FRBS) 的等价性 [25,26] ,
Benitez 等人定义了一种模糊逻辑算子 (interactive-OR, I-OR), 用模糊规则描述了具有 Sigmoid 激活函数的 ANN
的推理过程 [27] , 加性 TS 多层感知机 (ATSMLP) [28] 和级联 ATSMLP (CATSMLP) [29] 也与之类似. 借助文献 [27−29]
的相关理论也可说明具有 Sigmoid 激活函数的 RVFLNN 仍然可解释. 但是, 当需要拟合的数据集过于复杂时, 这种
RVFLNN 会生成较多增强节点从而引起“规则爆炸”现象.
H 1 = φ(XB+d)
对此, 我们设计出一种 RVFLNN 与 BLS 的混合模型 FA-RVFLNN, 在该模型中, 一个以原始数据为输入且具
有 Sigmoid 激活函数的 RVFLNN 被作为主体结构, 这使得 FA-RVFLNN 不仅可解释, 而且拥有性能增强作用的直
接链接. 具有明确含义的原始数据既有利于模型挖掘原始输入空间中有价值的信息, 也对主体结构中规则解释起
到帮助. 而性能表现良好的 BL-DFIS 被用作 FA-RVFLNN 的补充结构. 本文主要贡献可概括为以下几点.
(1) 更少的规则数: 一方面, FA-RVFLNN 利用主体结构 (RVFLNN) 提取到数据的主干特征后, 在试图达到令
人满意的性能时, 可减少其补充结构 (BL-DFIS) 中使用的规则数. 另一方面, 在性能良好的补充结构的加持下, FA-
RVFLNN 可大幅减少其主体结构的规则数, 进而缓解 RVFLNN 的“规则爆炸”问题.
(2) 丰富的特征信息: FA-RVFLNN 利用 BL-DFIS 充当特征扩展, 为输出层提供了输入节点、增强节点、特征
节点、模糊节点这 4 类特征, 这种多层次的特征信息可在一定程度上增强系统的分类性能.
(3) 灵活的结构调整: 在实际应用中, 当分类任务从简单到复杂时, FA-RVFLNN 在直接链接这种简单线性模
型的支撑下, 可依次调整增强节点、特征节点和模糊节点实现由简到繁的特征表示, 以灵活应对.
(4) 实验结果表明: FA-RVFLNN 能够在分类性能与 BL-DFIS、RVFLNN 相近时, 使用更少的模糊规则 (模糊
节点或增强节点), 在网络规模上仍具有一定的竞争优势, 是一种兼顾性能和可解释性的模型.
本文第 1 节简要介绍相关理论, 包括 RVFLNN、BLS、ANN 与 FRBS 的功能等价性. 第 2 节详细描述特征扩
展的随机向量函数链神经网络 (FA-RVFLNN) 及其学习方法. 第 3 节进行实验评估及分析. 第 4 节总结全文.
1 相关工作
1.1 随机向量函数链神经网络
随机向量函数链神经网络 (RVFLNN) [1,2] 的结构如图 1 所示. 假设输入数据为 X = [x 1 , x 2 ,..., x N ] ∈ R N×m , 其中,
T
1
1
1
1
1
1 T
N、m 分别是输入数据的样本数和特征数. 增强层的输出可表示为 H 1 = [h ,h ,...,h ] ∈ R N×S , 其中, h = [h ,h ,
1 2 N j j,1 j,2
1
...,h ], j = 1,2,...,N , H 1 可用下式计算:
j,S
(1)
φ(·) 是激活函数, 如 Sigmoid、Gaussian B ∈ R m×S d ∈ R 1×S 是输入层与增强层之间随机生成的连接权值
其中, 等. ,
与偏置, S 是增强层的节点数. 那么 RVFLNN 的输出 Y 为:
Y = [X|H 1 ]β = Hβ (2)
其中, H = [X|H 1 ] ∈ R N×(m+S ) 是扩展输入矢量, β ∈ R (m+S )×c 是连接输出层的权值.
对于 RVFLNN 的训练, 设样本标签为 T = [t 1 ,t 2 ,...,t N ] ∈ R N×c , c 是样本类别数, 可解析计算权值 β = H T , 其
T
+
中, H 右上角的+表示 Moore-Penrose 伪逆运算. 在计算 β 时, 可加入正则项 C 以避免过拟合 [4] :