Page 194 - 《软件学报》2020年第11期
P. 194
3510 Journal of Software 软件学报 Vol.31, No.11, November 2020
快速地学习β的岭回归问题 [16,17] .
⎛ 1 N 2 ⎞
min ⎜ β 2 + C ∑ ξ i ⎟
⎝ 2 i= 1 ⎠ (14)
g x θ
s.t. ( ( , ),( ,θ 1 g x i 2 ),...,( ,θ g x i N ))β T =+ ξ i ,i = 1,2,..., N
t
i
i
参数向量β的解析解 β 可写出 [16,17] :
β T = T ⎛ ⎜ HH T + H 1 I NN ⎟ × ⎞ − 1 T (15)
⎝ 2C ⎠
T
,
其中, H = [H H 2 ,..., H N ] ,H i = [ ( , ), ( ,g x θ i 1 g x θ i 2 ),..., ( ,g x θ i N )] ,I N×N 是 N×N 单位矩阵 [16,17] .对于 LLM 而言,更多地
1
是考虑输出层的参数,而不是隐含层和输出层的所有训练参数.这是和其他神经网络不同的.另外,ELM 和 LLM
的实现方法类似,限于文章篇幅,这里不过多地阐述 ELM 的实现过程.更多关于 ELM 的实现细节参见文献[14].
还有一点,这里介绍 LLM 是为了和 ELM 进行时间复杂度的对比分析.另外,本文重点针对样本点数不是非常大、
特征数也不是非常多的样本开展,因此采用 ELM 快速训练 H-TSK-FS 中的每个 TSK 模糊分类器.
2 多模块 TSK 模糊分类器 H-TSK-FS
在本研究中,通过部分原始样本特征信息与已有训练模型的部分输出实现一种训练空间重构手段,开发了
一种多模块 TSK 模糊分类器,以实现增强分类性能和可解释性.该分类器是由以下几个因素综合分析得到的.
(1) 我们知道,样本点和输入特征的选择同等重要.至于抽取哪些训练样本,哪些样本中的训练特征确实
是一件很难的事.如果选择的样本点较为重要,则可能保持原有的分类性能,甚至提高分类性能;反之,
则会降低分类性能.同样地,选取重要的特征势必也会对最终的分类性能产生影响.对于 TSK 模糊分
类器,我们完全可以通过减少训练样本、减少训练特征、生成短模糊规则来提高分类性能和增强模
糊系统的可解释性.可是,输入样本点、训练特征一旦发生变化,模糊系统整个性能就随之发生改变.
因此,采用随机抽取样本点,随机抽取训练特征也是一种提高模糊系统可解释性的手段.
(2) 与传统层次模糊系统不同,H-TSK-FS 每个中间层的模糊规则的输出、中间层的输出都是可解释的.
对单个训练模块而已,随机选取原样本中的部分训练样本点进行训练,这种做法的目的是尽量使训练
部分样本点也可以获得较好的分类效果.当然,样本数如果过少,可能也会影响训练集的结构.这种情
形就会降低分类器的分类性能.因此,样本数的选择至关重要.另外,多层训练结构中,前层的训练结果
对后层的训练也非常重要.换句话说,输入特征的信息会同时出现在前后层的模糊规则中,因此,也增
加了层次模糊系统的复杂程度.但是,前层的训练信息对后层的训练也会存在一定的借鉴作用.所以,
本研究采用将前一层可解释的模糊输出的部分信息直接投影到后一层的某一训练特征中.同时,原始
空间特征信息又被投影到新的训练模型中.这样,通过双层特征融合机制,既保证了模糊系统良好的
分类性能,也使得模糊规则和输出具有可解释性.
(3) 近年来,深度神经网络由于能够捕获相关的高层抽象特征,因此成为了研究热点.本研究构造的多层
结构可以看作是深度神经网络的一种变体,层内和层间的实现手段则和传统深度结构明显不同.这种
训练结构既考虑了前层训练的结果对后层训练的影响,也可以避免求解大多数学习方法必须解决的
困难和非凸优化问题.还有一点,H-TSK-FS 每个训练模块都是独立训练.另外,当训练样本数不是特别
大时,可以采用极限学习机来提高每个训练模块的学习能力;由于本研究所考虑的对象主要不是大样
本数据的分类任务,所以采用极限学习机获取学习模型的解和合理的.
2.1 H-TSK-FS结构
根据已有的栈式结构原理,我们提出的分层模糊分类器 H-TSK-FS 由多个训练模块组合而成.每个训练模
块实质上是一种特殊的零阶 TSK 模糊分类器.下面介绍每个训练模块的结构,如图 2 所示.