Page 199 - 《软件学报》2020年第11期
P. 199
周塔 等:基于训练空间重构的多模块 TSK 模糊系统 3515
1;HAP 数据集的间隔为 5~20,步长为 1;KDD 数据集的间隔为 500~1 500,步长为 50.
由于在输入特征和模糊隶属函数选择过程中均使用了随机策略,那么就意味着 H-TSK-FS 存在多种构成训
练集的方法.为了简便地描述其实现过程,本研究选择其中的一种组合进行实验,同时通过相应的结构和模糊规
则展现 H-TSK-FS 的可解释性.比如,本研究在 5 个数据集上报告了最佳精度分别为 95.96%,94.71%,85.94%,
51.88%和 60.86%,相应的结构分别是 3-2-2-2,300-100-25,3-2-2-2,7-3-2 和 500-300-50.
保持每个数据集的训练模块数不变,本研究通过稍微改变每个训练模块中的模糊规则数来观察 H-TSK-FS
的分类性能.表 2 和表 3 中的“均值(标准差)”表示多次实验的结果.不难发现,对于 5 个数据集,H-TSK-FS 比零阶
和一阶 TSK 模糊分类器的性能要好,分别达到 95.96%,94.71%,85.94%,51.88%和 60.86%的最佳平均训练精度.
从表 2 中可以看出,H-TSK-FS 分类性能是最好的.从训练精度/测试精度来看,H-TSK-FS 表明了在选用的 5 个数
据集上证明它优于其他分类器.另一方面,从平均训练精度和测试精度来看,H-TSK-FS 在 5 个数据集上赢了一
阶 TSK 模糊分类器,但是低于零阶 TSK 模糊分类器.此外,在大多数情况下,H-TSK-FS 的测试精度优于零阶和一
阶 TSK 模糊分类器.这也意味着 H-TSK-FS 具有良好的泛化性能.
Table 2 Fuzzy rules and classification accuracies
表 2 模糊规则和分类准确率
FURIA C4.5 H-TSK-FS
Dataset
Rules Training (%) Testing (%) Rules Training (%) Testing (%) Rules Training (%) Testing (%)
MUS 10.50 94.85 (0) 93.58 (0) − 95.11 (0.01) 95.03 (0) 9.00 95.96 (5.26) 95.48 (2.23)
SKI 450.00 94.59 (0) 92.83 (0) − 93.99 (0) 93.04 (0) 425.00 94.71 (1.21) 93.27 (2.12)
HAY 4.00 86.25 (0) 77.50 (0.01) − 85.90 (0) 84.05 (0) 3.75 85.94 (1.62) 76.58 (2.81)
HAP 15.50 50.42 (0.02) 48.73 (0.05) − 49.52 (0.01) 49.05 (0.01) 12.75 51.88 (3.45) 50.41 (2.85)
KDD 1200.75 59.62 (0) 57.83 (0) − 58.76 (0.01) 57.89 (0.01) 945.75 60.86 (2.99) 59.38 (3.72)
Mean 336.15 77.15 (0) 74.09 (0.0.1) − 76.66 (0.01) 75.81 (0) 279.25 77.87 (2.91) 75.02 (2.75)
Table 3 Average training time and test time of the 5 classifiers
表 3 5 个分类器的平均训练时间和测试时间
Zero-order TSK First-order TSK FURIA C4.5 H-TSK-FS
Datasets fuzzy classifier fuzzy classifier
Training Testing Training Testing Training Testing Training Testing Training Testing
MUS 48.01 (0.09) 0.06 64.52 (1.97) 0.27 − − − − 57.51 (12.77) 0.22
SKI 946.59 (75.61) 54.60 2.5e+04 (69.29) 75.74 − − − − 2.1e+04 (12.53) 69.21
HAY 0.09 (0) 0 0.62 (0.02) 0.01 − − − − 0.11 (0) 0
HAP 922.59 (10.77) 0.91 1 231.45 (98.56) 1.72 − − − − 1 207.43 (78.77) 1.55
KDD 5.6e+04 (345.62) 69.52 8.8e+04 (596.85) 77.95 − − − − 3.4e+04 (123.59) 1 285.90
Mean 11 583.46 (86.42) 1.09 22 859.32 (10.69) 31.14 − − − − 11 253.01 (45.53) 271.38
接下来,研究 H-TSK-FS 随着特征融合数量的变化而发生的性能变化.表 4 列出了每个数据集多次实验的训
练精度和测试精度.实验结果表明,在大多数情况下,H-TSK-FS 可通过特征融合实现较好的分类性能.下面将报
道更多关于融合特征的实验结果.例如,HAP 数据集中有 561 个特征.通过第 1 次融合,H-TSK-FS 分别获得了
47.92%,45.85%的训练和测试精度.由于一阶 TSK 模糊分类器得到精度是 48.49%高于 47.92%,并且大于零阶
TSK 模糊分类器相应的精度 43.51%,因此,可以考虑第 2 次融合操作.H-TSK-FS 分别获得了 51.29%和 49.81%
的训练精度和测试精度.由于 51.29%大于 48.49%,H-TSK-FS 继续考虑第 3 次融合,从而分别获得 51.88%和
50.41%的训练精度和测试精度,这意味着经过 3 次融合特征操作后 H-TSK-FS 的训练精度没有明显提高.此
时,H-TSK-FS 比零阶和一阶 TSK 模糊分类器具有明显的优越性.对于 HAY 数据集,首先进行第 1 次融合,
H-TSK-FS 获得的训练和测试精度与一阶 TSK 模糊分类器都非常接近,但优于一阶 TSK 模糊分类器.因
此,H-TSK-FS 继续进行第 2 次融合操作,且获得比零阶和一阶 TSK 模糊分类器更好的训练精度和测试精度.然
而,当 H-TSK-FS 实现第 3 次、第 4 次融合操作后,所获得的训练和测试精度保持基本不变.在这种情况下,我们
不会执行更多的融合操作.