Page 200 - 《软件学报》2020年第11期
P. 200
3516 Journal of Software 软件学报 Vol.31, No.11, November 2020
Table 4 Training & testing accuracies of H-TSK-FS after several feature-fusions (%)
表 4 多次融合特征后 H-TSK-FS 的训练精度和测试精度 (%)
The 1st feature-fusion The 2nd feature-fusion The 3rd feature-fusion
Datasets
Training Testing Training Testing Training Testing
MUS 92.52 (2.65) 89.65 93.85 (2.01) 90.41 94.88 (2.32) 91.50
SKI 91.50 (0.99) 89.67 92.56 (1.04) 90.75 94.71 (1.21) 93.27
HAY 81.09 (0.98) 77.80 83.96 (1.22) 81.77 83.14 (1.52) 80.94
HAP 48.95 (2.62) 47.85 50.92 (2.12) 47.98 51.88 (3.45) 50.41
KDD 56.85 (2.52) 55.64 59.82 (2.15) 54.87 59.41 (0.99) 57.45
The 4th feature-fusion The 5th feature-fusion The 6th feature-fusion
Datasets
Training Testing Training Testing Training Testing
MUS 94.02 (1.19) 90.58 95.96 (5.26) 95.48 − −
SKI − − − − − −
HAY 85.94 (1.62) 76.58 − − − −
HAP − − − − − −
KDD 60.86 (2.10) 59.38 − − − −
根据表 5 可以发现,H-TSK-FS 比一阶 TSK 模糊分类器运行更快,但比零阶 TSK 模糊分类器慢.
Table 5 Training & testing time of H-TSK-FS after several feature-enhancements (s)
表 5 多次融合特征后 H-TSK-FS 的训练时间和测试时间 (s)
The 1st feature-fusion The 2nd feature-fusion The 3rd feature-fusion
Datasets
Training Testing Training Testing Training Testing
MUS 42.59 (2.36) 0.01 45.85 (2.12) 0.02 47.89 (2.55) 0.02
SKI 1.5e+04 (11.52) 51.62 1.9e+04 (12.50) 52.69 2.2e+04 (10.56) 53.62
HAY 0.05 (0) 0 0.07 (0) 0 0.09 (0) 0
HAP 966.92 (52.63) 1.20 1 025.63 (45.61) 1.92 1256.92 (46.52) 2.11
KDD 2.9e+04 (117.50) 956.84 3.0e+04 (121.62) 1 011.59 3.5e+04 (117.81) 1 295.51
The 4th feature-fusion The 5th feature-fusion The 6th feature-fusion
Datasets
Training Testing Training Testing Training Testing
MUS 49.51 (2.51) 0.02 60.28 (2.10) 0.02 − −
SKI − − − − − −
HAY 0.11 (0) 0 − − − −
HAP − − − − − −
KDD 3.6e+04 (118.52) 1 302.58 − − − −
通常,H-TSK-FS 的训练时间和测试时间随着融合操作数量的增多而不断增加.已有实验结果可以表
明,H-TSK-FS 对于二分类/多分类任务来说是一个理想选择.然而,由于融合特征数对分类准确性的影响较大,因
此,如何为每个数据集上的 H-TSK-FS 确定适当数量的融合特征,仍然是未来一个有趣的研究课题.
3.2 关于现实世界的案例:Bank-Marketing数据集
本小节使用 Bank-Marketing 数据集 [19,20] 进一步说明 H-TSK-FS 的分类性能和可解释性,它由 22 881 个样
本点组成,这些样本点均按照从 2008 年 5 月~2010 年 11 月的先后顺序分别记录数据.本数据集共有 16 个特征,
分别表示为 F_1,F_2,…,F_16.
本小节所有实验组织、参数设置和上述相同.在本实验模糊规则设定范围为 20~200.由于 H-TSK-FS 的可
解释性包括 H-TSK-FS 的相应结构和模糊规则.根据实验,对于 Bank-Marketing 数据集,H-TSK-FS 在该数据集上
的精度为 90.54%.3 个对比实验的精度、运行时间的实验结果总结在表 6 和表 7 中,其中,“−”表示不可接受的时
间(比如,运行超过 4h).
Table 6 Accuracies and number of fuzzy rules obtained for Bank-Marketing dataset
表 6 对于 Bank-Marketing 数据集获得的精度和模糊规则数
Zero-order TSK fuzzy classifier First-order TSK fuzzy classifier H-TSK-FS
Rules Training (%) Testing (%) Rules Training (%) Testing (%) Rules Training (%) Testing (%)
150 88.64 (0.37) 87.96 120 88.93 (0.25) 88.01 85 90.54 (1.20) 85.67