Page 200 - 《软件学报》2020年第11期
P. 200

3516                                Journal of Software  软件学报 Vol.31, No.11, November 2020


                             Table  4    Training & testing accuracies of H-TSK-FS after several feature-fusions   (%)
                                     表 4   多次融合特征后 H-TSK-FS 的训练精度和测试精度                              (%)
                                  The 1st feature-fusion   The 2nd feature-fusion   The 3rd feature-fusion
                     Datasets
                                 Training    Testing     Training     Testing     Training     Testing
                      MUS       92.52 (2.65)   89.65    93.85 (2.01)   90.41     94.88 (2.32)   91.50
                      SKI       91.50 (0.99)   89.67    92.56 (1.04)   90.75     94.71 (1.21)   93.27
                      HAY       81.09 (0.98)   77.80    83.96 (1.22)   81.77     83.14 (1.52)   80.94
                      HAP       48.95 (2.62)   47.85    50.92 (2.12)   47.98     51.88 (3.45)   50.41
                      KDD       56.85 (2.52)   55.64    59.82 (2.15)   54.87     59.41 (0.99)   57.45
                                  The 4th feature-fusion   The 5th feature-fusion   The 6th feature-fusion
                     Datasets
                                 Training    Testing     Training     Testing     Training     Testing
                      MUS       94.02 (1.19)   90.58    95.96 (5.26)   95.48        −            −
                      SKI          −           −           −            −           −            −
                      HAY       85.94 (1.62)  76.58        −            −           −            −
                      HAP          −           −           −            −           −            −
                      KDD       60.86 (2.10)  59.38        −            −           −            −
                    根据表 5 可以发现,H-TSK-FS 比一阶 TSK 模糊分类器运行更快,但比零阶 TSK 模糊分类器慢.

                             Table  5    Training & testing time of H-TSK-FS after several feature-enhancements   (s)
                                     表 5   多次融合特征后 H-TSK-FS 的训练时间和测试时间                               (s)
                                  The 1st feature-fusion   The 2nd feature-fusion   The 3rd feature-fusion
                     Datasets
                                  Training    Testing     Training    Testing     Training     Testing
                      MUS       42.59 (2.36)   0.01     45.85 (2.12)   0.02      47.89 (2.55)   0.02
                      SKI      1.5e+04 (11.52)   51.62   1.9e+04 (12.50)   52.69   2.2e+04 (10.56)   53.62
                      HAY         0.05 (0)      0         0.07 (0)      0          0.09 (0)      0
                      HAP       966.92 (52.63)   1.20   1 025.63 (45.61)   1.92   1256.92 (46.52)   2.11
                      KDD      2.9e+04 (117.50)   956.84   3.0e+04 (121.62)   1 011.59   3.5e+04 (117.81)   1 295.51
                                  The 4th feature-fusion   The 5th feature-fusion   The 6th feature-fusion
                     Datasets
                                  Training    Testing     Training    Testing     Training     Testing
                      MUS       49.51 (2.51)   0.02     60.28 (2.10)   0.02          −           −
                      SKI           −           −           −           −            −           −
                      HAY         0.11 (0)      0           −           −            −           −
                      HAP           −           −           −           −            −           −
                      KDD      3.6e+04 (118.52)   1 302.58   −          −            −           −
                    通常,H-TSK-FS 的训练时间和测试时间随着融合操作数量的增多而不断增加.已有实验结果可以表
                 明,H-TSK-FS 对于二分类/多分类任务来说是一个理想选择.然而,由于融合特征数对分类准确性的影响较大,因
                 此,如何为每个数据集上的 H-TSK-FS 确定适当数量的融合特征,仍然是未来一个有趣的研究课题.
                 3.2   关于现实世界的案例:Bank-Marketing数据集
                    本小节使用 Bank-Marketing 数据集     [19,20] 进一步说明 H-TSK-FS 的分类性能和可解释性,它由 22 881 个样
                 本点组成,这些样本点均按照从 2008 年 5 月~2010 年 11 月的先后顺序分别记录数据.本数据集共有 16 个特征,
                 分别表示为 F_1,F_2,…,F_16.
                    本小节所有实验组织、参数设置和上述相同.在本实验模糊规则设定范围为 20~200.由于 H-TSK-FS 的可
                 解释性包括 H-TSK-FS 的相应结构和模糊规则.根据实验,对于 Bank-Marketing 数据集,H-TSK-FS 在该数据集上
                 的精度为 90.54%.3 个对比实验的精度、运行时间的实验结果总结在表 6 和表 7 中,其中,“−”表示不可接受的时
                 间(比如,运行超过 4h).

                            Table 6    Accuracies and number of fuzzy rules obtained for Bank-Marketing dataset
                                    表 6   对于 Bank-Marketing 数据集获得的精度和模糊规则数
                       Zero-order TSK fuzzy classifier   First-order TSK fuzzy classifier   H-TSK-FS
                     Rules   Training (%)   Testing (%)   Rules  Training (%)  Testing (%)  Rules  Training (%)   Testing (%)
                      150  88.64 (0.37)  87.96   120   88.93 (0.25)  88.01   85   90.54 (1.20)   85.67
   195   196   197   198   199   200   201   202   203   204   205