Page 76 - 《软件学报》2020年第12期
P. 76

3742                                Journal of Software  软件学报 Vol.31, No.12, December 2020

                    g    to 0
             41:      End If
             42: End for
             43: Until termination criterion met

         3    实验结果与分析

             在实验中,我们使用公开的机器学习工具包 scikit-learn.编程语言为 python.实验电脑的配置是 Intel Core i7
         CPU(3.60GHz),8G 内存;使用显卡为 NVIDIA GeForce GTX 1050.

         3.1   数据集
             我们在 16 个 UCI 公开数据集上对 MCC-NES 算法的性能予以测试,涵盖了 6 个小维数据集(Glass,Heart,
         Cleveland,Wine,Vehicle,Segmentatin)、2 个中维数据集(Ionosphere,Dermatology)和 8 个高维数据集(Spambase,
         Sonar,Musk2,LSVT,SRBCT,Arcene,RNA-Seq,Dorothea).根据文献[42],如果数据集中的特征数量是[0,19],[20,
         49],[50,∞],那么对应数据集的规模分别是小维数据集、中维数据集、高维数据集.关于数据集的具体信息由表 1
         给出.
                                 Table 1    Specific information of the selected datasets
                                            表 1   数据集详细信息
                                     Dataset      Feature  Instance  Class
                                      Glass         9       214       7
                                      Heart        13       270       2
                                    Cleveland      13       303       5
                                      Wine         13       178       3
                                     Vehicle       18       846       4
                                    Segmentatin    19      2 310      7
                                    Ionosphere     34       351       2
                                   Dermatology     34       366       6
                                    Spambase       57      4 061      2
                                      Sonar        60       208       2
                                     Musk2         166     6 598      2
                                     LSVT          310      126       2
                                     SRBCT        2 308     63        4
                                     Arcene       10 000    200       2
                                    RNA-Seq       20 531    801       5
                                     Dorothea     100 000   800       2

             根据对比算法,我们对每个数据集的划分采用 70%作为训练集 30%作为测试集、10-折交叉验证、2-折交
         叉验证这 3 种方式.测试集的分类准确率 CA(classification accuracy)和维度缩减能力 DR(dimensionality
         reduction)作为 MCC-NES 算法及对比算法的评价准则.分类准确率的具体定义如公式(14),其中,N_CC(number
         of correct classification)是正确分类的实例数,N_AS(number of all samples)是数据集实例总数;维度缩减率的定
         义如公式(15),其中,N_SF(number of selected features)是被选择的特征数,N_AF(number of all features)是数据集
         的特征总数:
                                             CA=N_CC/N_AS                                    (14)
                                            DR=1−(N_SF/N_AF)                                 (15)

         3.2   对比算法和参数设置
             将提出的 MCC-NES 算法与其他的经典算法进行比较,这些算法的具体信息由表 2 给出.
   71   72   73   74   75   76   77   78   79   80   81