Page 254 - 《软件学报》2020年第10期
P. 254

3230                                  Journal of Software  软件学报 Vol.31, No.10, October 2020

         性能排名最低,这说明可变长度单词生成算法有助于提升模型分类性能.使用本文定义的鉴别性特征评价统计
         量进行特征选择的变长单词生成模型 TfIdf0.3VLWEA_U 在 65 个数据集上特征字典的平均压缩比优于基于卡
         方统计量的特征选择算法模型(Chi3VLWEA_U 和 Chi3FLWEA_U)压缩比的条件下,分类性能排名更优.这说明,
         本文提出的基于 tf-idf 的特征选择算法与基于卡方统计量的特征选择算法相比,能够更有效地进行特征选择.与
         此同时,从图 5 中我们还可以看出:在相同阈值条件下,结合 Bigrams 语法的特征生成模型 TfIdf0.3VLWEA_B 的
         排名低于模型 TfIdf0.3VLWEA_U,这说明,Bigrams 语法模型不能有效地提升变长特征生成算法的分类性能.因
         此,综合考虑生成特征字典规模和分类模型的运行效率,在接下来的对比实验中,我们的模型中不再采用
         Bigrams 语法进行特征生成.此外,基于动态阈值的特征选择模型 TfIDfDynamicVLWEA_U 在 65 个数据集上的
         性能平均排名第 1,这显示了本文提出的动态阈值设定算法的有效性.从表 4 中我们还可以看出,TfIDfDynamic
         VLWEA_U 在 65 个数据集上的平均精度最高和精度最高的数据集个数最多.因此,在接下来的实验分析中,我们
         使用 TfIDfDynamicVLWEA_U 模型与其他各类模型进行对比,并将其简记为 VLWEA.















                     Fig.5  The classification performance significance analysis and the average rank of
                                the dictionaries built under 6 conditions on 65 datasets
                   图 5  6 种条件下构建的字典在 65 个数据集上的分类性能显著性分析和模型平均排名

         3.3   分类精度比较
             本节我们将本文所提鉴别性特征字典建立模型 VLWEA 分别与基于特征包的模型、1NN 模型、基于
         shapelet 的模型和集成分类模型的分类精度进行对比分析.两个常用的基准 1NN 分类模型为:基于欧式距离的
         1NN(ED1NN)和基于动态时间规整的 1NN(DTW1NN);两个基于 Shapelet 的非集成分类模型包括:快速 Shapelet
         分类(fast Shapelet,简称 FS) [32] 算法和 Grabocka 等人提出的基于启发式 Shapelet 搜索算法的分类(learning
         Shapelets,简称 LS)模型 [33] ;6 种特征包模型为:SAXVSM、BOSS、TSBF、使用 Bigrams 语法进行特征生成的模
         型 WEASEL_B、使用 Unigram 语法进行特征生成的 WEASEL 模型 WEASEL_U 以及 Kate 等人提出的基于
         DTW 距离的特征生成算法(DTW features,简称 DTW_F)        [34] ;3 种集成分类模型包括:Deng 等人提出的基于 11 种
         近邻分类模型的集成分类算法(elastic ensemble,简称 EE)        [35] 、基于 Bostrom 等人提出的 Shapelet 转换表示方法
         建立的集成分类模型(ST)       [16] 和 COTE.模型 WEASEL_B 和 WEASEL_U 的参数设置采用 Schafer 等人提供的代
         码中的默认设置,模型预测精度我们取 5 次实验的平均值(见表 4,其中,C2FB 代表 WEASEL_B,C2FU 代表
                                          [5]
         WEASEL_U),其他模型采用 Bagnall 等人 提供的实验结果.下面我们将本文模型和各类模型在 65 个数据集上
         分别进行对比,并给出了 VLWEA 和对比模型相比在 65 个数据集中的精度高、平、低的数据集个数,例如,
         “30/20/15”表示和对比模型相比,VLWEA 有 30 个更准确,20 个相同,15 个更差.
             首先,我们对 VLWEA 和 6 个 BOP 模型的比较结果进行分析.从图 6 和具体的“高/平/低”对比结果统计可以
         看出,VLWEA 模型与模型 WEASEL_B(35/9/21)、WEASEL_U(41/6/18)、TSBF(48/5/12)、BOSS(35/2/28)、
         SAXVSM(55/2/8)及 DTW_F(51/2/12)相比,分类精度高的数据集个数都是最多的.VLWEA 在不使用 Bigrams 语
         法进行特征生成的条件下,比 WEASEL_B 在更多的数据集上取得更好的分类效果.这再次说明本文可变长度单
   249   250   251   252   253   254   255   256   257   258   259