Page 253 - 《软件学报》2020年第10期
P. 253

张伟  等:一种时间序列鉴别性特征字典构建算法                                                          3229


         DynamicVLWEA 的最大单词长度设为 15.
             此外,由于目前基于 SFA 对时间序列进行符号转换的研究                  [19,23,24] 表明字母表大小设置为 4 时,BOP 模型具
         有更强的鲁棒性.因此,本文将字母表大小固定为 4.


















                       (a)  最大滑动窗口长度                                         (b)  最大单词长度
                 Fig.4    Sensitivity analysis of model TfIDfDynamicVLWEA accuracy to parameters max and maxF
                       图 4   模型 TfIDfDynamicVLWEA 精度对参数 max 和 maxF 的敏感性分析
         3.2   设计方法分析

             我们在表 3 中的 65 个数据集上对本文所提模型中设计的新方法进行分析.主要包括如下 3 个方面.
             (1)  可变单词长度和固定单词长度比较;
             (2)   Bigrams 特征对可变长度特征字典性能的影响;
             (3)  基于 tf-idf 统计量的特征选择算法和基于卡方统计量特征选择算法的比较.
             我们使用符号 VLWEA 表示采用可变长度单词生成算法的特征字典建立模型,FLWEA 表示采用固定长度
         单词生成算法的特征字典建立模型.VLWEA_U、FLWEA_U 分别表示对应模型在特征字典建立过程中只将单
         个单词作为特征,且不对特征进行选择.FLWEA_B、VLWEA_B 分别表示模型在特征字典建立过程中使用
         Bigrams 语法模型进行特征生成,即,将连续的两个单词组成一个新的单词作为特征.符号 Chiδ和 TfIdfδ分别表
         示模型中使用单一阈值的特征选择算法,其中,δ表示使用的阈值.例如,Chi3VLWEA_U 表示模型 VLWEA_U 中
         使用阈值为 3 的卡方统计量进行特征选择,即,保留卡方统计值大于等于 3 的特征.TfIDfDynamicVLWEA 表示
         本文提出的使用动态阈值设定的 VLWEA 模型,其中加权因子θ统一取为 3.我们使用的对比模型包括:不利用
         Bigrams 语法进行特征生成,只利用可变长度单词或固定长度单词组成的特征字典建立模型 VLWEA_U 和
         FLWEA_U,结合不同特征选择算法和不同阈值的模型 Chi3FLWEA_U、Chi3VLWEA_U、TfIdf0.3VLWEA_U、
         TfIdf0.3VLWEA_B 和 TfIDfDynamicVLWEA_U.实验中,上述所有 VLWEA 和 FLWEA 模型的最小和最大滑动
         窗口长度都分别设为 4 和 250,字母表的大小统一设定为 4,其他处理方式与定长单词生成模型 WEASEL 相同.
         同时,使用相同参数设置的分类模型对转换后的测试集进行分类预测.
             接下来,我们利用 Demsar 提出的模型分类性能显著性和平均排名比较方法在 65 个数据集上对本文新提出
         的方法进行分析      [31] .表 4 中给出了多种条件下建立的特征字典对应的逻辑回归模型在 65 个数据集上的分类精
         度、平均精度和模型在 65 个数据集上精度最高的数据集个数.表 4 中给出的模型实验结果都是通过在每个数
         据集上进行 5 次实验取均值获得的.在对特征选择算法的性能对比过程中,为了对比实验的公平性,我们通过选
         取适当的阈值,使得不同特征选择算法在 65 个数据集上的平均压缩比相近,即,65 个数据集上选择后的特征字
         典大小和原特征字典大小的比的平均值相近.模型 TfIdf0.3VLWEA_U、TfIdf0.3VLWEA_B、Chi3VLWEA_U
         和 Chi3FLWEA_U 的平均压缩比分别为 27.3%、24.6%、32.6%和 36.3%.
             从图 5 中我们可以看出:使用阈值为 3 的卡方统计量进行特征选择的定长单词生成模型 Chi3FLWEA_U 的
   248   249   250   251   252   253   254   255   256   257   258