Page 258 - 《软件学报》2020年第10期
P. 258
3234 Journal of Software 软件学报 Vol.31, No.10, October 2020
从图 11(a)可以看出:在忽略极少数异常值的情况下(如图 11(a)中的长度 15),25%的最优单词长度落在[3,4]
之间,50%的最优单词长度落在区间[4,7]中,25%的最优单词长度位于[7,11]之间,因此,固定长度单词生成算法
在单词生成过程中会不可避免地损失鉴别性信息或携带大量冗余信息.从图 11(b)可以看出,本文提出的可变长
度单词生成算法可以有效地学习最优单词长度.例如,图中不同长度:24、27、50、16 和 120 对应的特征分别有
针对性地将原序列尾部的冗余信息“**…*”去除(符号“*”代表字母表中的任意字母),只保留具有鉴别性的部分.
此外,对于图 11(b)所示长度为 120 的 4 个原始序列,若单词长度为 2,则只生成一个特征“cc”;单词长度为 3 时,
生成特征“ccb”和“ccd”;单词长度大于 4 时,可以生成 4 个特征,但会包含一定冗余信息.而本文算法可以有效学
习单词的最优长度,且不包含冗余信息.这也再次验证了图 11 给出的示例.
(a) 6 个 BOP 模型 (b) 7 个非 BOP 模型
Fig.10 The classification performance analysis and the average ranks of VLWEA and 13 models on 65 datasets
图 10 VLWEA 和 13 个分类模型在 65 个数据集上的分类显著性分析及平均排名
(a) (b)
Fig.11 Optimal word lengths and 9 generation features obtained by VLWEA
图 11 VLWEA 学习得到的最优单词长度和 9 个生成特征
由于建立的特征字典规模巨大,我们根据学习到的权重选择 top-10 个特征对数据集进行表示.图 12 中给出
了 3 类实例均值序列的直方图.从图 12 中我们可以看出,这些特征具有明显的鉴别性,例如,特征“74ccadd”只有
类属性为 c 0 的实例具有,特征“29ccbbb”和“29acbbb”特征对于类属性为 c 1 的实例具有较强的鉴别性.具有特征
“54ccbcd”和“74ccbdd”的实例类属性为 c 1 的可能性很小.