Page 242 - 《软件学报》2020年第10期
P. 242
3218 Journal of Software 软件学报 Vol.31, No.10, October 2020
序列抽取出的长为 4 的字符序列,即特征.图 1(c)中给出了变长单词抽取算法获得的两种长度滑动窗口对应的
特征,变长单词抽取算法旨在获得具有更强鉴别性的子序列.从图 1 可以看出,定长单词“8abab”无法区分长为 8
的两类子序列,而变长单词“8ababc”和“8ababd”可区分两类子序列.此外,定长单词“6aabc”和“6acbc”虽可区分长
度为 6 的两类子序列,但与变长单词“6aa”“6ac”相比,包含了更多的冗余成分.
Fig.1 Comparison of variable length and fixed length word extraction algorithm
图 1 变长单词生成和定长单词抽取算法比较
与此同时,针对基于 VLWEA 建立的特征字典中存在大量冗余特征的问题,本文基于 tf-idf 的基本思想定义
了一种新的特征鉴别性强弱度量方式来对鉴别性特征进行选择,并能根据不同周期生成的特征的整体分类性
能动态设定各周期生成特征的选择阈值.本文的主要贡献概括如下.
(1) 本文提出了一种基于网格搜索的滑动窗口单词长度学习算法.该算法为不同窗口长度学习分类性能
最优的单词长度,不同窗口长度可能生成不同长度的单词.变长单词可有效减少鉴别性信息的损失,在此基础
上可以获得更优的分类效果.与此同时,我们分析了 Bigrams 语法模型对基于变长单词特征字典的模型分类
性能的影响.
(2) 本文基于 tf-idf 的基本思想定义了一种新的特征鉴别性评价统计量用于特征选择.
(3) 针对采用固定阈值进行特征选择忽略了不同周期转换得来的特征存在性能差异的问题,我们提出一种
根据不同滑动窗口生成特征的整体分类性能以动态地设定各窗口生成特征选择阈值的机制,该机制可有效缩
小时间序列特征空间的规模并提高模型的分类性能.
本文第 1 节介绍基本概念和理论基础.第 2 节介绍本文使用的相关算法.第 3 节给出实验方式和实验结果.
第 4 节总结全文.
1 定义与理论基础
本节介绍时间序列的基本概念和基于 SFA 的时间序列转换表示方法的理论基础.
1.1 时间序列
下面我们首先介绍本文用到的一些基本概念.
定义 1(时间序列). 时间序列 T 是由 n 个有序的实际观测值 t 0 ,t 1 ,…,t n–1 组成的一个实值序列,即 T={t 0 ,t 1 ,…,
t n–1 },其中,t i ∈R.
用 D={T 0 ,T 2 ,…,T N–1 }表示包含 N 条时间序列的数据集合,其中,每条时间序列 T i ={t i1 ,t i2 ,…,t in }.
定义 2(时间序列子序列). 给定一条完整的时间序列 T={t 0 ,t 1 ,…,t n–1 },该序列 T 中长为ω的窗口 S 之中包含
的ω个连续值组成的序列称为时间序列 T 的子序列,若其在时间序列 T 上的起始位置为 a,则 S(a,ω)=(t a ,t a+1 ,…,
t a+ω–1 ),其中,0≤a≤n–ω.
定义 3(特征字典). 特征字典是用于表示时间序列数据的特征集合.
本文构建的特征字典中的每个元素为一个指定长度滑动窗口生成的字符序列.表 1 给出文中涉及的常用
符号.