Page 245 - 《软件学报》2020年第10期
P. 245

张伟  等:一种时间序列鉴别性特征字典构建算法                                                          3221


             例如,给定一个长为 10 的子序列,假设我们选择的前 4 个傅里叶值为“0.11,0.23,0.02,0.63”,利用分箱技术我
         们可将该实值序列转换成为一个字符序列,假设为“abcd”,由于不同长度的滑动窗口代表不同周期的频率成分,
         它们生成的特征不同,为此,每个单词都对应固定的滑动窗口长度,上述生成的单词通常表示为“10abcd”.Schafer
         在文献[23]中对 SFA 的具体符号化过程进行了详细介绍,这里不再赘述.
             n 0 元语法模型(n 0 -gram)是自然语言处理中很重要的统计语言模型.该模型在实际应用中通常假设某个词
         出现的概率只与它前面的一个或几个词有关,即,马尔可夫假设.当 n 0 =i 时(i 为正整数),称为 i 元语法,也称为 i 阶
         马尔可夫链,此时第 j 个词出现的概率只与其前 i−1 个词有关.n 0 取 1、2 和 3 时,基于 n 0 元语法表示获得的词组
         称为一元单词(unigram word)、二元单词(bigram word)和三元单词(trigram word).此外,若特征字典有 m 个特征,
         则基于 n 0 元语法要考虑的词组合可能有 (Om           0 n  ) 个.因此,为了缩小特征字典的规模,通常只考虑一元和二元词组
         组成的特征.为了弥补所有周期抽取定长单词所导致的鉴别性信息的损失,Schafer 等人                          [24] 将 n 0 元语法用于时间
         序列的特征构建过程中,他们将连续出现的两个特征组成一个新的特征加入到特征字典.本文将一元和二元语
         法模型分别记为 Unigram 和 Bigrams,并对 Bigrams 语法模型对变长单词特征字典的性能影响进行了实验分析.

         1.4   特征的鉴别性评价
             tf-idf 是一种用于寻找文本中关键词的统计方法             [26,27] .它通常用来评估一个词与一篇文档的主题的相关程
         度.词对一篇文档的重要性与其在该文档中出现的频率成正比关系,同时,与其在语料库中出现的频率成反比.
         如果某个词在所有的文档中都出现,则意味着与主题并不相关.本文基于 tf-idf 的基本思想设计了一种新的 tf-
         idf 统计量对特征的鉴别性进行评价.新定义的鉴别性评价指标主要从两个方面对各类特征的鉴别性进行评价.
             (1)  某类特征和该类的相关程度.主要通过 tf 值来度量,我们用某类特征在该类所有实例中的出现频率来
         度量该特征和所属类别的相关性.
             (2)  某类特征对该类的鉴别性强弱.实际中,某类中高频特征也可能是其他类中的常见特征.此时,该特征不
         能有效区分不同类别.为此,我们用 idf 度量该特征对所属类别的鉴别性强弱.
             下面首先对本文定义的 tf-idf 计算公式进行介绍.我们用特征在某类中出现的相对频率代替其在某个实例
         中出现的频率以衡量它与某类实例的相关程度.我们用 f(t,c)表示特征 t 在其类属性 c 对应的实例集合中出现的
         次数,即,类属性为 c 的特征 t 在类属性为 c 的所有实例中出现的次数总和.特征 t 在其类属性 c 对应的特征字典
         中的频率 tf(t,c)的计算公式为
                                                       (, )c
                                                      ft
                                            tf  (, )t c =    ,
                                                    max f pc
                                                         ( , )
                                                   pdict∈  ()c
         其中,dict(c)表示类属性 c 对应的特征字典,p 表示任意特征.
             我们在自然对数尺度下对特征频率进行比较分析,对频率公式 tf(t,c)进行如下处理:
                                             tf  (, )t c =  ln(1 tf+  ( , ))t c               (8)
             如果 tf(t,c)值越大,则特征 t 在类属性 c 对应的实例中出现的频率越高,意味着它与类属性越相关,但不能说
         明它对于类属性 c 的鉴别性越强.为了准确度量特征的鉴别性,我们提出一个新的 idf 计算公式.在定义的 idf 公
         式的分子中用实例总数减去类属性为 c 的实例数,即,只考虑类属性不为 c 的实例中包含特征 t 的情况;idf 公式
         分母中只计数类属性不为 c 且包含特征 t 的实例数,这样可以直接反映特征 t 在其他各类实例中的出现频率.我
         们使用的类属性为 c 的特征 t 的逆文档频率 idf(t,c)的计算公式为
                                                      N −  N  +1
                                               (, ) c =
                                             idf t  ln     c                                  (9)
                                                        (, )+1
                                                      df t c
         其中,N 为实例总数,N c 为类属性为 c 的实例数, df        (, )t c 为数据集中包含特征 t 同时类属性不为 c 的实例数.idf(t,c)
         值越大,说明类属性为 c 的特征 t 在其他类中出现的频率越低.基于 tf-idf 的基本思想,我们定义的类属性为 c 的
         特征 t 的鉴别性度量值 d(t,c)的计算公式为
                                                    (, )c ×
                                            d (, )t c =  tft  dft                             (10)
                                                           ( , )c
             上式说明:类属性为 c 的特征 t 在类属性为 c 的实例中出现的相对频率越高(tf(t,c)值越大),而在其他类实例
   240   241   242   243   244   245   246   247   248   249   250