Page 99 - 《软件学报》2021年第10期
P. 99

王双成  等:基于贝叶斯网络的时间序列因果关系学习                                                       3071


                 般的离散化方法是 NP 困难问题(每一种子集的划分都对应一个离散化策略).在因果关系学习时,我们通常都采
                 用特定的离散化方法,以降低运算复杂性和使因果关系更具有针对性.不同的离散化方法将产生不同的分布,这
                 样会使学习得到的因果关系也具有差异和不同的含义,因此,需要根据实际问题的需要来选择(或设计)离散化
                 方法,以便于解释学习得到因果关系.
                    ①   离散化方法的构成.
                    现已发展了许多离散化的方法,但这些方法主要基于数据的内部结构,无法满足时间序列数据变化方面的
                 需求(或数据随时间变化的规律与模式).我们给出基于时间序列段模式的离散化方法来解决这一问题,关于时
                 间序列因果关系学习中数据(或变量)离散化的具体情况如图 1 所示.

                                    时间序列因果关系学习中的数据(或变量)离散化           监督离散化      基于熵的离散化
                                              非监督离散化               半监督离散化      基于卡方的离散化
                                                                               基于MDL的离散化
                              基于时间序列段模式的离散化 . . .    基于数据内部结构的离散化
                                                                                 其他离散化

                               增   转   波   突   其     等   等   密   聚   其
                               减   折   动   变
                               性   性   性   性   他     距   频   度   类   他
                                                         离
                                                     离
                                               离
                                                                     离
                                                                 离
                                                             离
                               离   离   离   离   散     散   散   散   散   散              . . .
                               散   散   散   散
                               化   化   化   化   化     化   化   化   化   化

                             Fig.1    Constitution of data discretization methods in time series causality learning
                                     图 1   时间序列因果关系学习中的数据离散化方法的构成
                    图 1 显示,用于时间序列因果关系学习中的离散化方法可分成非监督离散化和监督离散化两种,本文采用
                 非监督离散化方法.在非监督离散化方法中,既可以采用反映时序变化的模式离散化(如反映增减性、转折性和
                 波动性等方面的离散化,这些离散化方法往往与实际需求密切相关,使学习得到的因果关系具有更丰富的内
                 涵),也可以使用与时序无关的结构离散化(如等频、等距和聚类离散化等,所描述的是数据内部的结构和特征,
                 一般不会增加因果关系的内涵).离散化方法的变化对因果关系会产生影响,在本文的第 3 节,我们将进行相应的
                 实验与分析.
                    用 X[t]=(X 1 [t],X 2 [t],...,X n [t])表示离散化后的时序向量,x[t]=(x 1 [t],x 2 [t],...,x n [t])为其配置;D d [n,T]={x 1 [t],
                                                                                      1
                 x 2 [t],...,x n [t]}(1≤t≤T)表示离散化后时序数据集;G[t]表示因果关系结构(有向无环图);{,x x       2 ,...,x  i r  }是 x i [t]的值
                                                                                      i  i  i
                 域, x i j (1≤ ≤  i ) r 可以是数字,也可以是没有数字含义的符号等;(或)是一个有限值映射.
                         j
                    ②   基于时间序列段模式的离散化.
                    用 M[i,t](1≤k≤r i )表示在时间序列段 z i [t],z i [t+1],…,z i [t],…,z i [t+1],z i [t+]( i (t,,)表示时间序列段,
                                                      k
                 ≥0,≥0,和不能同时为 0)上的一个模式,M [i,t]表示所有模式的集合,时间序列段模式离散化(简称为模式
                 离散化)方法可以表示为
                                                         x 1 ,     ( , , ) ~t     M 1 [ , ]i t
                                                          i 2  i  t     2
                                            xt   i []  ( [ ])   z t   x i  , ( , , ) ~ M i t   i  [ , ]  (2)
                                                   i
                                                         ...
                                                          x i i r  , ( , , ) ~ M i t
                                                              t 
                                                                 
                                                                       i r
                                                            
                                                                       [ , ]
                                                             i
                                                     k
                                                                                                k
                              k
                                                                                          h
                 其中, i (t,,)~M [i,t]表示 i (t,,)满足模式 M [i,t], M 1 [ , ]it   M  2 [ ,]i t   ...  M  i r [ ,]it   M [ , ]i t ,M [i,t]M [i,t]=,其
                 中,1≤h,k≤r i ,hk.
                    ③   基于数据内部结构的离散化.
                                                             k
                    用 D c [n,T,i]表示单变量时序数据集{z i [t]|1≤t≤T}, Dn       ≤≤   i ) r 是 D c [n,T,i]的一个子集.描述数据内
                                                                       k
                                                              [ , , ](1T i
                                                             c
                 部结构的离散化(简称为结构离散化)方法可以表示为
   94   95   96   97   98   99   100   101   102   103   104