Page 108 - 《软件学报》2021年第10期
P. 108
3080 Journal of Software 软件学报 Vol.32, No.10, October 2021
因果关系,也就是不同的时间序列之间存在较强的影响与制约关系,尤其是同一板块的股票之间可能存在非常
复杂的因果关系.通过与金融领域专家的交流,表 2 显示的股票、期货和汇率的因果关系较好地反映了经验中
的因果联系,同时还展示了许多专家经验中所没有而却在数据中蕴含的因果关系,切实起到了客观因果知识对
主观因果经验的修正和补充的作用,因此有助于深化对股票、期货和汇率客观规律的认识,并提高管理决策的
科学化水平.
(2) UCI 时间序列的元因果关系结构学习
选择 4 个 UCI 时间序列数据集,它们是 GSA(gas sensor array under dynamic gas mixtures,具有 4 178 504 个
记录和 19 个时间序列)、URLR(URL reputation,具有 2 396 130 个记录和 3 231 961 个时间序列)、PAM(physical
activity monitoring,具有 3 850 505 个记录和 52 个时间序列)和 IHEPC(individual household electric power
consumption,具有 2 075 259 个记录和 9 个时间序列),从它们中各选择 6 个时间序列,结合滑动平均与二值增减
性离散化进行时间序列预处理,基于变量删除法排序时序变量,用 X 1 [t],X 2 [t],...,X 6 [t]表示排序后的时序变量,取
时间序列段(等大小的时间序列段)的数量=T m T m1 =2044,1547,1962,1440,学习得到的多变量时间序列元因果
关系结构如下.
GSA:(X 1 [t],X 2 [t])(X 1 [t],X 3 [t]);
URLR:(X 2 [t],X 2 [t3])(X 2 [t],X 2 [t2]);
PAM:① (X 4 [t],X 5 [t])(X 1 [t],X 4 [t]);② (X 5 [t],X 5 [t3])(X 5 [t],X 5 [t1]);
IHEPC:① (X 3 [t],X 6 [t])(X 2 [t],X 6 [t]),(X 1 [t],X 6 [t]);② (X 6 [t],X 6 [t4])(X 6 [t],X 6 [t3]).
在 4 个多变量时序数据集中,存在 3 种因果关系:非时滞、时滞和混合因果关系.我们发现:有两种因果关系
之间存在因果影响,它们是非时滞因果关系之间的因果影响(因果关系 GSA、PAM①和 IHEPC① )和时滞因果关
系之间的因果影响(因果关系 URLR、PAM②和 IHEPC② ).
3.3 离散化方法对时序因果关系的影响
离散化方法对时序数据的因果关系会产生影响,下面从离散化(包括模式离散化和结构离散化)方法对非时
滞因果关系和时滞因果关系两个方面的影响进行实验与分析.
(1) 离散化方法对非时滞因果关系的影响
在 wind 数据库中,选择 16 个基金时间序列,为便于比较,统一使用三值增减性离散化后的变量顺序,排序后
的时间序列依次是融通创业 A(X 1 [t])、华商稳 B(X 2 [t])、新蓝筹(X 3 [t])、融通蓝筹(X 4 [t])、融通行业(X 5 [t])、融
通动力(X 6 [t])、融通内需(X 7 [t])、长城久恒(X 8 [t])、长城回报(X 9 [t])、长城品牌(X 10 [t])、长城债券(X 11 [t])、长城
动力(X 12 [t])、长城积 A(X 13 [t])、长城优化(X 14 [t])、泰信先行(X 15 [t])和泰信优质(X 16 [t]).分别使用模式离散化和
结构离散化两种方法来离散化基金时间序列,其中,模式离散化方法均取 3 个离散值,包括增减性离散化(简称为
增减)、转折性离散化(简称为转折)、波动性离散化(简称为波动)和突变性离散化(简称为突变);而结构离散化
方法也都取 3 个离散值,它们是等距离散化(简称为等距)、等频离散化(简称为等频)、基于密度的离散化(简称
为密度,采用高斯密度)和基于聚类的离散化(简称为聚类,使用贝叶斯聚类).采用不同离散化方法学习得到的非
时滞因果关系情况见表 3,其中,表示因果关系的数字是对应变量的下标.
从表 3 我们能够发现,采用不同的离散化方法使学习得到的非时滞因果关系具有一定的差距.其主要原因
是:不同的离散化方法会产生相应的联合分布,从而导致由联合分布所确定的因果关系具有差异.不同的离散化
方法也使学习得到的因果关系具有不同的含义,如增减性因果关系、转折性因果关系和波动性因果关系等.对
于模式离散化,所有因果关系的数量是 150,共同因果关系的数量是 116,因果关系不变率是 77.33%;对于结构离
散化,所有因果关系的数量是 151,共同因果关系的数量是 112,因果关系不变率是 74.17%;对于模式与结构离散
化两种情况,所有因果关系的数量是 301,共同因果关系的数量是 184,因果关系不变率是 61.12%.由表 3 得到的
模式和结构离散化的最小(因果关系的交集)与最大因果关系(因果关系的并集)情况见表 4.