Page 97 - 《软件学报》2021年第10期
P. 97
王双成 等:基于贝叶斯网络的时间序列因果关系学习 3069
Key words: time series; causal relationship; Bayesian network; transformation data set; structure data set
人类对现实世界中现象的一种强烈渴望就是因果联系,从古至今,人们不间断地从不同层次和角度探索因
果理论和发现因果关系的方法,以达到更好地认识和改造世界的目的.早期的因果关系属于哲学的范畴,现代更
强调从数据中发现因果关系.时间序列是现实世界数据的重要表现形式之一,在宏观经济与金融等领域,数据主
要以时间序列的形式存在,大量宏观经济与金融时间序列真实地记录了系统在不同时间点(或时间片)的各种重
要信息,其中蕴含着丰富而有价值的因果关系和映射规则等方面的知识,这些知识往往是诊断宏观经济与金融
体系运行情况、揭示经济运行规律以及制定相应的调控政策的重要依据.
[1]
目前主要采用格兰杰(Granger)方法探索和发现时间序列中的因果关系,如 Ferreira 采用面板数据格兰杰
[3]
[2]
因果关系方法所进行的欧盟债务与经济增长研究、Fredrik 对中国金融增长的 Granger 因果分析、Chang 基
于格兰杰方法的金砖五国煤炭消费与经济增长的因果关系检验等.但这种方法存在如下一些局限性:① 进行
格兰杰因果关系检验的一个前提条件是时间序列必须具有平稳性,否则可能会出现虚假回归现象;② 格兰杰
因果关系检验的结论只是一种预测,是统计意义上的“格兰杰因果性”,而不是真正意义上的因果关系,不能作为
肯定或否定因果关系的依据;③ 格兰杰因果关系建立在线性回归基础之上,因此从某种意义上可以说,格兰杰
因果关系是线性因果关系.近些年,也有一些将其他线性和非线性回归模型用于检验因果关系的研究,如
[5]
[4]
[6]
Kristofer 基于岭回归的因果关系检验、David 采用广义回归发现因果关系、Ryutah 使用线性分位数回归研
[7]
究因果关系、Luo 依据逐步回归的因果效应分析等.这些因果关系发现(或检验)方法所依据的是回归计算,往
往是针对特定的问题和具体的方面.
概率和因果关系具有密切的联系,基于概率理论探索因果关系,已是目前因果关系研究的一个重要方向.在
[8]
[9]
概率与因果关系的基础理论方面已有许多研究,如 Rubin 的因果模型、Pearl 的因果图、Heckman [10] 的科学
因果关系模型、John [11] 的因果推断原理与方法研究等,其中最具影响的是 Rubin 和 Pearl 的因果关系模型,在
2000 年,Pearl 介绍了这两个模型的等价性.Rubin 因果模型强调局部细节,一般用于较少变量之间的精细因果分
析;Pearl 的因果模型(或贝叶斯网络)更加直观,突出整体因果联系,适合于复杂多因素之间的因果知识表示与推
理.本文基于 Pearl 的贝叶斯网络进行时间序列的因果关系学习研究.
贝叶斯网络是描述随机变量(简称变量)之间相互影响与制约关系的有向图模型,由结构(有向无环图)和参
数(条件概率分布表)两部分构成,其结构中,弧的方向具有因果语义(贝叶斯网络的创始人 Pearl 也因将概率与因
果关系相结合而获得 2011 年图灵奖),因此是因果建模与分析的有力工具.将贝叶斯网络用于时间序列因果分
析(离散变量)是一种发展的趋势,也将会与格兰杰方法等(连续变量)形成互补.基于贝叶斯网络进行因果关系研
究的核心,是贝叶斯网络(或因果关系网络)学习.20 世纪 90 年代之前,以根据专家知识的贝叶斯网络构建为主,
如以 Kullback [12] 为代表的整体和局部学习方法,这种方法使得贝叶斯网络的学习与更新都比较困难,而且往往
带有主观倾向性,影响了贝叶斯网络的广泛应用.20 世纪 90 年代以后,随着数据获取和存储技术的发展以及人
们数据意识的增强,开始逐渐转向将专家主观知识与客观数据相结合来建立贝叶斯网络,以及完全基于数据的
贝叶斯网络学习.这期间,比较有影响的工作有 Cheng [13] 、Liu [14] 、Parviainen [15] 和 Xiao [16] 等人的依赖分析方法
以及 Heckerman [17] 、Suzuki [18] 、Gheisar [19] 和 Liu [20] 等人的打分-搜索方法.这些贝叶斯网络学习研究所针对的
是非时间序列(数据集中的记录之间需满足独立同分布的假设)数据和一般的随机变量,不适合于时间序列(数
据集中的记录之间具有时序依赖)的情况.Friedman 在 1998 年将贝叶斯网络与马尔可夫链相结合,在平稳性和
马尔可夫性两个假设下,给出了动态贝叶斯网络(dynamic Bayesian network) [21] ,用于变量的时序变化研究.随后
的动态贝叶斯网络研究基本遵循 Friedman 的框架,它们需要使用完整的面板数据(获得这样的数据非常困难)
和复杂的打分函数运算进行学习,对时间序列的因果关系学习不具有实用性.
本文的主要贡献如下:
(1) 提出了建立时间序列转换数据集的思想与方法,通过转换数据集来实现时序与非时序信息的整合与
统一,使得在转换数据集的基础上,采用贝叶斯网络方法能够进行时滞、非时滞和混合因果关系学习,