Page 106 - 《软件学报》2021年第10期
P. 106
3078 Journal of Software 软件学报 Vol.32, No.10, October 2021
Table 1 Causal structure learning for simulating time series
表 1 模拟时间序列的因果关系结构学习
时间序列 时滞弧变化数量 非时滞弧 混合弧变化数量 总变化数量
数据集 EEG ege state 变化数量 EEG ege state (百分比)
T_BN_1(45) 0 0 1 1(2.22%)
T_BN_2(54) 0 1 1 2(3.70%)
NT_BN_1(48) 1 0 1 2(4.16%)
NT_BN_2(51) 0 1 1 2(3.92%)
H_BN_1(57) 0 1 +1 2(3.51%)
H_BN_2(60) 1 1 1 3(5.00%)
E_BN_1(30) 0 1 0 1(3.33%)
E_BN_2(42) 0 1 1 2(4.76%)
Fig.3 Causal structure of balancing three parent nodes (E_BN_1)
图 3 均衡 3 种父节点的因果关系结构(E_BN_1)
表 1 显示了模拟时序数据因果关系结构学习的情况,没有正确识别弧(主要是丢失的弧)的平均百分比是
3.82%.出现这些丢失弧的主要原因是:随机产生的概率分布会出现小概率的情况,从而导致变量之间的依赖和
条件独立性的判断出现差错.总的来看,对于模拟时间序列数据,能够有效识别所蕴含的 3 种父节点(时滞父节
点、非时滞父节点和混合父节点),因此可以为真实数据的因果关系学习提供保障.
(2) 元因果关系结构学习
对给定的元因果关系,首先基于元因果关系产生模拟数据,然后进行元因果关系结构学习,并比较产生模拟
数据的元因果关系结构和学习得到的元因果关系结构之间的差异.
① 元因果关系的随机模拟
元因果关系的随机模拟包括两个阶段:第 1 阶段是结合因果关系变量的顺序、元因果关系结构、因果关系
变量的概率分布(随机生成概率分布表)和 Monte Carlo 方法产生元因果关系的直接模拟数据集(因果关系结构
数据集);第 2 阶段是将时序变量的顺序、元因果关系模拟数据集中的记录(或因果关系结构记录,每个记录都对
应着一个因果关系结构)、时间序列变量的概率分布(随机生成概率分布表)和 Monte Carlo 方法相结合生成因
果关系的模拟数据集(时间序列数据集).设置元因果关系模拟数据集的大小(或时间序列段的数量)为=5000,
所有时间序列段的大小也均为 T m T m1 =5000,n=6,最终得到元因果关系的随机模拟时间序列大小为 25 000 000.
(a) 时间序列的因果关系结构
首先需要给出产生第 1 段时间序列的因果关系结构(也可称为初始因果关系结构),在为变量拓扑排序时,