Page 106 - 《软件学报》2021年第10期
P. 106

3078                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                                     Table 1    Causal structure learning for simulating time series
                                            表 1   模拟时间序列的因果关系结构学习
                                   时间序列      时滞弧变化数量      非时滞弧    混合弧变化数量      总变化数量
                                    数据集       EEG ege state   变化数量  EEG ege state   (百分比)
                                  T_BN_1(45)      0          0         1       1(2.22%)
                                  T_BN_2(54)      0         1         1       2(3.70%)
                                  NT_BN_1(48)    1          0         1       2(4.16%)
                                  NT_BN_2(51)     0         1         1       2(3.92%)
                                  H_BN_1(57)      0         1         +1       2(3.51%)
                                  H_BN_2(60)     1         1         1       3(5.00%)
                                  E_BN_1(30)      0         1         0        1(3.33%)
                                  E_BN_2(42)      0         1         1       2(4.76%)


























                                   Fig.3    Causal structure of balancing three parent nodes (E_BN_1)
                                         图 3   均衡 3 种父节点的因果关系结构(E_BN_1)
                    表 1 显示了模拟时序数据因果关系结构学习的情况,没有正确识别弧(主要是丢失的弧)的平均百分比是
                 3.82%.出现这些丢失弧的主要原因是:随机产生的概率分布会出现小概率的情况,从而导致变量之间的依赖和
                 条件独立性的判断出现差错.总的来看,对于模拟时间序列数据,能够有效识别所蕴含的 3 种父节点(时滞父节
                 点、非时滞父节点和混合父节点),因此可以为真实数据的因果关系学习提供保障.
                    (2)  元因果关系结构学习
                    对给定的元因果关系,首先基于元因果关系产生模拟数据,然后进行元因果关系结构学习,并比较产生模拟
                 数据的元因果关系结构和学习得到的元因果关系结构之间的差异.
                    ①  元因果关系的随机模拟
                    元因果关系的随机模拟包括两个阶段:第 1 阶段是结合因果关系变量的顺序、元因果关系结构、因果关系
                 变量的概率分布(随机生成概率分布表)和 Monte Carlo 方法产生元因果关系的直接模拟数据集(因果关系结构
                 数据集);第 2 阶段是将时序变量的顺序、元因果关系模拟数据集中的记录(或因果关系结构记录,每个记录都对
                 应着一个因果关系结构)、时间序列变量的概率分布(随机生成概率分布表)和 Monte Carlo 方法相结合生成因
                 果关系的模拟数据集(时间序列数据集).设置元因果关系模拟数据集的大小(或时间序列段的数量)为=5000,
                 所有时间序列段的大小也均为 T m T m1 =5000,n=6,最终得到元因果关系的随机模拟时间序列大小为 25 000 000.
                    (a)  时间序列的因果关系结构
                    首先需要给出产生第 1 段时间序列的因果关系结构(也可称为初始因果关系结构),在为变量拓扑排序时,
   101   102   103   104   105   106   107   108   109   110   111