Page 234 - 《软件学报》2025年第9期
P. 234

郝志峰 等: 基于增强条件独立性检验的鲁棒因果发现算法                                                     4145


                    真实数据: 真实数据为       Downs 等人  [48] 在  1992  年首次提出并在化学工程领域广泛应用的          Tennessee Eastman
                 (TE) 数据集. 本文使用的是     2022  年由  Menegozzo  修订并公开的版本   [49] . 该数据集模拟了化工过程的正常稳态运
                 行情况, 并应用中值操作符在         3 min  的滑动窗口上进行子采样, 覆盖了总共           75 h  的过程. 这个修订版本选取了共
                 33  个变量进行分析, 并分为      22  个连续测量的变量     (X1–X22) 和  11  个操纵变量  (X23–X33), 其中在它的数据预处
                 理阶段, 提前删除了      X27  和  X31  这两个方差为零的变量, 并给出了基于这些变量的明确因果结构, 如图                  6 [49] . 数据
                 来源于   https://github.com/giovanniMen.
                    本文所有实验均在配备         Intel(R) i7-1070、3.2 GHz CPU  和  16 GB  内存的计算机上进行. 独立性检验的显著性
                 水平设置为    0.01, 独立性检验使用    Fisher_Z  检验, 其余参数采用默认设置, 每组实验运行          100  次以上.


                                                            X7
                                      X33   X22   X12     X5         X1    X2    X3
                                      X10   X13   X11    X27         X25   X23   X24

                                        X28       X14    X20    X4          X6


                                        X17            X29     X26   X8     X9

                                        X30              X15               X32

                                        X19         X16      X18           X21

                                        X31
                                                  图 6 TE  的真实因果结构

                 4.1.3    评估方法
                    本文利用准确率      (precision, PRE)、召回率  (recall, RRC)、F1  值和结构汉明距离  (structural Hamming distance,
                 SHD) 这  4  项指标来评估提出的算法性能. 准确率计算正确预测的边与所有预测边的比例, 反映错误因果边的频
                 率. 召回率衡量正确预测的边相对于网络中实际边的比例, 指出遗漏边的情况. F1                       值综合考虑准确率和召回率, 全
                 面评价算法性能. SHD      量化算法预测与真实结构之间的差异, 包括缺失的边、多余的边和方向错误的边, SHD                          越
                 低, 预测的结构越接近真实. 具体公式如下:

                                               TP           TP        2× PRE ×REC
                                       PRE =       , REC =       , F1 =          ,
                                             TP+ FP       TP+ FN       PRE +REC
                 其中, TP  表示在学到的邻接矩阵信息中预测正确的定向边的数量; FP                  代表将不存在或正/反向预测为存在或反/正
                 向数量; FN  代表将正/反边预测为不存在或反/正向的数量.

                 4.2   仿真数据实验结果

                    本部分将分析在仿真数据随着网络节点维度、样本量大小和平均入度的变化下, MMDCL                             算法与其他    5  个对
                 比方法的指标变化. 其中       PRE, REC  和  F1  的实验结果见图  7, SHD  的结果见表  4.
                    1) 随着节点维度的上升, MMDCL         算法稳定保持在      PRE  高于  83%, REC  高于  65%, F1  高于  75% (图  7(a1),
                 (a2), (a3)), 相比之下, PC_Stable, PC_Maxp  和  GSBN  算法在节点维度超过  15  后  PRE  结果略高于本文算法  5%, 但
                 它们的   REC  则相对降低了    15%  以上, 说明这些方法得到的结果中有较多因果边的丢失. 而                 PC  算法和  ADL  算法
                 在  3  个评价指标上都略低于本文算法. 其中, 虽然           ADL  算法在网络节点数量为        5  时的  F1  值较高, 但随着节点维
                 度上升, 其方法由于爬山法的局限性, 性能也有所下降.
   229   230   231   232   233   234   235   236   237   238   239