Page 234 - 《软件学报》2025年第9期
P. 234
郝志峰 等: 基于增强条件独立性检验的鲁棒因果发现算法 4145
真实数据: 真实数据为 Downs 等人 [48] 在 1992 年首次提出并在化学工程领域广泛应用的 Tennessee Eastman
(TE) 数据集. 本文使用的是 2022 年由 Menegozzo 修订并公开的版本 [49] . 该数据集模拟了化工过程的正常稳态运
行情况, 并应用中值操作符在 3 min 的滑动窗口上进行子采样, 覆盖了总共 75 h 的过程. 这个修订版本选取了共
33 个变量进行分析, 并分为 22 个连续测量的变量 (X1–X22) 和 11 个操纵变量 (X23–X33), 其中在它的数据预处
理阶段, 提前删除了 X27 和 X31 这两个方差为零的变量, 并给出了基于这些变量的明确因果结构, 如图 6 [49] . 数据
来源于 https://github.com/giovanniMen.
本文所有实验均在配备 Intel(R) i7-1070、3.2 GHz CPU 和 16 GB 内存的计算机上进行. 独立性检验的显著性
水平设置为 0.01, 独立性检验使用 Fisher_Z 检验, 其余参数采用默认设置, 每组实验运行 100 次以上.
X7
X33 X22 X12 X5 X1 X2 X3
X10 X13 X11 X27 X25 X23 X24
X28 X14 X20 X4 X6
X17 X29 X26 X8 X9
X30 X15 X32
X19 X16 X18 X21
X31
图 6 TE 的真实因果结构
4.1.3 评估方法
本文利用准确率 (precision, PRE)、召回率 (recall, RRC)、F1 值和结构汉明距离 (structural Hamming distance,
SHD) 这 4 项指标来评估提出的算法性能. 准确率计算正确预测的边与所有预测边的比例, 反映错误因果边的频
率. 召回率衡量正确预测的边相对于网络中实际边的比例, 指出遗漏边的情况. F1 值综合考虑准确率和召回率, 全
面评价算法性能. SHD 量化算法预测与真实结构之间的差异, 包括缺失的边、多余的边和方向错误的边, SHD 越
低, 预测的结构越接近真实. 具体公式如下:
TP TP 2× PRE ×REC
PRE = , REC = , F1 = ,
TP+ FP TP+ FN PRE +REC
其中, TP 表示在学到的邻接矩阵信息中预测正确的定向边的数量; FP 代表将不存在或正/反向预测为存在或反/正
向数量; FN 代表将正/反边预测为不存在或反/正向的数量.
4.2 仿真数据实验结果
本部分将分析在仿真数据随着网络节点维度、样本量大小和平均入度的变化下, MMDCL 算法与其他 5 个对
比方法的指标变化. 其中 PRE, REC 和 F1 的实验结果见图 7, SHD 的结果见表 4.
1) 随着节点维度的上升, MMDCL 算法稳定保持在 PRE 高于 83%, REC 高于 65%, F1 高于 75% (图 7(a1),
(a2), (a3)), 相比之下, PC_Stable, PC_Maxp 和 GSBN 算法在节点维度超过 15 后 PRE 结果略高于本文算法 5%, 但
它们的 REC 则相对降低了 15% 以上, 说明这些方法得到的结果中有较多因果边的丢失. 而 PC 算法和 ADL 算法
在 3 个评价指标上都略低于本文算法. 其中, 虽然 ADL 算法在网络节点数量为 5 时的 F1 值较高, 但随着节点维
度上升, 其方法由于爬山法的局限性, 性能也有所下降.

