Page 236 - 《软件学报》2025年第9期

P. 236

郝志峰等: 基于增强条件独立性检验的鲁棒因果发现算法 4147

以提升最多 15 个因果边的正确率. 其次, 随着样本量的增加, 本文算法的 SHD 值也不断降低, 这说明样本量的提
升可以使得算法输出更优的结果. 而在 Sample size=500 的情况下, 本文算法在各维度上的结果表现依旧最优, 这
也说明了算法在数据有限场景下的稳定性. 而在 Sample size=2000 时, SHD 相对于所有对比方法而言, 可以提高
5–15 个因果边的正确率. 由此可见, 在不同维度和样本量条件下的 SHD 的结果表明了本文算法具备更好的结构
学习性能.

表 4 仿真数据在节点维度和样本量变化下的 SHD

Dimension Method Sample size=500 Sample size=1000 Sample size=2000
PC 20.27±4.48 18.60±4.98 16.99±4.88
PC_Stable 16.31±4.58 13.96±4.63 12.43±4.40
PC_Maxp 17.94±5.17 14.86±4.96 13.89±5.02
15
GSBN 15.55±3.66 14.40±3.85 13.18±5.18
ADL 13.79±3.95 12.21±3.57 11.87±3.81
Ours 13.88±4.89 11.82±5.16 10.08±4.52
PC 34.26±6.67 32.91±6.61 29.83±6.81
PC_Stable 27.35±6.92 24.03±7.46 20.88±7.40
PC_Maxp 29.61±7.56 27.40±6.55 23.04±8.06
25
GSBN 26.18±5.63 24.05±8.56 22.61±8.38
ADL 23.89±5.56 22.20±5.90 21.08±5.08
Ours 23.11±7.65 20.89±8.57 17.06±8.06
PC 44.75±7.43 40.75±8.07 37.90±8.97
PC_Stable 36.09±7.28 31.36±7.93 28.38±8.13
PC_Maxp 39.31±8.25 34.47±8.59 30.50±9.02
35
GSBN 35.43±10.65 33.24±11.62 30.89±14.24
ADL 31.45±5.67 29.17±6.82 27.99±6.95
Ours 31.36±8.31 26.72±8.61 24.00±9.50

4.3 贝叶斯网络数据实验结果

本节将详细分析在贝叶斯网络数据下随着 3 个不同的样本量 (500、1 000、2 000) 设置下, MMDCL 算法的性
能表现. 如图 8 所示, PRE、REC 和 F1 的结果表明, MMDCL 在 3 个数据样本上均表现出优于对比方法的结果. 具
体来说, 在 MAGIC-NIAB 数据集下, MMDCL 的 PRE, REC, F1 的结果相比于对比方法提升 5%–45%. 而对于
MAGIC-IRRI 数据集, MMDCL 的 PRE, REC, F1 结果均比对比方法提升 10%–25%. 其中, 随着样本量增加, 算法
性能也有所提升. 在样本量 2 000 时, 算法在保持高精确率的同时, REC 大于 75%, F1 大于 70%, 这与仿真数据上
得到的结论一致. 即使在样本量仅为 500 时, 算法依旧能优于对比方法 5%–30%, 其中在 MAGIC-NIAB 上, 本文算
法在 REC 的结果上相对对比方法最大可提升接近 50%, 这可能是因为当前数据具有更大的方差差异导致可以恢
复的因果边更多, 也进一步验证了本算法在样本受限条件下的鲁棒性. 通过实验结果有效证实了本文算法在处理
贝叶斯网络数据时的有效性.
表 5 中 SHD 结果进一步支持 MMDCL 实验结果的可靠性. 在所有样本量条件下, MMDCL 算法在 SHD 指标
上均展现出显著的优势. 在 MAGIC-NIAB 数据集中, 样本量为 500 时, MMDCL 相较于其他方法减少了 8–20 个错

误的因果边, 体现了在小样本下结构学习的可靠性. 随着样本量的增加, MMDCL 算法的 SHD 降低到 20 以内, 这
也说明随着样本量上升, 本算法具备更高的稳定性和准确性. 在 MAGIC-IRRI 数据集上, MMDCL 算法降低了
10–20 个错误因果边, 随着样本量增加, SHD 值降低到 40, 相对于对比方法, 本算法有明显提升. 这些实验结果表
明了本算法在小样本量条件下具备优秀的性能表现, 并且随着样本量的增加, 其学习效率得到进一步提升, 这说明
了本算法在处理贝叶斯网络数据的准确性.

231 232 233 234 235 236 237 238 239 240 241