Page 238 - 《软件学报》2025年第9期
P. 238
郝志峰 等: 基于增强条件独立性检验的鲁棒因果发现算法 4149
图 9 所示. 图 9 中的节点代表观测变量, 除去 X27 和 X31 之后, 共有 31 个节点参与分析. 其中, 浅灰色的边代表
PC_Stable 算法错误地学习到的因果边, 虚线边表示正确学习到的因果边, 包括了无向边和有向边. 实线边表示
MMDCL 算法成功恢复的正确因果边, 而双横线边则代表 MMDCL 算法恢复的错误因果边. 图 9 中, 正确因果边
的两端节点用黑色方块突出表示. 例如, 对于因果边 X32→X9, 考虑到 X32 有先验的父节点 X21 和 X6, 而 X9 有
先验的父节点 X6, 在进一步测量 CIT(X32−f(X21),X9|X6) 的情况下, 这条因果边便能被成功恢复. 同理, 在考虑
CIT(X8,X9−f(32)−f(6)) 的情况下, 又可以恢复出 X8→X9 的因果对于错误学习到的因果边, 如 X14→X16, 其中
X14 是 X16 的潜在祖先, 它们在真实因果结构中通过路径 X14→X29→X15→X16 连通, 由于这条连通路径的中间
节点 X29 和 X15 没有被识别到, 导致 X14–X16 因果边未被成功 d-分离, 最后被错误判断为直接相连的因果边而
添加. 类似的, X7→X20, X28→X20 也是具有潜在间接因果关系, 但是由于算法在爬边过程中, X11 作为关键的连
通路径中的 d-分离节点还未被找回导致这两条边被错误的恢复了, 这也是启发式算法通常所面临的局部最优解问
题. 最后, X13→X11 则是由于 V 结构定向规则导致的误判问题. 与原始算法相比, 本研究的算法成功恢复了 6 条
正确的因果边, 同时误学习了 3 条错误的因果边, 以及一条方向错误的因果边, 在真实数据实验中观察到, 尽管存
在部分错误的因果先验节点, 但这些节点并没有直接导致因果识别结果的错误. 相反, 更多的错误是由于未能找到
连通路径中关键节点集造成的. 这说明在真实数据上, 本算法对部分错误先验信息具有一定的抗干扰能力, 进一步
证实了 MMDCL 算法能够有效地找回潜在因果结构中存在的因果关系.
X7
X33 X22 X12 X5 X1 X2 X3
X10 X13 X11 X27 X25 X23 X24
X4
X28 X14 X20 X6
X17 X29 X26 X8 X9
X30 X15 X32
X19 X16 X18 X21
X31
正确的无向边 正确的有向边 错误的无向边 错误的有向边 正确的有向边 错误的有向边
PC_Stable PC_Stable+MMDCL
图 9 真实数据下 MMDCL 的结构学习结果
5 讨 论
MMDCL 算法旨在通过部分先验结构信息降低高方差节点对 CIT 结果的影响, 从而增强条件独立性检验的准
确性, 保证结构学习算法的有效性. 该算法框架建立在线性无环因果结构模型的基础上, 并假设变量间的因果关系
可以被建模为线性关系. 尽管线性因果模型在基因表达 [7] 、生物化学研究 [8] 、医疗病理分析 [9] 、社会学分析 [10,11]
等能够被构建为贝叶斯网络模型的现实数据中得到广泛的应用, 但本文方法的理论结果并不能直接推广到非线
性, 高复杂结构的数据中. 其本质的原因在于, 本算法通过线性回归进行增强的条件独立性检验, 并基于偏相关检
验来量化变量间的条件独立性. 然而偏相关检验并不适用于测试非线性模型下的条件独立性. 一种可能的解决方
案是通过分析条件互信息在消除高方差噪声干扰下的统计特性, 来拓展本文的理论结果到非线性模型上, 这将是
未来需要进一步研究的工作.

