Page 238 - 《软件学报》2025年第9期
P. 238

郝志峰 等: 基于增强条件独立性检验的鲁棒因果发现算法                                                     4149


                 图  9  所示. 图  9  中的节点代表观测变量, 除去     X27  和  X31  之后, 共有  31  个节点参与分析. 其中, 浅灰色的边代表
                 PC_Stable  算法错误地学习到的因果边, 虚线边表示正确学习到的因果边, 包括了无向边和有向边. 实线边表示
                 MMDCL  算法成功恢复的正确因果边, 而双横线边则代表                MMDCL  算法恢复的错误因果边. 图         9  中, 正确因果边
                 的两端节点用黑色方块突出表示. 例如, 对于因果边               X32→X9, 考虑到    X32  有先验的父节点    X21  和  X6, 而  X9  有
                 先验的父节点     X6, 在进一步测量     CIT(X32−f(X21),X9|X6) 的情况下, 这条因果边便能被成功恢复. 同理, 在考虑
                 CIT(X8,X9−f(32)−f(6)) 的情况下, 又可以恢复出     X8→X9  的因果对于错误学习到的因果边, 如            X14→X16, 其中
                 X14  是  X16  的潜在祖先, 它们在真实因果结构中通过路径           X14→X29→X15→X16   连通, 由于这条连通路径的中间
                 节点  X29  和  X15  没有被识别到, 导致  X14–X16  因果边未被成功     d-分离, 最后被错误判断为直接相连的因果边而
                 添加. 类似的, X7→X20, X28→X20   也是具有潜在间接因果关系, 但是由于算法在爬边过程中, X11                  作为关键的连
                 通路径中的    d-分离节点还未被找回导致这两条边被错误的恢复了, 这也是启发式算法通常所面临的局部最优解问
                 题. 最后, X13→X11  则是由于   V  结构定向规则导致的误判问题. 与原始算法相比, 本研究的算法成功恢复了                       6  条
                 正确的因果边, 同时误学习了         3  条错误的因果边, 以及一条方向错误的因果边, 在真实数据实验中观察到, 尽管存
                 在部分错误的因果先验节点, 但这些节点并没有直接导致因果识别结果的错误. 相反, 更多的错误是由于未能找到
                 连通路径中关键节点集造成的. 这说明在真实数据上, 本算法对部分错误先验信息具有一定的抗干扰能力, 进一步
                 证实了   MMDCL  算法能够有效地找回潜在因果结构中存在的因果关系.

                                                              X7
                                       X33   X22   X12    X5          X1    X2   X3

                                       X10   X13   X11    X27        X25   X23   X24
                                                                X4
                                          X28      X14    X20               X6

                                          X17             X29   X26   X8    X9


                                          X30             X15              X32

                                          X19        X16      X18          X21

                                          X31
                              正确的无向边     正确的有向边      错误的无向边    错误的有向边       正确的有向边     错误的有向边
                                              PC_Stable                      PC_Stable+MMDCL
                                           图 9 真实数据下      MMDCL  的结构学习结果

                 5   讨 论

                    MMDCL   算法旨在通过部分先验结构信息降低高方差节点对                  CIT  结果的影响, 从而增强条件独立性检验的准
                 确性, 保证结构学习算法的有效性. 该算法框架建立在线性无环因果结构模型的基础上, 并假设变量间的因果关系
                 可以被建模为线性关系. 尽管线性因果模型在基因表达                  [7] 、生物化学研究   [8] 、医疗病理分析   [9] 、社会学分析   [10,11]
                 等能够被构建为贝叶斯网络模型的现实数据中得到广泛的应用, 但本文方法的理论结果并不能直接推广到非线
                 性, 高复杂结构的数据中. 其本质的原因在于, 本算法通过线性回归进行增强的条件独立性检验, 并基于偏相关检
                 验来量化变量间的条件独立性. 然而偏相关检验并不适用于测试非线性模型下的条件独立性. 一种可能的解决方
                 案是通过分析条件互信息在消除高方差噪声干扰下的统计特性, 来拓展本文的理论结果到非线性模型上, 这将是
                 未来需要进一步研究的工作.
   233   234   235   236   237   238   239   240   241   242   243