Page 224 - 《软件学报》2025年第9期
P. 224

郝志峰 等: 基于增强条件独立性检验的鲁棒因果发现算法                                                     4135


                 enhanced  method,  the  paper  introduces  a  structure  learning  algorithm  based  on  heuristic  search,  which  iteratively  searches  for  mistakenly
                 deleted  causal  edges  on  a  graph  with  an  initial  structure.  This  algorithm  reconstructs  the  causal  structure  by  combining  enhanced
                 conditional  independence  tests  with  score  optimization.  Experimental  results  show  that,  compared  to  existing  methods,  the  proposed
                 algorithm  significantly  improves  both  the  F1  score  and  the  structural  Hamming  distance  (SHD)  on  simulated,  Bayesian  network,  and  real
                 data,  demonstrating  its  ability  to  more  accurately  reveal  underlying  causal  structures  in  observational  data  with  limited  samples  and  high-
                 variance nodes.
                 Key words:  causal structure learning; limited sample size; high-variance node; enhanced conditional independence test

                    因果关系发现是一种研究复杂系统中变量之间相互作用本质的重要方法之一                            [1,2] . 这类方法通常利用统计模
                 型, 机器学习技术以及随机实验等手段, 分析并识别数据中变量间的因果结构. 通过学习变量之间的因果关系, 能
                 够帮助我们深入理解系统内部变量的作用机制及其相互之间的作用关系, 进而做出更有效的决策和预测. 近年来,
                 在生态气候学     [3,4] 、生物基因学  [5−9] 、社交网络  [10–12] 、人工智能  [13−16] 以及经济学  [17−19] 等多个领域得到广泛的关注
                 和应用.
                    为了能够从数据中学习变量间的因果关系, 常用的一类方法是基于约束的因果发现算法, 其中, PC (Peter-
                 Clark) 算法  [20] 是该方法的典型代表. 它通过对数据中的变量执行条件独立性检验                  (conditional independence test,
                 CIT) 来判断变量之间是否存在直接因果边, 并综合结果来学习因果结构                     [21,22] . 在这个过程中, CIT  的性能至关重
                 要, 因为  CIT  的准确结果直接影响算法能否得到正确的结果. 其算法的正确性通常基于一个关键假设: 即对数据执
                 行的所有   CIT  都必须是准确的. 然而, 面对现实世界中样本量有限和噪声方差差异大等现实挑战时, CIT                        的结果往
                 往变得不可靠, 进而导致因果结构学习算法得到的结果出现错误, 算法输出结果的可靠性受到质疑                               [23−25] .
                    为提升基于约束方法在实际场景下的可靠性, 研究者们从高阶                     CIT  困扰  [26] 、条件独立性冲突  [27] 和对称性校
                 验  [28] 等方面进行了算法的优化. 在高阶      CIT  困扰的研究中, 认为 CIT    的结果不可靠是由于执行过程中条件集过大
                 而导致的   [26,29] . 因此研究者们采取诸如限制条件集大小         [29] 、设定数据实例数量    [28,30] 等条件, 以降低当条件集过大
                 时  CIT  的错误判断风险. 而条件独立性冲突的研究中认为             CIT  执行得到的不确定结果可以通过一种图形推理               [27,31]
                 的方法纠正, 如    Hyttinen  等人  [27] 引入了  SAT  答案集编码, 通过评估所有可能的结果排除逻辑上不一致的结果, 从
                 而保留更加可信的关系. 该技术后续被扩展, 以适应更加宽松的假设条件                      [31] . 此外, 在对称校验的研究中认为可以
                 通过结构中因果边的对称性校验的方法纠正错误的关系                    [23] . 该方法采用了一种极端的处理策略, 在检测到不对称
                 性时, 为了减少假阳性关系则拒绝所有不对称因果边                 [28,30] 或减少假阴性关系接受所有因果边        [32] . 虽然上述方法一
                 定程度上提升了因果发现算法的性能, 但在真实因果结构中存在高方差节点的情况下, 这些方法仍无法有效解决

                 CIT  结果不可靠的问题.
                    当真实的因果结构中存在高方差节点时, 这些高方差节点会影响其子节点与其他父节点之间执行                                 CIT  检验的
                 结果, 导致  CIT  无法有效检验真实的因果关系, 进而影响因果结构学习的准确性. 以图                     1  为例, 第  1  行表示真实的

                 因果结构   V 1 → V 2 ← V 3 , 其中  Var 表示节点方差, 所有边系数为  1, 样本量为  1 000. 第  2  行描述了在未考虑节点    V 3
                 的情况下, 其子节点      V 2  与节点  V 1  的  CIT  检验结果. 在图  1(a) 中, 当节点  V 3  方差为  1  时, CIT  检验得到相关系数为
                 0.40,  p 值为  0.0, 此时有效识别出  V 1  与  V 2  的因果边. 但在图  1(b) 中, 将节点  V 3  的方差增加到  10,  V 1  和  V 2  的相关系
                 数减小到    0.049,  p 值上升到  0.09, 此时该因果边就存在被删除的风险. 进而在图           1(c) 中, 随着节点  V 3  方差继续增
                 大, CIT  判定   V 1  与  V 2  相互独立, 从而在学习到的因果结构中删除了它们之间的因果边. 当节点数量增加且样本量
                 受限时, 因果结构中高方差节点的影响会进一步增大, 使得                 CIT  的准确性大幅下降, 进而导致算法错误地删除在真
                 实因果结构中的重要因果边.
                    为了减轻高方差节点对子节点的             CIT  结果的影响, 本文提出了“增强条件独立性检验”方法, 以适当地消除
                 CIT  检验中存在的高方差节点噪声; 并进一步提出在样本受限和真实结构中存在高方差节点的条件下识别和学习
                 因果结构的算法. 此算法在启发式搜索的框架下, 通过                PC  算法得到的部分有向无环图的初始结果, 迭代进行增强
                 的独立性检验和优化最小结构依赖得分, 逐步恢复                 PC  算法输出结果中缺失的因果边, 从而得到关于数据的可靠
   219   220   221   222   223   224   225   226   227   228   229