Page 226 - 《软件学报》2025年第9期
P. 226

郝志峰 等: 基于增强条件独立性检验的鲁棒因果发现算法                                                     4137


                 编码方法来全面探索可能的关系, 通过识别并丢弃于答案集逻辑不一致的结果, 优先保留更可信的检验, 以进一步
                 扩展到更宽松的假设中        [31] . LGSL  方法受到数据样本、噪声等影响, 在骨架拼接过程中遇到了局部结构不对称问
                 题, 传统的  LGSL  方法通常采用统一的接收或拒绝策略处理局部结构中出现的不对称因果边; 为了改进这一流程,
                 Guo  等人  [43] 基于  MMHC  方法进一步提出  ADL  算法, 该算法在拼接局部结构时引入了自适应的                AND  或  OR  规
                 则, 优化了局部结构拼接中因果边的保留或移除的决策过程.

                 2   因果模型与问题定义

                    本研究关注在样本受限和真实因果结构中存在高方差节点的条件下, 在基于约束的因果发现框架进行因果结
                 构学习的问题. 本文的理论结果和可靠性算法建立在因果图模型之上. 因此, 本节首先介绍因果图模型中常用的基
                 本定义和符号系统       (第  2.1  节), 并进一步说明当真实因果结构中存在高方差节点时, 基于约束的因果发现算法所
                 存在的问题    (第  2.2  节). 本文涉及的符号及其含义如表       1  所示.

                                                    表 1 符号和对应描述

                                   符号                                 含义
                                     n                          表示变量维度/节点个数
                                    m                         表示每个变量的样本量大小
                                    D                         具有  n 个随机变量的数据集
                                    V                          D中  n 个随机变量的集合
                                   V i ,V j                  V中的单个变量    (i, j = 1,2,...,n)
                                   ˆ V i , ˆ V j
                                                             ˆ V i , ˆ V j 表示对  V i ,V j  回归后的变量
                                    S                              V内的条件集
                                  V i ⊥V j | S                  V i 和  V j  给定集合S独立
                                    (   )
                                 dSet V i ,V j                   V i 与  V j  的d-分离集
                              TrueGraph,简写  G T                真实因果结构图true graph
                                DAG, 简写  G                        有向无环图DAG
                               CPDAG, 简写  G  pd        部分定向 (partially directed)的有向无环图CPDAG
                                    V tail                对于图  G  pd   上的有向边  V i → V j ,V tail = V j
                                                                                {       }
                                  Pa(G,V i )
                                                       V i 在G上的父节点, 表示   Pa(G,V i ) = V j |V j → V i
                                                                            {                 }
                                 Ad j(G,V i )                      Ad j(G,V i ) = V j V j → V i ||V j ← V||V j −V

                                                 V i 在G上的邻接节点, 表示
                                                                                  {      }
                                 Ad j(G,V i )         V i 在G上的非邻接节点, 表示   Ad j(G,V i ) = V j |V j /−V i

                 2.1   背景知识
                    在因果图模型中, 通常将变量间的因果关系用有向无环图                   (direct acyclic graph, DAG) [33] 表示, 该图也称为因果
                                                                         (   )    (   )
                 图, 因果图  G = {V,E}, 由节点集合   V  和边集   E  组成. 因果图中有向边满足     V j ,V i ∈ E, V i ,V j < E  约束, 其中  V j  是   V i
                 的父亲节点, 记为     V j → V i , 边的权重代表  V j  到  V i  的因果强度大小. 一般来说, 基于约束的因果结构学习算法的正
                 确性在因果充分性、马尔可夫性和因果忠诚性等假设下得到保障                      [33] .
                    假设  1. 因果充分性假设     [33] . 当变量集  V  中的任意两个变量的直接原因变量都存在            V  中时, 变量集  V  就被认
                 为是因果充分的.
                    假设  2. 因果马尔可夫假设      [33] . 对于具有因果充分性的变量集       V  而言, 在已知变量的父亲节点的条件下, 所有
                 变量与他们的非后裔节点互相条件独立.
                    假设  3. 因果忠诚性假设     [33] . 数据集  D 的分布忠诚于因果图    G, 对于任意的    V i ,V j ∈ V (i , j) 和集合  S ∈ V, 如果
                 V i ,V j  在给定集合  S  的变量下条件独立, 那么  V i ,V j  被集合  S  中的变量  d-分离;
   221   222   223   224   225   226   227   228   229   230   231