Page 227 - 《软件学报》2025年第9期
P. 227

4138                                                       软件学报  2025  年第  36  卷第  9  期


                    在上述的假设下, 基于约束的因果结构学习算法通过检验数据中变量的条件独立性关系, 来确定因果结构图
                 中变量之间是否存在直接的因果边. 该概念通常被表示为图上的一种                      d-分离关系, 具体定义如定义        1  所示.
                    定义  1. d-分离  [33] . 对于给定的有向无环图   G = {V,E}, 当  G 上的非邻接节点  V i ,V j ∈ V  的所有连通路径被集合  Z
                 阻断, 那么我们说集合      Z  在图  G  中  d-分离了非邻接节点对, 并且    Z  需要满足:
                    (1) 路径上的每个非对撞节点        W ∈ E.
                    (2) 路径上的每个对撞节点或者对撞节点的后代              W < E.
                    通过迭代地确定变量间的          d-分离关系, Pearl 给出了基于约束方法的识别性结果            [33] , 即数据的因果结构图可以
                 被识别为马尔可夫等价类         (Markov equivalence classes).
                    定义  2. 马尔可夫等价类     [33] . 对于有向无环图  DAG = {V,E}, 若存在一组  DAGs 在条件独立性上不可区分, 则这
                 些  DAGs 构成一个马尔可夫等价类, 所有属于同一马尔可夫等价类的                   DAG  具有相同的骨架      (skeleton) 和相同的
                 V  结构  (对撞结构).
                    马尔可夫等价类可以进一步被表示为一个部分有向无环图                     (partially directed acyclic graph, PDAG) 的, 其中有
                 向边表示所有等价类的图都具有相同的因果方向.
                    定义  3. CPDAG  图  [33] . CPDAG  是一个图形表示, 用于可视化属于同一马尔可夫等价类的            DAG, 它结合了有向
                 边和无向边来描绘因果关系, 其中,
                    (1) 每个有向边   V j → V i , 存在于属于等价类的每个    DAG  中.
                    (2) 每个无向边   V j −V i , 存在某个等价类表示为   V j → V i  和某个等价类中表示为    V j ← V i .
                 2.2   问题定义
                    为了研究真实因果结构中存在高方差节点时因果关系发现存在的问题, 在本研究中, 假设数据生成过程遵循
                 线性无环因果结构方程模型          [37] 定义, 表示为:

                                                         ∑
                                                    V i =     b ij V j +ε V i
                                                                                                      (1)
                                                       V j ∈Pa( G T ,V i)
                                  (    )
                                                              T
                                    T
                 其中,  i = 1,2,...,n; Pa G ,V i  表示  V i  在真实因果结构图  G  的父节点.  b ij  指  V i  和其父节点  V j  的因果边强度, 噪声
                 项  ε 互相统计独立.
                    线性无环因果结构方程模型建模数据的产生过程为一种加性的线性函数方程, 具有易于分析, 简洁有效的特
                 点, 在基因表达    [7] 、生物化学研究   [8] 、医疗病理分析   [9] 、社会学分析  [10,11] 等邻域的建模中都得到了广泛的应用. 特
                 别地, 在线性模型下, 偏相关检验是常用的条件独立性检验工具. 在偏相关检验中主要涉及计算                           Pearson 相关系数  [44]
                 和进行   Fisher_Z  检验  [45] 两个过程. 本文提供的理论分析与示例都是基于这些过程所获得的结果. 接下来, 通过示
                 例具体分析图     1  结构下  CIT  的误差原因.
                    例  1: 因果结构中存在高方差节点时          CIT  误差. 考虑  (图  1) 的真实因果结构   V 1 → V 2 ← V 3 , 其中  V 1 , V 2  的数据

                 生成公式为:    V 1 = ε V 1  , V 2 = b 23 V 3 +b 21 V 1 +ε V 2  , b 23  和  b 21  表示因果边强度,  ε V 1   和  ε V 2   代表独立噪声. 计算  V 1 , V 2  的相

                 关系数得到公式      (2):

                                                                     √   (  )
                                                   Cov(V 1 ,V 2 )  b 21 Var ε V 1
                                        Corr(V 1 ,V 2 ) =   = √                                       (2)
                                                                   (            )
                                                     σ V 1  σ V 2
                                                                Var b 23 V 3 +b 21 V 1 +ε V 2
                                                                        √   (  )
                 其中,   Cov(V 1 ,V 2 ) 是  V 1 ,V 2  的协方差,   σ V 1  ,σ V 2   分别是  V 1 ,V 2  的标准差,  b 21 Var ε V 1   表示变量  V 1  的标准差和对  V 2  的
                                   √    (            )
                 因果边强度    b 21  的乘积,   Var b 23 V 3 +b 21 V 1 +ε V 2   表示此时节点  V 2  的标准差.
                    一般来说, 相关系数越趋近于         1, 代表变量之间的线性相关性越强; 相关系数趋近于               0, 代表两个变量之间的线
                 性相关性越差, 即趋近于相互独立. 对图           1(c) 结构的变量   V 1 ,V 2  有在真实因果结构中有因果边      V 1 → V 2 , 因此在线
                                                                                                √    (  )
                 性模型下, 两者是线性相关的, 即        Corr(V 1 ,V 2 ) 的结果趋近于  1. 然而, 由于   Corr(V 1 ,V 2 ) 的结果同时受到   b 21 Var ε V 1
                   √
                        (            )
                 与   Var b 23 V 3 +b 21 V 1 +ε V 2   两项的影响, 随着父节点  V 3  方差增大, 会使得公式  (2) 中的分母项明显大于分子项, 导
                 致  Corr(V 1 ,V 2 ) 的结果反趋向  0, 因此  CIT  将很大概率拒绝  V 1 ,V 2  的相关关系, 而拒绝这条因果边.
   222   223   224   225   226   227   228   229   230   231   232