Page 239 - 《软件学报》2025年第9期
P. 239

4150                                                       软件学报  2025  年第  36  卷第  9  期


                    此外, 由于本算法在消除高方差节点的影响时需要最大可能的利用已知先验信息, 当先验节点不准的情况下
                 (例如错误删除了父亲节点), 很可能导致增强独立性检验判断出一些错误的依赖关系, 使得领域搜索阶段得到部
                 分的错误因果候选边. 为了避免恢复错误的因果边, 算法在进行结构更新时, 通过最小结构依赖测量每次选择候选
                 结构中依赖得分最小的结构, 进而避免并减少部分错误的因果边被恢复的情况, 通过这一步骤可以有效避免错误
                 先验导致的迭代错误问题. 其中, 最小结构依赖测量是一种结构得分的方法, 但相对于经典的得分算法                               GES  而言,
                 本算法在进行结构评分之前, 首先通过增强独立性检验对节点间的因果相关关系进行判断, 筛选掉大部分的无关
                 候选边, 避免了    GES  算法需要遍历所有可能的候选边进行最优结构计算的问题. 其次, 本文算法的目标是解决条
                 件独立性检验在受到高方差节点影响下结构不准确的问题, 算法本质上是对条件独立性检验过程的优化, 最小结
                 构依赖测量作为辅助验证的方法保证更新结构的准确性, 相对于                     GES  高度依赖得分方法的结果, 本文算法通过增
                 强独立性检验和最小结构依赖测量的双重检验步骤有效的中和了假阳性和假阴性结果的输出.

                 6   总 结

                    本研究针对基于约束的因果发现算法在样本受限和真实因果结构存在高方差节点的条件下存在的结构学习性
                 能下降问题, 通过对经典条件独立性检验方法              (Fisher_Z  检验) 进行实验分析和理论推导, 揭示了高方差父节点引入
                 的噪声是影响子节点与其低方差父节点的               CIT  结果不可靠, 进而导致结构学习性能下降的主要原因. 为此, 本研究
                 提出了利用部分已知结构信息来消除已知的高方差父节点引入的噪声, 以提升                         CIT  结果的可靠性. 紧接着, 基于上
                 述增强的条件独立性检验方法, 本文提出了             MMDCL   算法, 并在数据仿真实验、贝叶斯网络数据和真实数据中, 验
                 证了该算法能有效地恢复因果图中因误判而丢失的因果边. MMDCL                     算法为在样本受限和真实因果结构存在高方
                 差节点的条件下的因果关系研究提供了一种更精确、更可靠的方法. 此外, 基于先验信息本研究提出的算法框架还
                 能适用于更多的场景, 未来的研究可以进一步探索先验信息的准确性, 提升因果结构学习策略的准确性与适用性.

                 References:
                  [1]   Spirtes P, Zhang K. Causal discovery and inference: Concepts and recent methodological advances. Applied Informatics, 2016, 3: 3. [doi:
                     10.1186/s40535-016-0018-x]
                  [2]   Pearl J, Mackenzie D. The Book of Why: The New Science of Cause and Effect. New York: Basic Books Inc., 2018.
                  [3]   Cai  RC,  Zhang  ZJ,  Hao  ZF,  Winslett  M.  Understanding  social  causalities  behind  human  action  sequences.  IEEE  Trans.  on  Neural
                     Networks and Learning Systems, 2017, 28(8): 1801–1813. [doi: 10.1109/TNNLS.2016.2556724]
                  [4]   Runge J, Nowack P, Kretschmer M, Flaxman S, Sejdinovic D. Detecting and quantifying causal associations in large nonlinear time series
                     datasets. Science Advances, 2019, 5(11): eaau4996. [doi: 10.1126/sciadv.aau4996]
                  [5]   Cai RC, Zhang ZJ, Hao ZF. Causal gene identification using combinatorial V-structure search. Neural Networks, 2013, 43: 63–71. [doi:
                     10.1016/j.neunet.2013.01.025]
                  [6]   Cai RC, Zhang ZJ, Hao ZF. BASSUM: A Bayesian semi-supervised method for classification feature selection. Pattern Recognition,
                     2011, 44(4): 811–820. [doi: 10.1016/j.patcog.2010.10.023]
                  [7]   De  La  Fuente  A,  Bing  N,  Hoeschele  I,  Mendes  P.  Discovery  of  meaningful  associations  in  genomic  data  using  partial  correlation
                     coefficients. Bioinformatics, 2004, 20(18): 3565–3574. [doi: 10.1093/bioinformatics/bth445]
                  [8]   Yang J, An N, Alterovitz G. A partial correlation statistic structure learning algorithm under linear structural equation models. IEEE
                     Trans. on Knowledge and Data Engineering, 2016, 28(10): 2552–2565. [doi: 10.1109/TKDE.2016.2578315]
                  [9]   Shen XP, Ma SS, Vemuri P, Simon G, Alzheimer’s Disease Neuroimaging Initiative. Challenges and opportunities with causal discovery
                     algorithms: Application to Alzheimer’s pathophysiology. Scientific Reports, 2020, 10(1): 2975. [doi: 10.1038/s41598-020-59669-x]
                 [10]   Girju R. Toward social causality: An analysis of interpersonal relationships in online blogs and forums. In: Proc. of the 4th Int’l AAAI
                     Conf. on Web and Social Media. Washington: AAAI, 2010. 66–73. [doi: 10.1609/icwsm. v4i1.14030]
                 [11]   Yang J, Li N, An N, Chen Y, Alterovitz G. An efficient causal structure learning algorithm for linear arbitrarily distributed continuous
                     data. The Journal of Supercomputing, 2020, 76(5): 3355–3363. [doi: 10.1007/s11227-018-2557-5]
                 [12]   Zhao  SD,  Liu  T.  Causality  and  its  applications  in  social  media:  A  survey.  Ruan  Jian  Xue  Bao/Journal  of  Software,  2014,  25(12):
                     2733–2752 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/4724.htm [doi: 10.13328/j.cnki.jos.004724]
                 [13]   Wang ZX, Chan LW. An efficient causal discovery algorithm for linear models. In: Proc. of the 16th ACM SIGKDD Int’l Conf. on
                     Knowledge Discovery and Data Mining. Washington: ACM, 2010. 1109–1118. [doi: 10.1145/1835804.1835944]
   234   235   236   237   238   239   240   241   242   243   244