Page 223 - 《软件学报》2025年第9期
P. 223
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(9):4134−4152 [doi: 10.13328/j.cnki.jos.007261] [CSTR: 32375.14.jos.007261] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
基于增强条件独立性检验的鲁棒因果发现算法
郝志峰 1,2 , 汪菲霞 1 , 陈正鸣 1 , 乔 杰 1 , 蔡瑞初 1
1
(广东工业大学 计算机学院, 广东 广州 510006)
2
(汕头大学 理学院, 广东 汕头 515063)
通信作者: 蔡瑞初, E-mail: cairuichu@gmail.com
摘 要: 因果关系发现旨在从观测数据中发现变量间的因果关系, 是帮助我们理解自然界、社会和技术系统中各
种现象和变化的重要方法. 一种主流的因果发现方法是基于约束的算法, 这类算法通过检验变量间的条件独立性
关系来确定变量之间的因果结构. 然而, 现实世界的数据收集往往受资源或技术的限制, 面临样本量有限, 节点方
差大等挑战. 在这些场景下, 条件独立性检验的正确率受到极大影响, 导致学到的因果图中部分变量的因果边被错
误地删除, 影响了算法输出的准确性. 为此, 提出一种增强的条件独立性检验的方法, 该方法的核心在于尽可能减
少无关外部噪声对于待测试变量的干扰, 从而提高条件独立性检验结果的准确性. 基于该增强的条件独立性检验
方法, 提出一种基于启发式搜索的结构学习算法, 该算法在初始结构图的基础上, 迭代搜索被误删的因果边, 基于
增强的条件独立性检验并结合得分优化的思想, 重构因果结构. 实验结果显示, 相较于现有方法, 所提算法在仿真
数据、贝叶斯网络数据以及真实数据上的 F1 值和结构汉明距离 (SHD) 均有显著提升, 证明在有限样本和因果结
构中存在高方差节点的条件下更准确地揭示观测数据中潜在的真实因果结构的能力.
关键词: 因果结构学习; 有限样本量; 高方差节点; 增强条件独立性检验
中图法分类号: TP18
中文引用格式: 郝志峰, 汪菲霞, 陈正鸣, 乔杰, 蔡瑞初. 基于增强条件独立性检验的鲁棒因果发现算法. 软件学报, 2025, 36(9):
4134–4152. http://www.jos.org.cn/1000-9825/7261.htm
英文引用格式: Hao ZF, Wang FX, Chen ZM, Qiao J, Cai RC. Robust Causal Discovery Algorithm Based on Enhanced Conditional
Independence Tests. Ruan Jian Xue Bao/Journal of Software, 2025, 36(9): 4134–4152 (in Chinese). http://www.jos.org.cn/1000-9825/
7261.htm
Robust Causal Discovery Algorithm Based on Enhanced Conditional Independence Tests
1
1
1
1,2
HAO Zhi-Feng , WANG Fei-Xia , CHEN Zheng-Ming , QIAO Jie , CAI Rui-Chu 1
1
(School of Computer, Guangdong University of Technology, Guangzhou 510006, China)
2
(College of Science, Shantou University, Shantou 515063, China)
Abstract: Causal discovery aims to uncover causal relationships among variables from observational data, serving as a crucial method for
understanding various phenomena and changes in natural, social, and technological systems. A mainstream approach for causal discovery is
a constraint-based algorithm, which determines the causal structure among variables by examining their conditional independence.
However, data collection in the real world often faces challenges such as limited sample sizes and high variance among nodes due to
resource or technical constraints. In these scenarios, the accuracy of conditional independence tests is greatly affected, leading to erroneous
deletion of causal edges of some variables in learned causal graphs, thereby impacting the accuracy of the algorithm’s output. To address
this issue, this study proposes an enhanced method for conditional independence testing, which focuses on minimizing the interference of
irrelevant external noise on the variables being tested, thereby improving the accuracy of conditional independence tests. Based on this
* 基金项目: 新一代人工智能国家科技重大专项 (2021ZD0111501); 国家优秀青年科学基金 (62122022)
收稿时间: 2024-04-08; 修改时间: 2024-06-06; 采用时间: 2024-07-25; jos 在线出版时间: 2024-12-25
CNKI 网络首发时间: 2024-12-26

