Page 233 - 《软件学报》2025年第9期

P. 233

4144 软件学报 2025 年第 36 卷第 9 期

构中挑选出最优结构, 并进行结构更新 (算法 1 第 20 行). 完成了启发式算法中单次迭代过程的实现. 通过以上方
法, 算法有效地解决了当真实因果结构存在高方差父节点使得 CIT 结果准确性下降, 进而导致因果边被误删的问
题, 实现了对这些误删因果边的精确恢复.

4 实验分析
本节将进一步对 MMDCL 算法通过仿真数据、贝叶斯网络数据和真实数据进行实验评估. 本节将在 4.1 节详
细介绍实验的对比方法, 所用数据集以及评估指标. 在第 4.2 节、第 4.3 节和第 4.4 节针对 MMDCL 算法与其他 5
种代表性的基于约束的因果结构学习算法分别在仿真数据、贝叶斯网络数据和真实数据这 3 个数据集的实验情
况进行分析和评估.

4.1 实验设置

4.1.1 对比方法
在对比方法中, 本文考虑了经典的全局结构学习算法以及从局部到全局的因果结构学习算法共 5 种结构学习
算法作为本文的对比方法. 经典的全局结构学习算法有 PC [20] 以及其改进版本 PC_Stable [46] 和 PC_Maxp [46] 算法.
PC_Stable 在 PC 的基础上引入了稳健的结构学习, 以避免由于特征排序导致的问题. PC_Maxp 算法提出了在 PC
的基础上对 V 结构冲突采用最大得分定向的概念. 为避免高阶 CIT 问题, PC 系算法统一将条件集大小限制为 3
个节点以内. 从局部到全局的因果结构学习算法包括 GSBN [23] 和 ADL [43] 算法, 其中 GSBN 通过学习每个变量的
MB (Markov blanket), 在对称校验方法中通过统一的接收不对称结果来构建骨架, 最后通过条件独立性检验来确
定边的方向. 而 ADL 方法则在对称校验中提出了自适应的骨架拼接策略, 并通过 MMHC 进行因果边定向和扩展
的因果边搜索过程.

4.1.2 数据介绍
仿真数据: 仿真因果结构数据的生成机制服从线性无环因果结构模型:

∑
X i = b ij X j +ε X i ,
X j ∈Pa( G T ,X i)
其中, ε X i ∼ N (0,a),a ∈ [0,500] 表示随机生成的噪声, 用于模拟真实因果结构中存在高方差节点的情况, b ij ∼ U (−1,0)
X i 的因果边强度. 在实验中, 对 CIT 检验中的回归消除部分采用了多元线性
∪U (0,1) 表示从父变量 X j 指向子变量
回归方法. 实验的其他参数见表 2, 其中粗体表示对照实验中的默认设置.

表 2 仿真数据参数设置

参数范围
Dimension (节点维度) {5, 10, 15, 20, 25, 30, 35, 40}
Sample size (样本量) {500, 1 000, 1 500, 2 000}
Average in-degree (平均入度) {1, 1.5, 2, 2.5}

贝叶斯网络数据: 贝叶斯网络数据使用的是由 Scutari 等人 [47] 构建的“multiple quantitative trait analysis using
Bayesian networks”数据集, 该系列数据集涵盖了 multiparent advanced generation inter-cross (MAGIC) 冬小麦种群
的信息, 综合了多个定量性状, 每个个体都进行了基因分型, 该数据集收录于 https://www.bnlearn.com/bnrepository/,
其结构来源于真实世界并提供了数据生成的方法, 本文将该数据集分为 3 组数据样本量, 分别包含 500、1 000 和
2 000 个数据实例. 具体信息如表 3 所示.

表 3 贝叶斯网络数据集结构信息

数据集观察节点平均入度最大入度边数
MAGIC-NIAB 44 3 9 66
MAGIC-IRRI 64 3.19 9.97 230

228 229 230 231 232 233 234 235 236 237 238