Page 21 - 《软件学报》2025年第7期

P. 21

2942 软件学报 2025 年第 36 卷第 7 期

后的算法记为 tradition_spl_imp. 本文在深度 treeDepth 取值为 4, 5, 6, 7, 8 的情况下进行实验. 从图 5 所示的结果
可以看出, 使用 tradition 算法构建出来的模型, 在所有数据集上的准确度始终低于 tradition_spl_imp. 这表明本文
提出的分支节点创建方法是有效的. 相比传统方法使用的指数机制, 重排翻转机制将部分概率从得分较低的选项
重新分配到得分较高的选项, 从而使得得分较高的选项具有比指数机制更高的输出概率. 本文巧妙地引入重排翻
转机制, 在分裂特征的选择上进行有效设计. 在算法设计阶段, 本文可以确保基尼指数最小的特征具有最高的得
分, 基尼指数越大的特征具有越低的分数, 从而保证算法在访问数据时有极大的概率获得更优特征. 同时, 从图中
也可以看出, 在深度不同时, 本方法始终优于传统方法, 进一步说明本方法的鲁棒性, 即在不同条件下都能保持更
好的表现和稳定性.

83 77
tradition tradition
tradition_spl_imp
82 76 tradition_spl_imp
75
81
74
Acc (%) Acc (%) 73
80
79
72
78
71
77 70
76 69
4 5 6 7 8 4 5 6 7 8
treeDepth treeDepth
(a) diabetes 数据集 (b) wall-following robot 数据集
图 5 分支节点有效性评估

为验证叶子节点创建方法有效性, 本文将 tradition 算法的叶子节点创建方法替换成所提出的方法, 并将替换
后的算法记为 tradition_leaf_imp. 与前一个实验相同, 本次实验在深度分别为 4, 5, 6, 7 和 8 的情况下进行. 图 6 可
以看出 tradition_leaf_imp 的预测准确度始终高于 tradition, 该结果证实了本方法的有效性. 传统方法直接向计数值
添加拉普拉斯噪声容易导致数值的随机增加或减少, 有极大可能会导致标签的类别计数相对大小发生变化, 导致
生成的叶子节点标签偏离正确的结果, 进而影响决策树模型的精确预测能力. 相比之下, tradition_leaf_imp 算法修
改了叶子节点标签的获取方式, 将其与更为先进的重排翻转机制结合, 相比于传统方法可以实现更精准的标签
输出.

82 74
81
73
80
72
Acc (%) 79 Acc (%)
78 71
tradition 70 tradition
77
tradition_leaf_imp tradition_leaf_imp
76 69
4 5 6 7 8 4 5 6 7 8
treeDepth treeDepth
(a) diabetes 数据集 (b) wall-following robot 数据集
图 6 叶子节点有效性评估

图 7 描述了本文算法与 tradition 算法生成的决策树模型预测准确度对比结果, 可以看到在所有数据集上, 本
文算法的预测准确度均要高于 tradition 算法, 通过前面的分析可知, 本文算法在分支节点的创建方式以及叶子节
点的创建方式上均优于 tradition 算法, 因此使用本文算法创建而成的决策树在准确度方面也会优于 tradition 算法.

16 17 18 19 20 21 22 23 24 25 26