Page 21 - 《软件学报》2025年第7期
P. 21

2942                                                       软件学报  2025  年第  36  卷第  7  期


                 后的算法记为     tradition_spl_imp. 本文在深度  treeDepth  取值为  4, 5, 6, 7, 8  的情况下进行实验. 从图  5  所示的结果
                 可以看出, 使用    tradition  算法构建出来的模型, 在所有数据集上的准确度始终低于               tradition_spl_imp. 这表明本文
                 提出的分支节点创建方法是有效的. 相比传统方法使用的指数机制, 重排翻转机制将部分概率从得分较低的选项
                 重新分配到得分较高的选项, 从而使得得分较高的选项具有比指数机制更高的输出概率. 本文巧妙地引入重排翻
                 转机制, 在分裂特征的选择上进行有效设计. 在算法设计阶段, 本文可以确保基尼指数最小的特征具有最高的得
                 分, 基尼指数越大的特征具有越低的分数, 从而保证算法在访问数据时有极大的概率获得更优特征. 同时, 从图中
                 也可以看出, 在深度不同时, 本方法始终优于传统方法, 进一步说明本方法的鲁棒性, 即在不同条件下都能保持更
                 好的表现和稳定性.

                         83                                     77
                                               tradition                                tradition
                                               tradition_spl_imp
                         82                                     76                      tradition_spl_imp
                                                                75
                         81
                                                                74
                        Acc (%)                                Acc (%)  73
                         80
                         79
                                                                72
                         78
                                                                71
                         77                                     70
                         76                                     69
                              4     5      6     7     8             4     5     6     7      8
                                        treeDepth                              treeDepth
                                     (a) diabetes 数据集                   (b) wall-following robot 数据集
                                                  图 5 分支节点有效性评估

                    为验证叶子节点创建方法有效性, 本文将              tradition  算法的叶子节点创建方法替换成所提出的方法, 并将替换
                 后的算法记为     tradition_leaf_imp. 与前一个实验相同, 本次实验在深度分别为         4, 5, 6, 7  和  8  的情况下进行. 图  6  可
                 以看出   tradition_leaf_imp  的预测准确度始终高于  tradition, 该结果证实了本方法的有效性. 传统方法直接向计数值
                 添加拉普拉斯噪声容易导致数值的随机增加或减少, 有极大可能会导致标签的类别计数相对大小发生变化, 导致
                 生成的叶子节点标签偏离正确的结果, 进而影响决策树模型的精确预测能力. 相比之下, tradition_leaf_imp                      算法修
                 改了叶子节点标签的获取方式, 将其与更为先进的重排翻转机制结合, 相比于传统方法可以实现更精准的标签
                 输出.


                          82                                    74
                          81
                                                                73
                          80
                                                                72
                         Acc (%)  79                            Acc (%)
                          78                                    71
                                            tradition           70                   tradition
                          77
                                            tradition_leaf_imp                       tradition_leaf_imp
                          76                                    69
                               4     5     6     7      8            4     5      6     7     8
                                         treeDepth                             treeDepth
                                     (a) diabetes 数据集                   (b) wall-following robot 数据集
                                                  图 6 叶子节点有效性评估

                    图  7  描述了本文算法与     tradition  算法生成的决策树模型预测准确度对比结果, 可以看到在所有数据集上, 本
                 文算法的预测准确度均要高于           tradition  算法, 通过前面的分析可知, 本文算法在分支节点的创建方式以及叶子节
                 点的创建方式上均优于        tradition  算法, 因此使用本文算法创建而成的决策树在准确度方面也会优于                  tradition  算法.
   16   17   18   19   20   21   22   23   24   25   26