Page 95 - 《软件学报》2025年第7期
P. 95

3016                                                       软件学报  2025  年第  36  卷第  7  期



                                             40

                                             30
                                            分布 (%)  20



                                             10


                                              0
                                                0    0.2   0.4   0.6  0.8   1.0
                                                            相似度
                                     图 8 内联二进制函数与源代码函数集合之间相似度的分布


                 5.2.2    ECOCCJ48  的检测精度分析
                    在  ECOCCJ48  的检测精度评估中, 本节选择了         5  种现有的  MLC  方法作为对比, 并使用了准确率、召回率和
                 F1  分数等衡量指标, 对    ECOCCJ48  在内联函数调用预测这一任务上进行了实验评估.
                    图  9  展示了针对内联函数调用预测的评估结果. 横轴代表基分类器的数量, 纵轴代表相应的衡量指标. 对于精
                 确率、召回率和      F1  分数, 数值越高越好. 对于除      AdaBoost 之外的大多数     MLC  方法, 随着基分类器数量的增加,

                 这些指标也会提高. AdaBoost 通过增加额外的基分类器来适应错误分类的样本, 当基分类器数量增多时,
                 AdaBoost 会对训练集过度拟合, 从而对测试集的泛化能力减弱.


                        0.86                                    0.70
                        0.84
                                                                0.64
                        0.82
                                                                0.66
                        准确率  0.80                              召回率  0.64
                        0.78
                        0.76                                    0.62
                        0.74
                                                                0.60
                        0.72
                            0   50   100  150  200  250  300       0    50   100  150  200  250  300
                                      基分类器的个数                                基分类器的个数
                                        (a) 准确率                                 (b) 召回率
                                               0.74

                                               0.72
                                              F1 分数  0.70


                                               0.68

                                               0.66
                                                  0    50   100  150  200  250  300
                                                            基分类器的个数
                                                              (c) F1 分数
                                            RFPCT  RFDTBR  ECCJ48  EBRJ48  AdaBoost  ECOCCJ48
                                        图 9 ECOCCJ48  和其他多标签分类方法的衡量结果
   90   91   92   93   94   95   96   97   98   99   100