Page 95 - 《软件学报》2025年第7期
P. 95
3016 软件学报 2025 年第 36 卷第 7 期
40
30
分布 (%) 20
10
0
0 0.2 0.4 0.6 0.8 1.0
相似度
图 8 内联二进制函数与源代码函数集合之间相似度的分布
5.2.2 ECOCCJ48 的检测精度分析
在 ECOCCJ48 的检测精度评估中, 本节选择了 5 种现有的 MLC 方法作为对比, 并使用了准确率、召回率和
F1 分数等衡量指标, 对 ECOCCJ48 在内联函数调用预测这一任务上进行了实验评估.
图 9 展示了针对内联函数调用预测的评估结果. 横轴代表基分类器的数量, 纵轴代表相应的衡量指标. 对于精
确率、召回率和 F1 分数, 数值越高越好. 对于除 AdaBoost 之外的大多数 MLC 方法, 随着基分类器数量的增加,
这些指标也会提高. AdaBoost 通过增加额外的基分类器来适应错误分类的样本, 当基分类器数量增多时,
AdaBoost 会对训练集过度拟合, 从而对测试集的泛化能力减弱.
0.86 0.70
0.84
0.64
0.82
0.66
准确率 0.80 召回率 0.64
0.78
0.76 0.62
0.74
0.60
0.72
0 50 100 150 200 250 300 0 50 100 150 200 250 300
基分类器的个数 基分类器的个数
(a) 准确率 (b) 召回率
0.74
0.72
F1 分数 0.70
0.68
0.66
0 50 100 150 200 250 300
基分类器的个数
(c) F1 分数
RFPCT RFDTBR ECCJ48 EBRJ48 AdaBoost ECOCCJ48
图 9 ECOCCJ48 和其他多标签分类方法的衡量结果

