Page 184 - 《软件学报》2025年第10期
P. 184
李志强 等: SZZ 误标变更对移动 APP 即时缺陷预测性能和解释的影响 4581
局解释的结果相一致, 从而证实了全局解释对局部解释的泛化性.
RQ5: 不同数据采样算法间的性能对比如何?
为了验证不同数据采样算法对移动 APP 即时缺陷预测性能的影响, 本节对比随机欠采样 (random under-
sampling, RUS) [16] 、随机过采样 (random over-sampling, ROS) [16] 、合成少数类过采样 (synthetic minority over-
sampling technique, SMOTE) [82] 、随机过采样示例 (random over sampling examples, ROSE) [83] 这 4 种常用的数据采
样技术用于数据重平衡的效果, 并使用 SKESD 统计测试对结果进行对比分析 (相同颜色表示性能相近, 排名越低
则表示性能越好). 根据 RQ1 与 RQ2 的结果, 相比于朴素贝叶斯与逻辑回归分类器, 随机森林分类器在 5 个指标上
表现最优, 因此本节使用随机森林构建模型.
f(x)=0.76 f(x)=0.85
2.944=la +0.13 2.944=la +0.16
4.126=rexp +0.08 4.126=rexp +0.09
0=entropy −0.06 0.693=nuc +0.05
1=fix +0.05 0=entropy −0.04
0.693=nf −0.04 5.118=lt +0.03
0.693=ld −0.01 1=fix +0.03
0.693=nuc +0.01 0.693=nf −0.03
0.693=ns −0.01 0.693=age +0.02
5.118=lt +0 0.693=ld +0.01
0.693=age +0 0.693=ns −0
0.55 0.60 0.65 0.70 0.75 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90
E[f(x)]=0.616 E[f(x)]=0.525
(a) B-SZZ (b) AG-SZZ
f(x)=0.9 f(x)=0.93
2.944=la +0.2 0.693=nuc +0.12
4.126=rexp +0.08 5.118=lt +0.1
0.693=nuc +0.05 2.944=la +0.05
5.118=lt +0.04 4.126=rexp +0.04
0.693=age +0.04 0.693=ld −0.03
0.693=nf −0.03 0.693=age +0.02
1=fix +0.03 0=entropy +0.02
0=entropy −0.01 0.693=nf +0.01
0.693=ns −0.01 1=fix +0.01
−0.01 0.693=ns −0
0.693=ld
0.5 0.6 0.7 0.8 0.9 0.6 0.7 0.8 0.9
E[f(x)]=0.522 E[f(x)]=0.587
(c) MA-SZZ (d) RA-SZZ
图 9 类重平衡后 AntennaPod 项目上其中一个变更 (eeeff6203) 的局部解释
图 11 分别展示了在 B-SZZ、AG-SZZ、MA-SZZ 和 RA-SZZ (图中使用 B、AG、MA 和 RA 表示) 这 4 种数
据采样算法在 AUC、MCC、G-mean、F-measure@20% 及 IFA 指标上的性能表现. 由于 IFA 指标数值间的差值较
大, 为便于比较, 本文对其进行了 log 归一化处理. 从图 11 中可以看出, 对于 B-SZZ 模型, SMOTE 在 AUC、MCC、

