Page 176 - 《软件学报》2025年第10期
P. 176
李志强 等: SZZ 误标变更对移动 APP 即时缺陷预测性能和解释的影响 4573
在工作量感知指标方面, 对于 F-measure@20% 而言, MA 模型相对于 RA 模型的得分为 97%–100%, 平均占
比为 98%, 仅在朴素贝叶斯分类器上与 RA 模型一致. 在 IFA 方面, MA 模型相对于 RA 模型的得分为 100%, 与 RA
模型基本一致.
SKESD 结果表明, 在 AUC 上, 随机森林分类器获得了最优的性能, 并且 B、AG、MA 和 RA 模型的性能依次
递增, 符合 4 种 SZZ 算法间的递进关系. 而朴素贝叶斯和逻辑回归会造成不同程度的影响. 在 MCC 上, 随机森林
获得了最优的性能, 且 4 种 SZZ 模型间的性能基本一致. 在 G-mean 上, 随机森林仍获得了最优的性能, 但是 RA
模型的表现显著低于其他 3 种 SZZ 模型. 在工作量感知指标方面, 随机森林分类器在 F-measure@20% 上整体获
得了最优的性能, 同时符合 4 种 SZZ 算法之间的递进关系. 此外, 朴素贝叶斯在 IFA 上整体获得了最优的性能, 随
机森林性能整体上较差, 结合表 5 中的数据来看, 性能下降的原因可能是局部数据差异较大所造成的.
RQ2: SZZ 错误标注的变更是否影响类平衡下的移动 APP 即时缺陷预测模型的性能?
研究动机: 在类平衡情况下, 目前还未有工作研究不同 SZZ 算法错误标注的数据对移动 APP 即时缺陷预测
模型性能的影响. 为此在 RQ2 中, 本文对其进行深入研究. 已有工作在构建即时缺陷预测模型时, 常使用数据采样
技术来处理缺陷数据集的类不平衡问题 [5,9,74] . 然而现有研究大都采用随机欠采样算法, 这可能会丢失关键数据 [16] ,
进而影响模型的性能. 为此, 本文使用 SMOTE 采样算法对数据进行类重平衡, 不同采样算法的比较结果详见第 4
节 RQ5.
研究方法: 对于每一个基于时间序列划分的训练集, 本文首先使用 SMOTE 采样技术进行类重平衡, 接着采用
随机森林、朴素贝叶斯及逻辑回归分类器分别构建 B-SZZ、AG-SZZ、MA-SZZ 和 RA-SZZ 模型, 最后使用 AUC、
MCC、G-mean 和工作量感知指标 F-measure@20%、IFA 来评估模型的性能. 随后对比 B-SZZ、AG-SZZ、MA-
SZZ 和 RA-SZZ 模型的结果, 并应用 SKESD 统计测试方法对所有模型的预测结果进行分析.
实验结果: 表 6 列出了在类平衡情况下, 各分类器对应的 4 种 SZZ 算法在 17 个移动 APP 项目的结果. 图 4
展示了 4 种 SZZ 算法的 SKESD 统计结果. 据此, 可以得出以下结论.
表 6 类重平衡情况下 4 种 SZZ 算法的 AUC 得分
B AG MA RA
指标 分类器
得分 B-RA得分均值比 (%) 得分 AG-RA得分均值比 (%) 得分 MA-RA得分均值比 (%) 得分
RF 0.80 94 0.81 95 0.81 95 0.85
NB 0.71 106 0.68 101 0.67 100 0.67
AUC
LR 0.73 97 0.73 97 0.73 97 0.75
Average 0.75 99 0.74 98 0.74 98 0.76
RF 0.35 90 0.36 92 0.36 92 0.39
NB 0.22 183 0.16 133 0.15 125 0.12
MCC
LR 0.27 93 0.26 90 0.26 90 0.29
Average 0.28 122 0.26 105 0.26 102 0.27
RF 0.68 100 0.69 101 0.69 101 0.68
NB 0.60 111 0.54 100 0.54 100 0.54
G-mean
LR 0.64 97 0.63 95 0.63 95 0.66
Average 0.64 103 0.62 99 0.62 99 0.63
RF 0.29 88 0.31 94 0.30 91 0.33
NB 0.26 93 0.28 100 0.28 100 0.28
F-measure@20%
LR 0.26 84 0.29 94 0.29 94 0.31
Average 0.27 88 0.29 96 0.29 95 0.31
RF 2 100 2 100 2 100 2
NB 2 100 3 150 2 100 2
IFA
LR 2 100 2 100 2 100 2
Average 2 100 2 117 2 100 2
(1) B-SZZ: 在传统指标方面, B 模型在 AUC 方面的得分占比 RA 模型的 94%–106%, 平均为 99%, 仅在朴素贝
叶斯分类器上优于 RA 模型. 在 MCC 方面, B 模型的得分为 RA 模型的 90%–183%, 平均占比为 122%, 仅在朴素

