Page 176 - 《软件学报》2025年第10期
P. 176

李志强 等: SZZ  误标变更对移动      APP  即时缺陷预测性能和解释的影响                                    4573


                    在工作量感知指标方面, 对于          F-measure@20%  而言, MA  模型相对于   RA  模型的得分为    97%–100%, 平均占
                 比为  98%, 仅在朴素贝叶斯分类器上与         RA  模型一致. 在  IFA  方面, MA  模型相对于  RA  模型的得分为     100%, 与  RA
                 模型基本一致.
                    SKESD  结果表明, 在   AUC  上, 随机森林分类器获得了最优的性能, 并且            B、AG、MA   和  RA  模型的性能依次
                 递增, 符合  4  种  SZZ  算法间的递进关系. 而朴素贝叶斯和逻辑回归会造成不同程度的影响. 在                    MCC  上, 随机森林
                 获得了最优的性能, 且       4  种  SZZ  模型间的性能基本一致. 在     G-mean  上, 随机森林仍获得了最优的性能, 但是          RA
                 模型的表现显著低于其他         3  种  SZZ  模型. 在工作量感知指标方面, 随机森林分类器在            F-measure@20%  上整体获
                 得了最优的性能, 同时符合        4  种  SZZ  算法之间的递进关系. 此外, 朴素贝叶斯在        IFA  上整体获得了最优的性能, 随
                 机森林性能整体上较差, 结合表         5  中的数据来看, 性能下降的原因可能是局部数据差异较大所造成的.
                    RQ2: SZZ  错误标注的变更是否影响类平衡下的移动             APP  即时缺陷预测模型的性能?
                    研究动机: 在类平衡情况下, 目前还未有工作研究不同                 SZZ  算法错误标注的数据对移动         APP  即时缺陷预测
                 模型性能的影响. 为此在       RQ2  中, 本文对其进行深入研究. 已有工作在构建即时缺陷预测模型时, 常使用数据采样
                 技术来处理缺陷数据集的类不平衡问题              [5,9,74] . 然而现有研究大都采用随机欠采样算法, 这可能会丢失关键数据              [16] ,
                 进而影响模型的性能. 为此, 本文使用          SMOTE 采样算法对数据进行类重平衡, 不同采样算法的比较结果详见第                      4
                 节  RQ5.
                    研究方法: 对于每一个基于时间序列划分的训练集, 本文首先使用                    SMOTE  采样技术进行类重平衡, 接着采用
                 随机森林、朴素贝叶斯及逻辑回归分类器分别构建                  B-SZZ、AG-SZZ、MA-SZZ   和  RA-SZZ  模型, 最后使用  AUC、
                 MCC、G-mean  和工作量感知指标       F-measure@20%、IFA  来评估模型的性能. 随后对比        B-SZZ、AG-SZZ、MA-
                 SZZ  和  RA-SZZ  模型的结果, 并应用  SKESD  统计测试方法对所有模型的预测结果进行分析.
                    实验结果: 表    6  列出了在类平衡情况下, 各分类器对应的            4  种  SZZ  算法在  17  个移动  APP  项目的结果. 图  4
                 展示了   4  种  SZZ  算法的  SKESD  统计结果. 据此, 可以得出以下结论.

                                         表 6 类重平衡情况下       4  种  SZZ  算法的  AUC  得分

                                             B                    AG                   MA            RA
                     指标       分类器
                                    得分 B-RA得分均值比 (%) 得分 AG-RA得分均值比 (%) 得分 MA-RA得分均值比 (%) 得分
                               RF   0.80       94        0.81       95         0.81       95         0.85
                               NB   0.71       106       0.68       101        0.67       100        0.67
                     AUC
                               LR   0.73       97        0.73       97         0.73       97         0.75
                              Average 0.75     99        0.74       98         0.74       98         0.76
                               RF   0.35       90        0.36       92         0.36       92         0.39
                               NB   0.22       183       0.16       133        0.15       125        0.12
                     MCC
                               LR   0.27       93        0.26       90         0.26       90         0.29
                              Average 0.28     122       0.26       105        0.26       102        0.27
                               RF   0.68       100       0.69       101        0.69       101        0.68
                               NB   0.60       111       0.54       100        0.54       100        0.54
                    G-mean
                               LR   0.64       97        0.63       95         0.63       95         0.66
                              Average 0.64     103       0.62       99         0.62       99         0.63
                               RF   0.29       88        0.31       94         0.30       91         0.33
                               NB   0.26       93        0.28       100        0.28       100        0.28
                 F-measure@20%
                               LR   0.26       84        0.29       94         0.29       94         0.31
                              Average 0.27     88        0.29       96         0.29       95         0.31
                               RF    2         100        2         100         2         100         2
                               NB    2         100        3         150         2         100         2
                      IFA
                               LR    2         100        2         100         2         100         2
                              Average  2       100        2         117         2         100         2

                    (1) B-SZZ: 在传统指标方面, B   模型在   AUC  方面的得分占比     RA  模型的  94%–106%, 平均为  99%, 仅在朴素贝
                 叶斯分类器上优于       RA  模型. 在  MCC  方面, B  模型的得分为   RA  模型的  90%–183%, 平均占比为    122%, 仅在朴素
   171   172   173   174   175   176   177   178   179   180   181