Page 161 - 《软件学报》2025年第10期
P. 161
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(10):4558−4589 [doi: 10.13328/j.cnki.jos.007297] [CSTR: 32375.14.jos.007297] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
SZZ 误标变更对移动 APP 即时缺陷预测性能和解释的影响
李志强 1 , 马 睿 1 , 张洪宇 2 , 荆晓远 3,4 , 任 杰 1 , 刘金会 5
1
(陕西师范大学 计算机科学学院, 陕西 西安 710119)
2
(重庆大学 大数据与软件学院, 重庆 401331)
3
(武汉大学 计算机学院, 湖北 武汉 430072)
4
(广东石油化工学院 计算机学院, 广东 茂名 525011)
5
(西北工业大学 网络空间安全学院, 陕西 西安 710072)
通信作者: 张洪宇, E-mail: hyzhang@cqu.edu.cn
摘 要: 近年来, SZZ 作为一种识别引入缺陷的变更算法, 被广泛应用于即时软件缺陷预测技术中. 先前的研究表
明, SZZ 算法在对数据进行标注时会存在误标问题, 这将影响数据集的质量, 进而影响预测模型的性能. 因此, 研究
人员对 SZZ 算法进行了改进, 并提出多个 SZZ 变体. 然而, 目前尚未有文献研究数据标注质量对移动 APP 即时缺
陷预测性能和解释的影响. 为探究 SZZ 错误标注的变更对移动 APP 即时软件缺陷预测模型的影响, 对 4 种 SZZ
算法进行广泛而深入的实证研究. 首先, 选取 GitHub 库中 17 个大型移动 APP 项目, 借助 PyDriller 工具抽取软件
度量元. 其次, 采用 B-SZZ (原始 SZZ 版本)、AG-SZZ、MA-SZZ 和 RA-SZZ 这 4 种算法标注数据. 然后, 根据时间
序列划分数据, 利用随机森林、朴素贝叶斯和逻辑回归分类器分别建立即时缺陷预测模型. 最后, 使用 AUC、
MCC、G-mean 传统指标和 F-measure@20%、IFA 工作量感知指标评估模型性能, 并使用 SKESD 和 SHAP 算法
对结果进行统计显著性检验与可解释性分析. 通过对比 4 种 SZZ 算法的标注性能, 研究发现: (1) 数据的标注质量
符合 SZZ 变体之间的递进关系; (2) B-SZZ、AG-SZZ 和 MA-SZZ 错误标注的变更会造成 AUC、MCC 得分不同程
度的下降, 但不会造成 G-mean 得分下降; (3) B-SZZ 会造成 F-measure@20% 得分下降, 而在代码审查时, B-SZZ、
AG-SZZ 和 MA-SZZ 不会导致审查工作量的增加; (4) 在模型解释方面, 不同 SZZ 算法会影响预测过程中贡献程度
排名前 3 的度量元, 并且 la 度量元对预测结果有重要影响.
关键词: 即时软件缺陷预测; 移动 APP; SZZ 算法; 挖掘软件存储库; 可解释性; 工作量感知; 实证软件工程
中图法分类号: TP311
中文引用格式: 李志强, 马睿, 张洪宇, 荆晓远, 任杰, 刘金会. SZZ误标变更对移动APP即时缺陷预测性能和解释的影响. 软件学
报, 2025, 36(10): 4558–4589. http://www.jos.org.cn/1000-9825/7297.htm
英文引用格式: Li ZQ, Ma R, Zhang HY, Jing XY, Ren J, Liu JH. Impact of Mislabeled Changes by SZZ on Performance and
Interpretation of Just-in-time Defect Prediction for Mobile APP. Ruan Jian Xue Bao/Journal of Software, 2025, 36(10): 4558–4589 (in
Chinese). http://www.jos.org.cn/1000-9825/7297.htm
Impact of Mislabeled Changes by SZZ on Performance and Interpretation of Just-in-time
Defect Prediction for Mobile APP
1
1
3,4
1
2
LI Zhi-Qiang , MA Rui , ZHANG Hong-Yu , JING Xiao-Yuan , REN Jie , LIU Jin-Hui 5
1
(School of Computer Science, Shaanxi Normal University, Xi’an 710119, China)
2
(School of Big Data and Software Engineering, Chongqing University, Chongqing 401331, China)
* 基金项目: 国家自然科学基金 (61902228, 62176069, U23A20302); 陕西省自然科学基础研究计划 (2024JC-YBMS-497); 陕西省重点研
发计划 (2023-YBGY-265)
收稿时间: 2023-09-28; 修改时间: 2023-12-26, 2024-04-07, 2024-06-13; 采用时间: 2024-10-02; jos 在线出版时间: 2025-02-19
CNKI 网络首发时间: 2025-02-19

