Page 24 - 《软件学报》2025年第5期
P. 24

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(5):1924−1948 [doi: 10.13328/j.cnki.jos.007178] [CSTR: 32375.14.jos.007178]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                                 *
                 结合主动学习和半监督学习的软件可追踪性恢复框架

                 董黎明  1,2 ,    张    贺  1,2 ,    孟庆龙  1,2 ,    匡宏宇  1,2


                 1
                  (南京大学 软件学院, 江苏 南京 210093)
                 2
                  (计算机软件新技术国家重点实验室        (南京大学), 江苏 南京 210093)
                 通信作者: 张贺, E-mail: hezhang@nju.edu.cn

                 摘 要: 软件可追踪性被认为是软件开发过程可信的一个重要因素, 确保对软件开发过程的可见性并进行全面追
                 踪, 从而提高软件的可信度和可靠性. 近年来, 自动化的软件可追踪性恢复方法取得了显著进展, 但在企业项目中
                 的应用仍面临挑战. 通过调研研究和实验案例分析, 发现工业界场景中可追踪性模型表现不佳的                              3  个关键挑战: 原
                 始数据低质量、样本稀疏性和不平衡性, 并提出一种结合主动学习和半监督学习的软件可追踪性恢复框架
                 STRACE(AL+SSL). 该框架通过选择有价值的标注样本和生成高质量的伪标签样本, 有效利用未标注的样本, 克服
                 数据低质量和稀疏性挑战. 实验基于           10  个样本规模在几万至近百万个          issue-commit 跟踪对实例的企业项目, 进行
                 多组对比实验, 结果表明该框架在当前真实企业项目软件可追踪性恢复任务上具有有效性. 其中消融实验结果表
                 明  STRACE(AL+SSL) 中主动学习模块所选择的无标签样本在可追踪性恢复任务中发挥了更为重要的作用. 此外,
                 还验证各个模块最佳的样本选择策略组合, 包括调整后的半监督类平衡自训练样本选择策略                               CBST-Adjust 和低成
                 本高效率的主动学习子模块互信息            SMI_Flqmi 样本选择策略.
                 关键词: 软件可追踪性; 主动学习; 半监督学习
                 中图法分类号: TP311

                 中文引用格式  董黎明,   张贺,   孟庆龙,   匡宏宇.   结合主动学习和半监督学习的软件可追踪性恢复框架.   软件学报,   2025,
                 36(5): 1924–1948. http://www.jos.org.cn/1000-9825/7178.htm
                 英文引用格式: Dong LM, Zhang H, Meng QL, Kuang HY. Software Traceability Recovery Framework Based on Active Learning and
                 Semi-supervised Learning. Ruan Jian Xue Bao/Journal of Software, 2025, 36(5):  1924–1948 (in Chinese). http://www.jos.org.cn/1000-
                 9825/7178.htm

                 Software Traceability Recovery Framework Based on Active Learning and Semi-supervised
                 Learning
                            1,2
                                                        1,2
                                        1,2
                 DONG Li-Ming , ZHANG He , MENG Qing-Long , KUANG Hong-Yu 1,2
                 1
                 (Software Institute, Nanjing University, Nanjing 210093, China)
                 2
                 (State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210093, China)
                 Abstract:  Software  traceability  is  considered  critical  to  trustworthy  software  engineering,  ensuring  software  reliability  through  the  tracking
                 of  the  software  development  process.  Despite  significant  progress  in  automatic  software  traceability  recovery  techniques  in  recent  years,
                 their  application  in  real-world  commercial  software  projects  does  not  meet  expectations.  An  investigation  into  the  application  of  learning-
                 based  software  traceability  recovery  classifier  models  in  commercial  software  projects  is  conducted.  It  uncovers  three  critical  challenges
                 faced  in  industrial  settings.  These  challenges  contribute  to  underperforming  traceability  models:  low-quality  raw  data,  data  sparsity,  and
                 class  imbalance.  In  response  to  these  challenges,  STRACE(AL+SSL)  is  proposed.  It  is  a  software  traceability  recovery  framework  that
                 integrates  active  learning  and  semi-supervised  learning.  By  strategically  selecting  valuable  annotated  samples  and  generating  high-quality


                 *    基金项目: 国家自然科学基金 (62072227, 62202219); 国家重点研发计划 (2019YFE0105500); 江苏省重点研发计划  (BE2021002-2); 南京
                  大学计算机软件新技术国家重点实验室创新项目           (ZZKT2022A25); 海外开放课题  (KFKT2022A09)
                  收稿时间: 2023-06-01; 修改时间: 2023-08-13, 2023-11-25; 采用时间: 2024-03-14; jos 在线出版时间: 2024-09-04
                  CNKI 网络首发时间: 2024-09-05
   19   20   21   22   23   24   25   26   27   28   29