Page 41 - 《软件学报》2025年第5期
P. 41

董黎明 等: 结合主动学习和半监督学习的软件可追踪性恢复框架                                                  1941


                    在本文的    STRACE(AL+SSL) 框架中, 为方便分析不同改进策略带来的影响, 基础分类模型算法仅选择了与
                 SPLINT  和  Baseline(RF) 一致的随机森林算法, 所汇报的也是在同一参数配置下, 综合多次实验结果取得最优平均
                 值的结果. 在其他特定任务场景中, 也可替换任意改进策略的算法, 包括将随机森林模型替换为深度学习模型, 充
                 分学习大规模数据集信息.
                    总的来说, 基于     6  个开源项目和   10  个企业项目的实验结果表明, STRACE(AL+SSL) 显著优于传统的             IR  方法
                 和随机森林    Baseline(RF) 方法. 同时, 对于半监督学习强依赖于伪标签质量的问题, STRACE(AL+SSL) 框架具有
                 针对性的提升效果.
                    RQ2: STRACE(AL+SSL) 框架中各阶段     (半监督及主动学习) 最佳的样本选择策略是哪种?
                    为了回答该问题, 本文在       STRACE(AL+SSL) 框架中半监督及主动学习阶段选择无标签样本时, 对比了不同策略
                 的效果. 半监督学习策略中对比了平衡采样策略                CBST [51,52] 、CReST [53] 、SimiS [54] 与本文改进后的  CBST-Adjust.
                    主动学习策略中对比了传统的基于熵              (Entropy) [57,58,60] 的不确定性策略  (选择分类器决策边界附近最具不确定
                 性的链接样本), 基于特征空间覆盖的           Core-set 策略  [69] (选择尽可能覆盖样本特征空间的待标注链接), 偏向少类样
                 本的  Poor 策略  [70]( 选择样本空间中相对于更靠近少类“真”链接的待标注链接) 和本文参考的基于子模块互信息的
                 SMI_Flqmi 策略  [63,64,67] (选择既偏向于少类“真”链接样本、又尽可能覆盖样本特征空间的待标注链接) 等. 这些策
                 略在文本分类及图像视觉领域的工作中都有很好的预测效果. 如图                      12  及图  13  所示, 本文选择了  10  个企业项目中
                 制品规模最大     (总样本量最大) 的应用程序类项目           P1  和规模较小的服务平台类项目          P5  作为例子, 回答本文第     2
                 个研究问题.

                        0.90                                    0.75
                                   CBST   CReST  SimiS                     CBST   CReST  SimiS
                                   CBST-Adjust                             CBST-Adjust
                        0.85                                    0.70
                       P1-AUC  0.80                            P5-AUC  0.65

                        0.75
                                                                0.60
                        0.70                                    0.55
                        0.65                                    0.50
                            0  2  4  6  8  10 12 14 16 18 20        0  2  4  6  8  10 12 14 16 18 20
                                        Iteration                                Iteration
                          (a) 不同半监督样本选择策略 AUC 值分布 (P1 项目)         (b) 不同半监督样本选择策略 AUC 值分布 (P5 项目)
                                              图 12 半监督学习样本选择策略对比

                                                                0.95
                        0.85                                    0.90
                                                                0.85
                                                                0.80
                       P1-AUC  0.80               Random       P5-AUC  0.75                Random

                                                  Entropy       0.70                       Entropy
                        0.75                      Core-set      0.65                       Core-set
                                                  Poor                                     Poor
                                                  SMI_Flqmi     0.60                       SMI_Flqmi
                        0.70                                    0.55
                           0  2  4  6  8 10 12 14 16 18 20         0  2  4  6  8  10 12 14 16 18 20
                                        Iteration                               Iteration
                        (a) 不同主动学习样本选择策略 AUC 值分布 (P1 项目)         (b) 不同主动学习样本选择策略 AUC 值分布 (P5 项目)
                                               图 13 主动学习样本选择策略对比

                    如图  12  所示, 可以看出在无论在较大规模的项目            P1  还是较小规模的项目      P5  上, 在  STRACE(AL+SSL) 框架
                 下, 使用本文提出的改进后的         CBST-Adjust 作为半监督样本选择策略可以得到较好的结果. 与               CBST  相比, CBST-
                 Adjust 由于进一步限制了多类伪标签样本, 减轻了所选择伪标签中的类别不平衡问题的严重程度. 此外, 值得注意
   36   37   38   39   40   41   42   43   44   45   46