Page 42 - 《软件学报》2025年第5期
P. 42

1942                                                       软件学报  2025  年第  36  卷第  5  期


                 的是, 虽然  CReST  和  SimiS  半监督采样策略在首轮迭代对模型的改进明显优于              CBST  和  CBST-Adjust 策略  (学习
                 到了更多的少类样本), 但随着迭代轮数的增加, 前两种策略只关注样本平衡性, 倾向于选择更多的少类伪标签样
                 本, 但忽略了伪标签样本中少类样本“数量-质量”的              trade-off, 因此在后续迭代中模型效果反而下降得愈加明显. 而
                 本文改进的    CBST-Adjust 中既考虑了较高质量的伪标签, 又引入了伪标签的权重机制, 从而缓解了所选择伪标签
                 随数量增加其低质量对模型的负面影响. 故在              P1 和  P5 两个项目中, 使用   CBST-Adjust 策略后, 可追踪性模型     AUC
                 值随着迭代轮数的增加, 有稳步提升的趋势.
                    如图  13  所示, 在  STRACE(AL+SSL) 框架中的主动学习阶段, 相对于随机          (Random) 采样策略, 无论是主流的
                 基于熵   (Entropy) 不确定性策略, 还是基于特征空间覆盖的           Core-set 策略或偏向少类的     Poor 策略, 抑或是基于子
                 模块互信息的     SMI_Flqmi 策略都有明显的优势. 值得注意的是, 在各种半监督学习的采样策略中, 本文希望得到
                 随着迭代进行模型指标稳步提升的效果. 与之不同的是, 主动学习阶段涉及标注成本的问题, 并且模型性能并不随
                 标注成本单调递增, 这种趋势在其他开源项目的追踪性恢复任务上                     [57]  及其他场景的任务   [71]  也是类似的. 故本文在
                 主动学习阶段更加希望选择投入较少成本               (即标注较少样本) 即可得到较好模型效果的样本选择策略.
                    在本文的可追踪性恢复任务中, 有标签样本少且类别不平衡问题也较为严重, 因此本文选择既相似于少类的
                 “真”链接样本、又尽可能覆盖样本空间的待标注链接样本的                    SMI_Flqmi 策略在初始迭代, 也就是仅标注          1%–2%
                 左右的标签后就可以得到相对于其他主动学习样本选择策略更优的模型效果. 而其他策略往往需要迭代更多轮,
                 意味着需要投入更多成本, 标注更多样本.
                    因此, 在本文的软件可追踪性分类任务中, 相对于大多数主动学习样本选择策略, STRACE(AL+SSL) 框架使
                 用  SMI_Flqmi 样本选择策略有较大优势.
                    RQ3: STRACE(AL+SSL) 框架中各模块     (半监督、主动学习、权重机制) 的贡献是怎样的?
                    为了解   STRACE(AL+SSL) 框架中各模块的贡献, 本文进一步补充了消融实验, 实验结果如图                      14  所示, 展示
                 了  10  个企业项目进行    10  次重复实验, 每次实验训练迭代        20  次的平均值. 柱状图中第      1  列为  STRACE(AL+SSL)
                 完整框架的实验效果, 第       2  列为删掉伪标签权重机制后的结果           STRACE-noWeight, 在  10  个企业项目上, 权重机制
                 都贡献了平均约      1.54%  的  F2  值的提升. STRACE-noSSL  为删掉半监督学习模块后的结果, 在         10  个企业项目上,
                 半监督学习模块平均贡献了约           5.44%  的  F2  值的提升. 进一步地对比   STRACE-noAL  的结果, 不难发现, 主动学习
                 的引入为   STRACE(AL+SSL) 可追踪性恢复模型的性能的提升贡献最为显著, F2                值平均提升约      25.73%. 这表明使
                 得模型学习到具有代表性的, 值得标注的样本对模型的性能提升更为有效.


                                STRACE(AL+SSL)  STRACE-noWeight  STRACE-noSSL  STRACE-noAL
                                        90
                                        80
                                        70
                                        60
                                       F2 (%)  50
                                        40
                                        30
                                        20
                                        10
                                         0
                                            P1  P2  P3   P4  P5  P6   P7  P8   P9  P10  Avg. Imp.
                            STRACE(AL+SSL)  59.61 79.54 57.68 58.88 74.68 61.84 54.74 37.26 40.33 66.48 59.10 0.00
                            STRACE-noWeight  58.65 79.02 55.38 58.07 71.52 61.17 53.05 34.87 38.22 65.66 57.56 1.54
                            STRACE-noSSL   53.57 73.88 48.46 49.49 73.00 60.97 47.65 34.81 31.26 63.54 53.66 5.44
                            STRACE-noAL    48.42 71.19 11.43 34.16 24.98 41.95 8.51 26.23 5.61 45.83 31.83 25.73
                                                    图 14 消融实验结果
   37   38   39   40   41   42   43   44   45   46   47