Page 41 - 《软件学报》2025年第5期
P. 41
董黎明 等: 结合主动学习和半监督学习的软件可追踪性恢复框架 1941
在本文的 STRACE(AL+SSL) 框架中, 为方便分析不同改进策略带来的影响, 基础分类模型算法仅选择了与
SPLINT 和 Baseline(RF) 一致的随机森林算法, 所汇报的也是在同一参数配置下, 综合多次实验结果取得最优平均
值的结果. 在其他特定任务场景中, 也可替换任意改进策略的算法, 包括将随机森林模型替换为深度学习模型, 充
分学习大规模数据集信息.
总的来说, 基于 6 个开源项目和 10 个企业项目的实验结果表明, STRACE(AL+SSL) 显著优于传统的 IR 方法
和随机森林 Baseline(RF) 方法. 同时, 对于半监督学习强依赖于伪标签质量的问题, STRACE(AL+SSL) 框架具有
针对性的提升效果.
RQ2: STRACE(AL+SSL) 框架中各阶段 (半监督及主动学习) 最佳的样本选择策略是哪种?
为了回答该问题, 本文在 STRACE(AL+SSL) 框架中半监督及主动学习阶段选择无标签样本时, 对比了不同策略
的效果. 半监督学习策略中对比了平衡采样策略 CBST [51,52] 、CReST [53] 、SimiS [54] 与本文改进后的 CBST-Adjust.
主动学习策略中对比了传统的基于熵 (Entropy) [57,58,60] 的不确定性策略 (选择分类器决策边界附近最具不确定
性的链接样本), 基于特征空间覆盖的 Core-set 策略 [69] (选择尽可能覆盖样本特征空间的待标注链接), 偏向少类样
本的 Poor 策略 [70]( 选择样本空间中相对于更靠近少类“真”链接的待标注链接) 和本文参考的基于子模块互信息的
SMI_Flqmi 策略 [63,64,67] (选择既偏向于少类“真”链接样本、又尽可能覆盖样本特征空间的待标注链接) 等. 这些策
略在文本分类及图像视觉领域的工作中都有很好的预测效果. 如图 12 及图 13 所示, 本文选择了 10 个企业项目中
制品规模最大 (总样本量最大) 的应用程序类项目 P1 和规模较小的服务平台类项目 P5 作为例子, 回答本文第 2
个研究问题.
0.90 0.75
CBST CReST SimiS CBST CReST SimiS
CBST-Adjust CBST-Adjust
0.85 0.70
P1-AUC 0.80 P5-AUC 0.65
0.75
0.60
0.70 0.55
0.65 0.50
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
Iteration Iteration
(a) 不同半监督样本选择策略 AUC 值分布 (P1 项目) (b) 不同半监督样本选择策略 AUC 值分布 (P5 项目)
图 12 半监督学习样本选择策略对比
0.95
0.85 0.90
0.85
0.80
P1-AUC 0.80 Random P5-AUC 0.75 Random
Entropy 0.70 Entropy
0.75 Core-set 0.65 Core-set
Poor Poor
SMI_Flqmi 0.60 SMI_Flqmi
0.70 0.55
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
Iteration Iteration
(a) 不同主动学习样本选择策略 AUC 值分布 (P1 项目) (b) 不同主动学习样本选择策略 AUC 值分布 (P5 项目)
图 13 主动学习样本选择策略对比
如图 12 所示, 可以看出在无论在较大规模的项目 P1 还是较小规模的项目 P5 上, 在 STRACE(AL+SSL) 框架
下, 使用本文提出的改进后的 CBST-Adjust 作为半监督样本选择策略可以得到较好的结果. 与 CBST 相比, CBST-
Adjust 由于进一步限制了多类伪标签样本, 减轻了所选择伪标签中的类别不平衡问题的严重程度. 此外, 值得注意