Page 38 - 《软件学报》2025年第5期
P. 38
1938 软件学报 2025 年第 36 卷第 5 期
S 中最相似的样本并将相似度加和, 第 2 S 中的每个“真”链接样本选
项对于 Q 中的每个“真”链接样本选择 项对于
S 偏向少类程度和特征空间覆盖程度. 故最大化
择 Q 中最相似样的本并将相似度加和, 两项相加同时度量了集合
SMI 函数可以帮助选择既偏向于少类样本、又尽可能覆盖特征空间的待标注样本集合.
类不平衡的未标记集合 D u
类平衡的已标记集合 S D u
模型重新
进行训练
x i S
argmax I f (S;Q) 模型
类分布 S D u
使用 SMI 进行类选择
类 ID
主动学习迭代
图 11 基于 SMI 的主动学习流程
3.2.3 权重机制
半监督学习另一个问题在于随着迭代次数增长, 如何平衡 (trade-off) 所选择的无标签样本“数量-质量”问题,
使得模型学习到大量的高质量新样本. 本文参考 Chen 等人 [68] 提出的 SoftMatch 模型, 为无标签样本设置权重参
数. Chen 等人指出半监督学习中过高的阈值会导致无标签样本利用率低, 即使假设所利用的伪标签大部分是正确
的 (高质量), 但仍然无法学习到好的分类模型. 然而, 如果训练过程中设置较低的阈值以提高利用率 (例如使用
CBST-Adjust 动态降低阈值), 那么伪标签中会引入过多的错误标签. 考虑到以往的半监督模型对于样本权重“缺乏
合理设计”, 所选择策略都将样本权重假定为均匀分布, SoftMatch 通过对于置信度较高的无标签样本, 设置更高的
权重, 对于置信度较低的更容易出错的无标签样本, 设置更低的权重, 在充分利用无标签样本信息的同时, 降低伪
标签噪声的影响.
无标签样本估算权重 λ(p) 的具体定义如公式 (14) 所示:
( 2 )
(max(p)−µ t )
exp − , if max(p) < µ t
2 (14)
λ(p) = 2σ t
1, otherwise
SoftMatch 中无标签样本权重被假设服从高斯分布 N(µ t ,σ t )µ t 的左侧部分, 并且将置信度超过均值 µ t 的高置
信度样本的权重设置为 1, 公式中的 µ t 和 σ t 可以由无标签样本的置信度分布估算而得.
值得注意的是, 考虑到半监督初始模型效果对生成的伪标签质量的影响, 本文在 SoftMatch 对无标签设置的
权重基础上, 附加了一层权重设置. 即将初始训练模型精度设为权重 λ precision_initialModel , 故无标签样本最终权重值为
公式 (15) 所示:
( )
λ 无标签 = λ precision_initialModel ×λ(p) (15)
4 实验分析
4.1 实验数据
本文在合作企业的 10 个项目的缺陷-commit 跟踪对样本上进行实验. 这部分项目的业务类型包含两大类,
应用程序类 (P1–P4) 和服务平台类 (P5–P10) 项目. 应用程序类项目主要面向 toC 用户, 由于交付节奏快、发布
压力大、更多的工程师参与项目研发, 导致项目规模较大、制品迭代频率较高, 因此缺陷的可追踪性比例较低,
后续维护成本也高. 相比之下, 服务平台类项目主要面向 toB 用户, 迭代周期相对较长, 制品数量规模较为可控,
故制品可追踪性的构建和维护相对规范. 表 1 给出了数据集所对应的详细统计量信息. 脱敏后的样本特征数据
集已共享.