Page 38 - 《软件学报》2025年第5期
P. 38

1938                                                       软件学报  2025  年第  36  卷第  5  期


                                              S  中最相似的样本并将相似度加和, 第          2      S  中的每个“真”链接样本选
                 项对于   Q 中的每个“真”链接样本选择                                       项对于
                                                                   S  偏向少类程度和特征空间覆盖程度. 故最大化
                 择   Q 中最相似样的本并将相似度加和, 两项相加同时度量了集合
                 SMI 函数可以帮助选择既偏向于少类样本、又尽可能覆盖特征空间的待标注样本集合.

                          类不平衡的未标记集合 D u                                           ‡
                                                                    类平衡的已标记集合 S    D u
                                                                                       模型重新
                                                                                       进行训练
                                                                                         x i  S
                                                   argmax I f  (S;Q)                           模型
                        类分布                            ‡ S    D u

                                                 使用 SMI 进行类选择

                                类 ID
                                                   主动学习迭代
                                               图 11 基于   SMI 的主动学习流程

                 3.2.3    权重机制
                    半监督学习另一个问题在于随着迭代次数增长, 如何平衡                    (trade-off) 所选择的无标签样本“数量-质量”问题,
                 使得模型学习到大量的高质量新样本. 本文参考                Chen  等人  [68] 提出的  SoftMatch  模型, 为无标签样本设置权重参
                 数. Chen  等人指出半监督学习中过高的阈值会导致无标签样本利用率低, 即使假设所利用的伪标签大部分是正确
                 的  (高质量), 但仍然无法学习到好的分类模型. 然而, 如果训练过程中设置较低的阈值以提高利用率                             (例如使用
                 CBST-Adjust 动态降低阈值), 那么伪标签中会引入过多的错误标签. 考虑到以往的半监督模型对于样本权重“缺乏
                 合理设计”, 所选择策略都将样本权重假定为均匀分布, SoftMatch              通过对于置信度较高的无标签样本, 设置更高的
                 权重, 对于置信度较低的更容易出错的无标签样本, 设置更低的权重, 在充分利用无标签样本信息的同时, 降低伪
                 标签噪声的影响.
                    无标签样本估算权重        λ(p) 的具体定义如公式     (14) 所示:

                                                   (           2  )
                                                     (max(p)−µ t )
                                                
                                                 exp −           , if max(p) < µ t
                                                
                                                            2                                        (14)
                                          λ(p) =         2σ t
                                                
                                                
                                                  1,               otherwise
                                                
                    SoftMatch  中无标签样本权重被假设服从高斯分布            N(µ t ,σ t )µ t  的左侧部分, 并且将置信度超过均值   µ t  的高置
                 信度样本的权重设置为        1, 公式中的   µ t  和  σ t  可以由无标签样本的置信度分布估算而得.
                    值得注意的是, 考虑到半监督初始模型效果对生成的伪标签质量的影响, 本文在                          SoftMatch  对无标签设置的
                 权重基础上, 附加了一层权重设置. 即将初始训练模型精度设为权重                     λ precision_initialModel  , 故无标签样本最终权重值为
                 公式  (15) 所示:

                                                 (     )
                                                λ 无标签 = λ precision_initialModel ×λ(p)               (15)

                 4   实验分析

                 4.1   实验数据
                    本文在合作企业的        10  个项目的缺陷-commit 跟踪对样本上进行实验. 这部分项目的业务类型包含两大类,
                 应用程序类    (P1–P4) 和服务平台类     (P5–P10) 项目. 应用程序类项目主要面向         toC  用户, 由于交付节奏快、发布
                 压力大、更多的工程师参与项目研发, 导致项目规模较大、制品迭代频率较高, 因此缺陷的可追踪性比例较低,
                 后续维护成本也高. 相比之下, 服务平台类项目主要面向                  toB  用户, 迭代周期相对较长, 制品数量规模较为可控,
                 故制品可追踪性的构建和维护相对规范. 表               1  给出了数据集所对应的详细统计量信息. 脱敏后的样本特征数据
                 集已共享.
   33   34   35   36   37   38   39   40   41   42   43