Page 36 - 《软件学报》2025年第5期
P. 36

1936                                                       软件学报  2025  年第  36  卷第  5  期


                    因此, CBST-Adjust 每轮迭代选择的伪标签集合如公式            (12) 所示:

                                                      )       )            )       )
                                     S subset = (µ 0 ×top( p iNum ×D unlabeled,0 ∪(µ 1 ×top( p iNum ×D unlabeled,1  (12)


                                                                  伪标签选择
                          伪标签生成
                                                  设置概率阈值                     选择每个类 z 的伪标签
                                                                                          ϵ
                                                            ^
                                              exp(−T z )=ProbList z [(p z *D u,z )]  if P(i) z ≥exp(−T z ), then i  S u,z
                                                              ^
                                                      S u,1 =top(p 1 *  D u,1   )
                                                                        选择
                            标签平滑          少类(“真”链接)               …            获取 CBST 中的采样集合
                                                                                   S subset =S u,1 ∪S u,1
                                                          0.9, 0.8  0.5  0
                                            ProbList true
                                                             ^
                                                     S u,0 =top(p 0 *  D u,0  )
                                                                        选择
                                          多类(“假”链接)                 …
                                                                           获取 CBST-Adjust 中的采样集合
                                                         1, 0.99, 0.98   0.5       0  S subset =(μ 1 ×S u,1 )∪(μ 0 ×S u,0 )
                                           ProbList false
                                           图 8 半监督学习     CBST-Adjust 样本选择策略

                    (2) 软件可追踪性半监督学习策略问题解析
                    虽然半监督学习通过学习大量无标签样本缓解了样本稀疏性, 但本文通过在可追踪性数据集                                 (企业数据集)
                 上进行初步探索后发现, 这类策略仍然存在一个明显的问题: 使用当前有标签样本进行训练, 由于初始模型效果并
                 不理想, 生成的伪标签可能预测错误, 从而影响模型训练效果的提升.
                    本文在表    4  中比较了可追踪性初始模型使用半监督学习               (参数设置为: α=1/3, 初始迭代样本选择比例及增长
                 比例为   p/increaseRate  (0.2/0.1), 迭代范围为  0–5  次) 后的模型效果. 实验结果表明, 初始模型效果的确对半监督算
                 法的提升程度有较大的影响. 例如, P7         和  P8  项目的  F2  值提升程度小于   10%. 在半监督学习中, 由于选取的无标签
                 样本生成的伪标签可能是不可靠的, 导致半监督模型效果在初始模型基础上提升的空间非常有限.

                                              表 4 半监督模型提升率        (F2  值) (%)

                     方法         P1      P2     P3      P4     P5      P6     P7      P8     P9     P10
                    初始模型       28.58   31.32  15.32   30.35  33.43   28.39   8.99   15.17   9.27   24.10
                   半监督模型       46.48   45.36  37.50   43.08  48.44   47.30  13.05   21.43  26.01   36.10
                   Improvement  17.90  14.04  22.18   12.73  15.01   18.91   4.06   6.26   16.74   12.00

                    其次, 半监督模型效果起初由于训练学习样本的增加, 尤其是少类样本的增加有明显的提升. 如图                               9  所示, 本
                 文比较了在     P5  项目上使用半监督学习策略后不同参数设置对于模型效果的影响. 图                         9  的参数设置范围为,
                                                                   .
                 p ∈ (0.1,0.2),increaseRate ∈ (0.025,0.05,1),α ∈ (0,1/4,1/3,1/2,1) p 和  increaseRate 值越高表示在每轮迭代选择的
                 无标签样本量更多, 但随着迭代次数的增加, 剩余的无标签样本中少类样本有限, 极易引入低质量的样本. 导致在
                 后续迭代中不升反降的趋势愈加明显. 从公式               (7) 和公式  (8), 可以推测出,   α 约接近于  0, 则多类采样比例     µ 0  值越
                 高, 则选择的伪标签样本不平衡性越严重.
                    本文提出的     STRACE(AL+SSL) 框架针对半监督模型的痛点引入了两项改进策略, 一方面通过主动学习策略
                 重塑训练集, 提高训练集样本的准确性和代表性. 另一方面, 引入权重设置机制, 选择伪标签时考虑初始训练模
                 型精度和伪标签样本可靠性的影响, 分别赋予不同权重. 从而减少低质量伪标签样本中的噪声对可追踪分类器的
                 影响.
   31   32   33   34   35   36   37   38   39   40   41