Page 31 - 《软件学报》2025年第5期
P. 31
董黎明 等: 结合主动学习和半监督学习的软件可追踪性恢复框架 1931
1.0
0.8
特征稀疏比例 0.6
0.4
0.2
0
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a17 a18
开源项目 0 0 0.87 0 0 0.04 0 0 0.14 0 0 0.34 0 0 0.04 0.85 0.76 0.99
企业项目 0 0 0.87 0 0 0.28 0 0.12 0.84 0 0.12 0.84 0 0 0.07 0 0 0.95
图 6 特征稀疏性
与开源项目数据集相比, 企业项目中过程特征 (如 a3、a6、a9 和 a12) 呈现更高的稀疏性. 其中文本相似性特
征 (如 a17) 则存在较多非空值. 因此, 虽然 Baseline(RF) 中定义的特征集 (a1–a18) 在开源软件项目中表现良好, 然
而, 在选定的企业项目中, 稀疏的特征空间使得当前特征样本无法捕捉到制品间跟踪链接的细节信息. 通过访谈企
业内部人员本文发现, 这极大可能是因为企业项目中记录的制品属性信息 (人、时间等字段), 存在不正确记录的
数据. 即在企业项目上, 样本中学习到过程特征可能是不正确的或与事实不符的. 例如, 缺陷被分配给内部 leader
角色 (如项目经理), 而缺陷的 commit 提交人员, 即实际修复人员则可能由其他开发人员 (如外包开发者) 负责. 在
大型企业组织中, 这种现象往往是一个广泛采用的合作模式.
为进一步分析选取的特征对模型的贡献, 表 2 中计算了两类数据集每个特征与标签之间的相关性, 即通过
Pearson correlation coefficient 值 (corr.) 评估特征 (a1–a18) 与标签 y (“真”=1, “假”=0) 之间的相关性. 同时对比了特
征与跟踪链接标签相关性指数的显著性 p-value. 不难发现, 在企业数据集中, 与过程相关的特征 (a4–a16) 中存在
显著相关 (p-value<0.05*) 的特征较少, 且与标签 y 的相关性值较低 (corr. 较小). 文本相似性 (a17, a18) 是两类数据
集上都最相关的特征. 这说明了文本相似性特征的重要性, 特别是在企业项目中, 应该加强对语义信息的捕捉.
表 2 特征相关性
开源项目 企业项目
特征
相关性 (corr.) 显著性 (p-value) 相关性 (corr.) 显著性 (p-value)
a3 0.1 0.074 2 0.2 0.018 8*
a4 −0.11 0.022 9* −0.06 0.029 6*
a5 −0.12 0.036 7* 0.01 0.168 2
a6 0.02 0.025 7* 0.05 0.023 8*
a7 −0.13 0.031 8* −0.01 0.170 6
a8 −0.06 0.070 5 0 0.496 3
a9 0.11 0.030 0* 0 0.371 0
a11 −0.12 0.004 8** 0 0.490 3
a12 0.1 0.115 8 0 0.354 9
a14 −0.06 0.072 5 0 0.200 3
a15 −0.02 0.191 0.01 0.179 5
a16 −0.08 0.030 9* −0.06 0.026 7*
a17 0.41 0.000 0** 0.36 0.045 7*
a18 0.27 0.000 6** 0.31 0.024 0*
注: *表示0.05显著水平, **表示0.01显著水平
3 基于主动学习-半监督学习的可追踪性恢复框架 STRACE(AL+SSL)
可追踪性算法主要是通过制品之间潜在的关联线索判断分类标签是否为 (“真”=1, “假”=0) 链接的二分类模