Page 136 - 《软件学报》2025年第9期
P. 136
谢生龙 等: 基于多模态融合的软件缺陷协同分派方法 4047
从表 3 中还可以看出, CBT-MF 方法在 GC、MC 和 MF 这 3 个数据集上的 Hit@K 指标也表现出了最好的性
能. 尤其是在 MC 和 MF 数据集上的表现明显优于其他方法, 并且对任意两组数据集的同类指标进行方差分析后,
发现 p-value < 0.05, 这说明实验结果表现出了明显的统计学意义. 在其他方法中, SGL 方法在选定指标上表现相
对较好, 而 CBCF、NCF 和 LightGCN 方法表现略差, 但明显优于文本分类的 CBR 和 DBRNN-A 方法, 以及相关
性匹配的 BERT 和 GGRCNN 方法. 这是因为优化过后的各类模型参数对不同方法的性能会产生一定程度的影响,
例如迭代次数、正则化系数等, 最终影响到了其性能评估指标. 并且, 实验所选的 3 个数据集本身具有不同的特
征, 如 bug 数据的密度、噪声、数据分布等, 这些特征也会对实验评估的各个方法性能产生影响.
当然, 还需要指出的是, 包括 CBT-MF 在内的上述方法在实验数据集上的 Recall@K 和 Hit@K 值并不高. 这
个原因是多方面的, 其一, bug 分派场景中的 bug 数据存在天然的失衡, 缺陷报告文本丰富而开发者能力描述缺失;
其二, 数据集本身的复杂性和噪声问题可能会影响模型的学习效果, 尽管进行了数据清洗和预处理, 但仍可能存在
一些难以完全消除的噪声和冗余信息. 此外, 虽然我们采用了先进的图神经网络和多模态融合方法实现 bug 与开
发者复杂关系的捕获, 但是在处理一些噪声数据和异常情况时, 模型的鲁棒性仍有待提升. 然而, 这些方法所形成
的指标差异性和低迷性, 并不影响我们归纳出下述 4 个基本结论.
(1) 基于相关性匹配的方法优于单一文本分类的方法. 虽然深度学习有助于 DBRNN-A 分派性能的提升, 最终
会优于经典的 CBR, 但它们都比不上 BERT 和 GRCNN. 这是因为 BERT 和 GRCNN 从相关性匹配的角度分派时
更能够挖掘 bug 和开发者之间的关系, 这种关系能够有力提升 bug 分配的准确性. 此外, 从表 3 所统计的实验结果
中还可以看出, GRCNN 相对于 BERT 来讲性能更好, 这很大程度上是因为 GRCNN 中的深度图神经网络比
BERT 的左右上下文表示方法能够提取 bug 和开发者之间更多的相关性特征.
(2) CF 推荐的 bug 分派是分派性能较好的一类方法. CF 推荐类所包含的 4 个基线方法的两类评价指标都优
于文本模态分类的基线方法. 特别地, LightGCN 在 bug 修复记录分布最不均衡的 GC 数据集上也相对优于 NCF.
因为 LightGCN 更适合处理存在不均衡性的数据, 这种优势在相对均衡的 MC 和 MF 数据集上更为明显, 因为
bug 修复记录相对均衡数据集通常可以给 LightGCN 带来更好的性能. 此外, SGL 出色的性能表明, 通过不断的节
点特征学习可以将基于图学习的 CF 提升到更高的表达水平.
(3) 与所有的基线方法相比 CBT-MF 都表现出了最好的性能. 从表 3 中的实验结果可以出, 即使在像 GC 这
样 bug 修复记录较不均衡的数据集中, CBT-MF 也取得了绝对的领先优势. 这一优势归因于 CBT-MF 方法的两个
基本创新上. 一是聚类和重采样很大程度上缓减了 bug 数据分布不均衡性的影响; 二是以 bug 报告语义与 bug-开
发者二部图的多模态融合有效表征了 bug 报告与开发者的相关性.
(4) 在 3 类方法中, MF 上的两种指标表现都明显优于 MC 和 GC. 这是因为 MF 数据集有相对大的密度, 表明
该数据集中开发者的活跃度和缺陷修复记录的分布可能更为均衡, 这种均衡性有助于各类方法全面地学习开发者
的修复行为和模式, 从而提高预测性能, 使得分派方法能够更有效地学习和预测. 此外, 在数据处理阶段, 对不同的
数据集进行的数据清洗、缺陷报告过滤和属性筛选等步骤, 可能在 MF 数据集中更为有效地减少了噪声和冗余信
息, 从而提升了数据的质量和一致性, 这进一步增强了这些方法的性能.
● RQ2: 数据不均衡性与文本数据模态单一影响的缓解.
CBT-MF 在进行 bug 分派时, 旨在缓解 bug 数据不均衡性和 bug 报告文本数据无法表达 bug 与开发者之间相
关性产生的影响. 因此, 接下来再讨论, CBT-MF 将 bug 报告文本和二部图作为 bug-开发者相关性挖掘的多模态数
据时, 能否缓解两个问题带来的分派性能影响. 实验分别构建了两个消融模型: CBT-P 和 CBT-G.
(1) CBT-P 仍然使用 GCF 模块的数据增强方案, 但不采取融合策略, 只对二部图进行图卷积计算, 且 GCF 模
块的设置与 LightGCN 相同. 通过对表 3 中的 LightGCN 和 CBT-P 的比较, 可以看到本文设计的数据增强方案有
效地缓解了 bug 数据的不均衡性影响, 并对评估指标带来了相当大的改进.
(2) CBT-G 不采用本文设计的数据增强方案进行数据增强, 仅使用 GCF 对 bug 文本语义和 bug-开发者二部
图融合后的结果进行卷积计算. 比较表 3 中 CBT-MF 和 CBT-G 的实验结果, 可以看到, 由于 CBT-MF 将 bug 报告
文本语义与 bug-开发者二部图捕获的结构特征同时作为链接预测的互补性依据, 故 CBT-MF 的分派性能表现优

