Page 324 - 《软件学报》2025年第7期
P. 324
黄靖 等: 基于特征融合动态图网络的多标签文本分类算法 3245
∑
i
i
i
i
L = − y log(ˆy )+(1−y )log(1− ˆy ) (19)
i=1
3 实 验
当前大部分方法为所有样本生成一个动态图, 因而难以适应不同样本的特殊情况. 基于此, FDGN 引入了特征
融合动态图网络来挖掘文本当中蕴含的标签关系. 为了评估基于特征融合动态图网络的多标签文本分类模型
FDGN 的有效性, 本文选取了精确率、汉明损失、微平均 F1 分数为评价指标, 并尝试验证了以下 3 个问题.
• 问题 1: FDGN 是否比其他多标签文本分类的方法更好?
• 问题 2: FDGN 的各模块如何改善分类结果?
• 问题 3: FDGN 的实践效果如何?
3.1 数据集
为了验证本文提出的模型是有效的, 本文在学术论文引用数据集 (BIBTEX) [42] 、路透社语料库 (RCV1-V2) [43]
和 arXiv 学术论文数据集 (AAPD) [44] 上进行了实验. 3 个数据集的对比在表 1 中.
• BIBTEX 数据集是由 Katakis 等人 [42] 创建的, 包含了一篇学术论文的元数据信息, 如标题、作者、摘要、会
议或期刊信息等, 该数据集共有 159 个标签, 每个文档平均有 2.38 个标签.
• RCV1-V2 是路透社新闻文本和相应的新闻类别数据. 它包括 804 414 条新闻报道, 每个新闻项目都是根据标
签类别手动分类的, 每个新闻项目属于多个标签. 该数据集共有 103 个标签, 每个文档平均有 3.24 个标签.
• AAPD 是由 Yang 等人 [44] 创建的多标签分类领域的一个新数据集, 包括计算机科学领域 55 840 篇学术论文
的摘要和主题. 该数据集共有 54 个标签, 每个文档平均有 2.41 个标签.
表 1 实验中使用的数据集
Dataset Train Valid Test Labels Words/S L/S
BIBTEX 4 377 777 3 019 159 46.47 2.38
RCV1-V2 644 410 80 000 80 000 103 123.94 3.24
AAPD 45 850 5 000 5 000 54 163.42 2.41
注: Words/S和L/S为平均每篇文档的单词数和标签数
3.2 评估指标
多标签文本分类可以用一组指标来评估, 这些指标从不同角度来评估模型的性能 [45] . 参照 Yang 等人 [46] 的工
作, 本文采用微精确率 (Micro-Precision)、汉明损失 (HL)、微平均 F1 值 (Micro-F1) 作为主要评估指标. 微精确率
(Micro-Precision) 计算的是预测为正例的样本数中真正的正样本所占比例, 值越高表明模型在预测样本时的准确
性较高. 汉明损失 (HL) 衡量的是分类器在所有标签上的预测结果与实际标签之间的不匹配程度, 汉明损失越低表
明模型分类性能越好. 微平均 F1 值 (Micro-F1) 是通过分别计算每个标签的精确率和召回率, 然后对其进行加权
平均得到的, 值越高表明模型的整体分类性能越好. 具体公式如下:
Q ∑
tp j
j=1
Micro-Precision = (20)
Q ∑
tp j + f p j
j=1
1 N ∑ XOR(y i , ˆy i )
HL = (21)
N Q
i=1
∑
Q
2tp j
j=1
(22)
Micro-F1 = ∑
Q
2tp j + f p j + fn j
j=1

