Page 321 - 《软件学报》2025年第7期
P. 321
3242 软件学报 2025 年第 36 卷第 7 期
取得了良好的效果. Zhou 等人 [33] 将长短期记忆网络和注意力机制相结合提取文本中的语义信息. 这类方法聚焦于
建模标签和文本之间的关系, 能够充分利用标签信息, 但忽略了标签之间存在的关系. 基于此, 本文首先通过注意
力机制建模标签与文本之间的关系, 为每个标签生成一个文本表示. 同时, 为了建模标签之间的关系, 为每个文本
生成了一个标签动态图, 通过图神经网络优化标签表示.
1.3 图神经网络
随着文本数据的快速增长和多标签分类任务的复杂性不断增加, 图神经网络作为一种强大的图结构建模工具,
为解决多标签文本分类问题提供了新的方向. 图神经网络能够利用标签之间的关联关系构建标签图, 并在图上进行
特征提取和表示学习. 常见的图神经网络主要有以下几种: 一是图卷积网络 (GCN) [34] , 通过聚合每个节点的邻居的
信息来更新节点的表示. 二是图注意力网络 (GAT) [35] , 通过引入注意力机制来改进节点更新过程, 使得节点更专注
于与其相关的邻居节点. 三是多关系神经网络 (CompGCN) [30] , 这类方法将节点之间多种关系与节点联合学习, 能够
捕获节点之间的多种关系. 在多标签文本分类领域, 图神经网络的应用十分广泛. Liu 等人 [36] 提出了一种结合了图
卷积网络 (GCN)、BERT 和记忆网络的混合模型. Pal 等人 [37] 提出了一种基于 GAT 模型 MAGNET, 通过计算标签
之间的共现频率来建立标签之间的边, 然后利用图神经网络来学习标签的表示. Ozmen 等人 [29] 将自注意力机制和
多关系图卷积相结合, 获得了基于推拉关系的标签表示, 并且提出了基于卡方检验的标签图构造方法. 这类方法基
于数据集当中的先验信息为所有样本构造同一个标签图, 忽视了文本段中固有的标签相关性, 使得图中信息的传播
受到数据集统计信息的影响, 限制了初始信息较少的长尾标签的应用, 因此具有一定的局限性. 因此, 本文引入了动
态图, 基于文本内容、标签信息来为每个样本生成一个标签图, 从而能够挖掘文本当中蕴含的标签关系.
2 方 法
2.1 问题描述
N 由 篇文档 m 是标
在多标签文本分类任务当中, 训练集 D = {(x i ,y i )} N x i 和相应的标签 Y = {y i ∈ {0,1} } 组成, m
i=1
签的总个数. 每篇文档 x i 都由一系列单词组成, x i ={w 1 , w 2 , …, w n }, 其中 n 是文档的长度, w i ∈ R 是第 i 个词向量.
d
标签是文本, 将其表示为 L={l 1 , l 2 , …, l m }, 每个词向量 l i ∈ R . 多标签文本分类的目标是根据训练集训练一个预测
d
模型, 能够将一个新的未标记的样本分类到 m 个语义标签中.
2.2 模型框架
本文提出了一种多标签文本分类模型 FDGN, 如图 2 所示. 该模型采用了三阶段来充分利用文档和标签之间
的关联信息. 首先, 该模型在第 1 阶段分别利用自注意力网络和图神经网络来提取文本和标签表示. 在得到文本和
标签表示后, 为了建模标签和文本之间的关系, 通过注意力机制在文本中为每个标签提取相关内容, 得到标签相关
的文本表示. 然后, 考虑到文本之间标签关系是不同的, FDGN 在第 2 阶段设计了一个特征融合动态图模块. 该模
块结合标签表示和文本表示为每个文本生成一个标签动态图, 在图上优化标签表示. 最后, FDGN 在第 3 阶段将标
签相关的文本表示与标签语义表示进行匹配得到最后的分类结果. 下面对 FDGN 进行分步骤描述.
在第 1 阶段, 与之前的一些研究类似, 本文采用自注意力机制来提取文档特征, 这样可以有效捕捉文档内部的
语义信息和重要单词. 给定文档 x i ={w 1 , w 2 , …, w n }, 受 Transformer [38] 的启发, 文档中的每个词向量将经过多头自
注意力机制和前馈神经网络层的处理, 从而得到文档特征表示. 公式如下:
MultiHead(Q,K,V) = Concat(head 1 ,head 2 ,...,head n )W o (1)
Q
V
K
head i = Attention(QW ,KW ,VW ) (2)
i i i
( )
QK T
Attention(Q,K,V) = Softmax √ V (3)
d
(4)
FNN(x) = max(0, xW 1 +b 1 )W 2 +b 2
O
V
Q
K
其中, W 、 W 、 W 、 W 、 W 1 、 W 2 、 、 b 2 是可训练参数, d 是向量维度, n 是注意力头个数.
b 1
i i i
通过叠加多层的多头自注意力机制和前馈神经网络后, 最后得到了文档的语义表示 Z ∈ R n×d . 在建模标签关系

