Page 321 - 《软件学报》2025年第7期
P. 321

3242                                                       软件学报  2025  年第  36  卷第  7  期


                 取得了良好的效果. Zhou     等人  [33] 将长短期记忆网络和注意力机制相结合提取文本中的语义信息. 这类方法聚焦于
                 建模标签和文本之间的关系, 能够充分利用标签信息, 但忽略了标签之间存在的关系. 基于此, 本文首先通过注意
                 力机制建模标签与文本之间的关系, 为每个标签生成一个文本表示. 同时, 为了建模标签之间的关系, 为每个文本
                 生成了一个标签动态图, 通过图神经网络优化标签表示.

                 1.3   图神经网络
                    随着文本数据的快速增长和多标签分类任务的复杂性不断增加, 图神经网络作为一种强大的图结构建模工具,
                 为解决多标签文本分类问题提供了新的方向. 图神经网络能够利用标签之间的关联关系构建标签图, 并在图上进行
                 特征提取和表示学习. 常见的图神经网络主要有以下几种: 一是图卷积网络                       (GCN) [34] , 通过聚合每个节点的邻居的
                 信息来更新节点的表示. 二是图注意力网络              (GAT) [35] , 通过引入注意力机制来改进节点更新过程, 使得节点更专注
                 于与其相关的邻居节点. 三是多关系神经网络              (CompGCN) [30] , 这类方法将节点之间多种关系与节点联合学习, 能够
                 捕获节点之间的多种关系. 在多标签文本分类领域, 图神经网络的应用十分广泛. Liu                       等人  [36] 提出了一种结合了图
                 卷积网络   (GCN)、BERT  和记忆网络的混合模型. Pal 等人        [37] 提出了一种基于   GAT  模型  MAGNET, 通过计算标签
                 之间的共现频率来建立标签之间的边, 然后利用图神经网络来学习标签的表示. Ozmen                         等人  [29] 将自注意力机制和
                 多关系图卷积相结合, 获得了基于推拉关系的标签表示, 并且提出了基于卡方检验的标签图构造方法. 这类方法基
                 于数据集当中的先验信息为所有样本构造同一个标签图, 忽视了文本段中固有的标签相关性, 使得图中信息的传播
                 受到数据集统计信息的影响, 限制了初始信息较少的长尾标签的应用, 因此具有一定的局限性. 因此, 本文引入了动
                 态图, 基于文本内容、标签信息来为每个样本生成一个标签图, 从而能够挖掘文本当中蕴含的标签关系.

                 2   方 法


                 2.1   问题描述
                                                          N   由  篇文档                         m       是标
                    在多标签文本分类任务当中, 训练集            D = {(x i ,y i )}  N  x i 和相应的标签  Y = {y i ∈ {0,1} } 组成, m
                                                          i=1
                 签的总个数. 每篇文档       x i 都由一系列单词组成, x i ={w 1 , w 2 , …, w n }, 其中  n  是文档的长度,  w i ∈ R  是第  i 个词向量.
                                                                                          d
                 标签是文本, 将其表示为       L={l 1 , l 2 , …, l m }, 每个词向量  l i ∈ R  . 多标签文本分类的目标是根据训练集训练一个预测
                                                              d
                 模型, 能够将一个新的未标记的样本分类到              m  个语义标签中.

                 2.2   模型框架
                    本文提出了一种多标签文本分类模型              FDGN, 如图  2  所示. 该模型采用了三阶段来充分利用文档和标签之间
                 的关联信息. 首先, 该模型在第        1  阶段分别利用自注意力网络和图神经网络来提取文本和标签表示. 在得到文本和
                 标签表示后, 为了建模标签和文本之间的关系, 通过注意力机制在文本中为每个标签提取相关内容, 得到标签相关
                 的文本表示. 然后, 考虑到文本之间标签关系是不同的, FDGN                在第  2  阶段设计了一个特征融合动态图模块. 该模
                 块结合标签表示和文本表示为每个文本生成一个标签动态图, 在图上优化标签表示. 最后, FDGN                            在第  3  阶段将标
                 签相关的文本表示与标签语义表示进行匹配得到最后的分类结果. 下面对                        FDGN  进行分步骤描述.
                    在第  1  阶段, 与之前的一些研究类似, 本文采用自注意力机制来提取文档特征, 这样可以有效捕捉文档内部的
                 语义信息和重要单词. 给定文档          x i ={w 1 , w 2 , …, w n }, 受 Transformer [38] 的启发, 文档中的每个词向量将经过多头自
                 注意力机制和前馈神经网络层的处理, 从而得到文档特征表示. 公式如下:

                                        MultiHead(Q,K,V) = Concat(head 1 ,head 2 ,...,head n )W o     (1)

                                                               Q
                                                                        V
                                                                    K
                                               head i = Attention(QW ,KW ,VW )                        (2)
                                                               i    i   i
                                                                    (   )
                                                                    QK  T
                                               Attention(Q,K,V) = Softmax  √  V                       (3)
                                                                      d

                                                                                                      (4)
                                                FNN(x) = max(0, xW 1 +b 1 )W 2 +b 2
                                    O
                                V
                       Q
                           K
                 其中,  W 、 W 、 W 、  W 、 W 1 、 W 2 、 、 b 2  是可训练参数, d  是向量维度, n  是注意力头个数.
                                               b 1
                       i   i    i
                    通过叠加多层的多头自注意力机制和前馈神经网络后, 最后得到了文档的语义表示                            Z ∈ R n×d . 在建模标签关系
   316   317   318   319   320   321   322   323   324   325   326