Page 323 - 《软件学报》2025年第7期

P. 323

3244 软件学报 2025 年第 36 卷第 7 期

标签动态图, 通过在这个动态图上进行图卷积操作, 提取出该文本中蕴含的标签关系. 这一步骤有助于更准确地理
解标签之间的关联性, 从而增强多标签文本分类的性能. 在上述过程之后, 能够获得标签的深层次表示. 第 3 阶段,
本文进一步将标签的深层次表示与原始标签进行匹配, 最终得到对标签的预测概率. 通过这种方法, 能够充分挖掘
文本和标签之间的关联信息. 特别是, 动态图的引入能够使所提出模型能够适应不同文本和标签之间的多样性关
系, 从而更好地解决实际应用中的多标签文本分类问题.
第 2.3 节将介绍特征融合动态图网络, 该节主要涉及特征融合模块和动态图模块. 第 2.4 节将介绍多标签概率
预测, 该节主要涉及最后的标签概率计算.

2.3 特征融合动态图网络
FDGN 首先通过特征融合模块提取标签的混合特征. 与 Ye 等人 [41] 类似, FDGN 利用卷积网络提取出文本的
全局特征 G, 然后将 G 与标签相关的文本特征拼接, 最后通过卷积操作得到标签融合特征 V . 公式如下:
m

T
G = (Conv1(V)) δ(Conv2(V)) (9)

c
V = [(v 1 ;v g ),(v 2 ;v g ),...,(v |C| ;v g )] (10)

m
c
V = W V c (11)
c
其中, Conv1、Conv2 为两个 1×1 的卷积, δ 为 ReLU 函数, W 是参数矩阵.
c
在构造动态图上, FDGN 先采用注意力机制得到标签与文本中每个词的注意力得分 S , 注意力得分能在词级
别上体现标签与文本上下文的关系. 接下来 FDGN 设计了一种注意力机制来捕捉标签之间的关系. 该机制首先结
t
合单词和文本得到每个单词在文本中的权重 W , 然后在每个单词上计算标签之间的相似度, 最后按权重累加得到
标签之间的相关性分数, 最后得到动态图 A . 这个图充分体现了标签之间的动态关系, 能够结合文本更加真实地
d
反应标签之间的关系, 公式如下:

 n 
∑ 
d   c c t 
A = Sigmoid    s × s ×W   (12)
j,k
k 
ij
i,k
k=1

T
m
q
V W Z W k
c
S = √ (13)
d

t
s
W = Softmax(S ) (14)

n ∑
s
S = S t k j (15)
k
j=1

T
Z
ZW Z W L
t
S = √ (16)
d
t
k
c
q
Z
L
其中, W 、 W 、 W 、 W 为参数矩阵, d 为特征维度. S 为文本单词之间的注意力得分, S 为标签和文本单词之
间的注意力得分.
在得到特定于文本的动态图后, 接下来通过公式 (5) 对邻接矩阵 A 进行归一化, 然后对标签融合特征 V m 进行
d
图卷积操作, 最后得到标签动态语义表示 U ∈ R m×d .

2.4 模型训练
E 进行匹配, 这里本文使用向量点积得
在上述过程之后, 获得了标签的动态语义表示 U, 然后将其与标签表示
到标签的预测得分 S. 公式如下:

( )
T
S = diag U E (17)
然后为了获得标签的预测概率, 本文使用 Sigmoid 函数对得分进行归一化, 公式如下:

y = Sigmoid(S ) (18)
y ∈ R 来代表这篇文档预测的标签, 其中 y 为 i 1 表示该标签属于该文档, y 为 i 0 表示该标签不属于
m
本文使用
该文档, 损失函数为交叉熵损失函数. 本文在验证集上确定预测最佳阈值, 以此阈值为标准来得到最后的预测结果.

318 319 320 321 322 323 324 325 326 327 328