Page 239 - 《软件学报》2025年第5期
P. 239
贺瑞芳 等: 基于去噪图自编码器的无监督社交媒体文本摘要 2139
(l)
˘ A i j = α ·A i j (6)
i j
其中, H (l+1) 是第 l 层的输出. A 是增加了自连接之后的邻接矩阵. α (l) 是节点 i 与节点 j 在第 l 层的注意力权重. W (l)
ij
和 b (l) 是 GAT 第 l 层的学习参数. 为了进一步融合帖子的内容特征, 将第 4.3.1 节得到的帖子内容特征作为社交关
(0)
系网络中帖子节点的初始化表示, 即令 H = X . 本文中的注意力计算过程采用缩放点积注意力, 在实现过程中,
h i 映射到 K 个不同的子空间中, 并在每个子空间中分别计算注意力权重, 从而将普通注意力机
还可以将潜在表示
制扩展为多头注意力机制:
( )
( ) T head k
W head k h i ·W h j
a
e head k = √ b (7)
ij
D h
( )
exp e head k
ij
α head k = ( ) (8)
i j
Σ q exp e head k
iq
D h 是注意力机制中的隐层向量维度. 由于对模型每一层中的计算过程均相同, 为了描述简便, 此处忽略了表
其中,
示层数的上标 (l) , 并使用上标 head k 来表示第 k 个注意力头中对应的参数值. W head k ∈ R D h ×D 与 W head k ∈ R D h ×D 是第
a b
k 个注意力头中的学习参数. 通过这种方式可以得到 K 组注意力权重. 由于不同的注意力头从不同的角度捕捉节
点之间的关系, 两个节点之间在不同的注意力头中的关系重要性可能会有较大差异. 因此, 本文没有对所有注意力
头的结果进行拼接操作, 而是采用了最大池化操作, 从各个注意力头中选出两个节点之间最强的关系, 作为这两个
节点之间的真实关系, 从而将 K 组不同的注意力权重统一为最终的注意力得分:
( )
α ij = max α head 1 ,α head 2 ,...,α head k (9)
i j
ij
i j
另一个问题是, 由于社交关系网络的规模取决于网络中的节点个数, 不同的社交关系网络中节点个数可能差
距较大, 导致社交关系网络的规模具有较大差异. 同时, 普通的 GAT 容易存在过平滑的问题, 尤其是在网络的规模
较小并且网络比较稠密的情况下, GAT 的过平滑问题更为严重, 导致网络中各个节点之间缺乏区分度. 为了缓解
GAT 的过平滑问题, 本文将图注意力网络中的连接层替换为残差连接层, 使得模型能够直接从输入数据中获取信
息. 因此, 改进后的残差图注意力网络的传播规则如下:
( ) ( )
(l)
(l)
H (l+1) = f H (l) +σ ˘ AH W +b (l) (10)
其中, f (·) 是映射函数, 负责将节点特征映射到统一的空间中, 具体实现中使用带有激活函数的全连接层实现.
σ(·) 表示非线性激活函数. GAT 编码器的深度记为 L , 决定了社交关系网络中信息传播的距离. 最后一层的输出
H (L) 作为 GAT 编码器最终的编码结果, 将用于后续的摘要抽取过程. 为了避免没有社交关系的帖子之间进行相互
的信息流动, 本文中将 GAT 的深度设置为 1.
4.3.4 双重构解码器
由于希望编码得到的帖子表示能够同时捕捉帖子的文本内容信息与社交结构信息, 本文设计了双重构解码
器, 根据帖子的编码表示同时重构原始的帖子文本内容与帖子之间的社交关系网络拓扑结构.
对于社交关系网络的重构, 我们使用一个关系解码器来预测给定的两个帖子节点之间的社交关系. 解码器根
据两个帖子的编码表示的内积来判断他们之间的社交关系情况:
( ) ( )
T
p ˆ A ij = 1 | h i ,h j = σ h h j (11)
i
具体来说, 对于图中的每一对节点, 解码器预测他们之间存在社交关系连接的概率, 预测结果记为 ˆ A , 其中 ˆ A ij
表示帖子节点 s i 与 s j 之间存在社交关系的概率.
对于文本内容的重构, 本文提出通过预测帖子与单词之间的关系来保留帖子的文本内容信息. 由于每个帖子
通常包含多个单词, 因此内容重构过程建模为一个多标签分类问题:
ˆ s i = σ(W d h i +b d ) (12)
V
V
其中, W d ∈ R V×Z , b d ∈ R 是学习参数, V 表示词表大小. ˆ s i ∈ R 是预测结果, ˆ s i j 表示帖子 s i 包含单词 w j 的概率.