Page 238 - 《软件学报》2025年第5期

P. 238

2138 软件学报 2025 年第 36 卷第 5 期

4.3.1 文本内容编码器

对于每个帖子 s j ∈ S , 其中 s j = [w 1 ,w 2 ,...,w t ], t 是帖子中单词的个数, w k 是帖子 s j 中的第 k 个单词. 通过利用
预训练的 BERT 模型对帖子进行编码, 得到帖子的向量表示, 如公式 (2) 所示:

( )
x j = BERT s j (2)
由于社交媒体中的帖子与传统长文档具有许多不同的特征, 如内容较短、表达非正式等, 为了能够更好地适
应社交媒体短文本的特点, 对于英文数据, 本文将普通 BERT 模型替换为 BERTweet 模型 [68] . 对中文数据则采用
BERT-base-Chinese 模型. BERTweet 与 BERT 具有相同的结构, 但是 BERTweet 是在大规模 Tweet 语料上预训练
得到的, 因此能够更好地适应社交媒体文本的特点.

4.3.2 基于噪声函数的伪社交关系网络生成
之前的研究假设具有社交关系的帖子之间倾向于具有相似的内容 [27,63] , 然而噪声关系会严重影响该假设的正
确性. 由于缺乏帖子之间真实社交关系的标准标注数据, 为了使模型能够识别噪声关系, 本文根据噪声函数向输入
网络中添加噪声关系实例, 自动构建伪训练数据. 具体来说, 两种噪声函数的设计如下.
● 对于网络中每一对未连接的节点, 以概率 p i 为他们建立一条边, 将其连接. 该函数称为关系插入.
● 对于网络中的每条边, 以概率 p d 将他们之间的边移除. 该函数称为关系丢失.
这两种噪声函数分别对应虚假关系和潜在关系. 换句话说, 模型根据噪声函数向输入的社交关系网络中添加
这两种噪声函数的实例, 并训练模型识别并进一步移除这些噪声关系.
对于社交网络中未连接的节点对, 由“关系插入”操作建立新边, 定义为离散型随机变量 y 1 ; 对已连接的节点
y 2 . 社交网络关系由若干个节点连接而成, 每对节点之间只
对, 由“关系丢失”操作删除边, 定义为离散型随机变量
有连接和非连接状态, 分别对应着 0,1 这两种离散状态. 因此, 假设随机变量 y 1 服从参数为 p i 的伯努利分布, 使得
每一对未连接的节点, 以概率 p i 建立一条新边; 随机变量 y 2 服从参数为 p d 的伯努利分布, 对于网络中的每条边,
以概率 p d 将之移除. 形式化如下.
对应插入边操作的潜在关系噪声分布为:

y 1 ∼ B(1, p i ) (3)
对应删除边操作的虚假关系噪声分布为:

y 2 ∼ B(1, p d ) (4)
{( )}
¯
具体来说, 假设原始网络 G 是可靠的, 并构造合成训练数据 D = G,G . 本文构建了伪社交关系网络 G ¯ , 同时
考虑了在添加噪声之前的真实社交关系网络 G , 这两个网络共同构成了我们研究的网络结构. 在训练阶段, 模型将
伪社交关系网络 G ¯ 作为输入, 学习去除噪声关系并重构原始社交关系网络 G . 在测试阶段, 模型将原始社交关系
G 作为输入, 将其视为带有噪声关系的版本, 并尝试去除网络中的噪声关系. 另外, 由于两种噪声关系的比例
网络
与优先级也会影响模型的性能, 本文将在第 6.4 节讨论.

4.3.3 残差图注意力网络编码器
到目前为止, 已经得到了伪社交关系网络与帖子的文本内容表示. 为了建模相关帖子之间的交互, 本文采用图
注意力网络 (graph attention network, GAT) 作为编码器来整合帖子的社交关系特征与文本内容特征. GAT 可以看
作一个信息传播模型, 它通过聚合邻居节点的相关信息来学习节点的特征表示. 同时, 相比于传统的图卷积网络
(graph convolutional network, GCN), GAT 可以为相同邻域内的不同邻居节点赋予不同的权重, 因此能够为重要的
节点赋予较高的权重, 并为重要性较低的节点赋予较低的权重, 从而更加动态地聚合社交上下文中的相关
信息.
形式化来说, GAT 编码器将节点的特征 X = [x 1 ,...,x N ] ∈ R N×D 与帖子级别社交关系网络结构 A ∈ R N×N 作为输

入, 其中 D 是节点特征的维度, N 是节点个数. 传播规则如下:

( )
(l)
(l)
H (l+1) = σ ˘ AH W +b (l) (5)

233 234 235 236 237 238 239 240 241 242 243