Page 237 - 《软件学报》2025年第5期
P. 237
贺瑞芳 等: 基于去噪图自编码器的无监督社交媒体文本摘要 2137
难的. 为了探究真实社交网络中噪声关系的分布情况, 并判断是否有必要对社交网络进行去噪, 本文提出一种粗略
估计社交网络中噪声关系的方法. 通常来说, 具有社交关系但是内容上相关性较低的帖子之间的关系被视为虚假
关系; 没有社交关系但是内容上具有较高相关性的帖子之间被视为具有潜在关系. 因此, 本文通过检测帖子之间社
交关系与内容相似性的一致性来判断帖子之间的关系是否是噪声关系. 形式化地, 帖子之间的社交关系矩阵为
ˆ
ˆ
)
ˆ
E ∈ R N×N , 其中 E ij = 1 表示帖子 s i 与 s j 之间具有社交关系, 否则 E ij = 0 . 对于网络中的每一对帖子节点 ( s i , s j , 如
Φ ij 小于阈值 , 则将它们之间的关系视为虚假关系; 同时, 如果
θ
果它们之间具有社交关系, 但是二者的内容相似度
它们之间没有社交关系, 但是二者的内容相似度高于阈值 θ , 则认为它们之间存在潜在关系. 在本文的实验中, 使
用 BERT 对帖子进行编码, 得到帖子的内容表示, 并且使用帖子内容表示之间的余弦相似度来衡量帖子内容之间
θ 的取值会严重影响网络中噪声关
的相似度. 这是一种简单且较为直接的估计网络中噪声关系的方法. 然而, 阈值
系的分布, 因此一个重要的问题是如何确定阈值 θ 的取值.
为了确定噪声关系判断的阈值, 本研究采用了一种基于统计分析的方法. 通过分析真实社交媒体数据, 我们计
算了帖子之间内容相似度的分布, 并选择了这个分布的平均值作为阈值. 这个平均值被认为能够代表大多数情况
下帖子间关系的一般特性. 为了验证这一阈值的有效性, 我们在多个数据集上进行了实验. 实验结果显示, 使用这
个阈值可以有效识别出虚假关系和潜在关系.
1 ∑ ∑ N
N
θ = Φ ij (1)
N 2 i=1 j=1
其中, Φ ij 是帖子 s i 与 s j 之间的内容相似度. 需要注意的是, 由于用户间的社交关系较为复杂, 具有社交关系的用
户并不一定导致相似的内容, 很多情况下用户之间会具有一些其他的交互关系, 例如具有社交关系的用户之间发
布的内容可能会具有上下文的相关关系, 而这种关系无法采用文本内容的相似度来衡量. 此处只为宏观了解噪声
关系在社交网络中的分布情况, 对社交关系的类别进行了简化, 仅考虑内容相似性来判断社交关系的真实性.
在两个真实社交媒体数据集 TWEETSUM [63] 和 Weibo [47] 上进行了实验 (数据集的详细讨论见第 5.1 节), 噪声
关系的统计结果如表 1 所示. 结果展示了每个数据集下所有社交网络中噪声关系的平均占比情况 (包括虚假关系
与潜在关系). 其中, 虚假关系率指的是在所有具有社交关系的节点对中, 虚假关系的占比, 潜在关系率是指在所有
没有社交关系的节点对中, 实际上具有潜在关系的节点对的占比; 平均噪声率则是所有噪声关系的数量 (包括虚假
关系与潜在关系) 与总的节点对个数的比值, 该值反映了网络中噪声关系的占比情况. 根据结果可以看到, 在社交
网络中噪声关系普遍存在, 从而验证了对社交网络进行去噪的必要性. 需要注意的是, 一些研究工作 (network
backboning) 尝试移除网络中不重要的边 (虚假关系), 但是他们无法处理网络中的潜在关系. 本文提出去噪图自编
码器来同时解决网络中的虚假关系和潜在关系.
表 1 两个数据集中原始社交关系网络中的噪声关系分布 (%)
数据集 虚假关系率 潜在关系率 平均噪声率
TWEETSUM 38.61 55.79 55.37
Weibo 83.17 52.66 52.67
4.3 去噪图自编码器
对于构建好的帖子级别的社交关系网络, 由于网络中普遍存在噪声关系, 直接使用该网络将会引入严重的噪
声偏差. 此外, 考虑用户之间的标准关系标签难以获得, 去除网络中的噪声关系实际上是一个非常困难的任务. 受
启发于图自编码器 [57] 和去噪自编码器 [66,67] , 本文提出一个去噪图自编码器 (denoising graph auto-encoder, DGAE),
学习在没有标准标注数据情况下去除社交网络中的噪声关系. 具体来说, DGAE 首先根据噪声函数向输入的网络
中添加噪声关系实例, 生成伪社交关系网络. 然后图注意力编码器将采样得到的伪社交关系网络与帖子的内容特
征进行编码, 得到帖子节点的隐表示. 为了同时捕捉帖子的社交拓扑结构特征与文本内容特征, DGAE 的解码器尝
试基于隐表示同时重构原始的社交关系网络结构与文本内容.