Page 232 - 《软件学报》2025年第5期
P. 232
2132 软件学报 2025 年第 36 卷第 5 期
信息, 即网络中的社会关系可能是不可靠的. 例如, 一方面, 有些用户之间虽然存在社会关系, 但是他们之间的实际
交互可能并不频繁, 比如常见的“僵尸粉”; 另一方面, 有些用户之间虽然没有显式的社会关系连接, 但是他们之间
也可能共享较多的相似特征, 从而有更大的可能性成为朋友. 这些异常情况使得对于社交网络中关系的应用更加
困难.
我实在不喜欢这
么大的摄像头
有 3 个摄像头
还是 4 个?
iPhone12 将于
10 月份发售
用户 4
用户 5
能有高刷新
率就太棒了!
用户 1
还有没有
120 Hz 刷新率?
用户 3
用户 2
图 1 社交媒体网络示例
总体来说, 社交网络上的异常关系可以分为以下两种: (1) 两个具有社交关系的用户可能持有不同的观点, 或
者发表不同的内容. (2) 一些没有社交关系的用户也可能具有较为相似的特征或观点. 上述两种情况分别定义为虚
假关系与潜在关系. 在利用帖子之间的社交关系时, 这些异常的社会关系使得真实的社会网络结构存在一些不可
靠因素, 导致模型引入额外的偏差, 从而降低模型对帖子特征的准确表示. 这些噪声关系对于社会关系的利用会产
生较大的负面影响, 因此, 如何识别并去除网络中的这些噪声信号, 是一个亟待解决的研究内容. 同时由于社交媒
体环境下的标注数据获取成本高昂, 因此本文中我们致力于研究如何在缺乏标注数据的情况下有效地移除社交网
络中的噪声关系, 从而减小噪声关系给摘要带来的影响.
本文提出了一种对噪声关系更加鲁棒的无监督抽取式社交媒体摘要模型 DSNSum (denoising social network
for social summarization). 该模型能够在没有任何标注数据的情况下学习移除社交网络中的噪声关系, 并融合帖
子的文本内容与可信社交关系来进行抽取式摘要. DSNSum 具有如下特征: (1) 考虑了帖子之间的社交关系来学
习社会化的帖子表示; (2) 能够移除社交网络中的噪声关系来提升帖子表示的可信度和准确性, 从而减少噪声关
系带来的偏差信息. 首先, 本文构建帖子级别的社交关系网络并利用图注意力网络 [30] 通过从邻居节点聚合相关
内容和背景信息来学习信息量更丰富的帖子表示, 这些额外的信息能够帮助缓解单一帖子内容简短导致的信息
不足的问题. 其次, 为了使模型对噪声关系更加鲁棒, 本文设计了一个去噪图自编码器模块 (denoising graph auto-
encoder, DGAE), DGAE 能够以一种“加噪-去噪”的方式学习移除社交网络中的噪声关系. 具体来说, 通过设计两
个噪声函数向原始社交关系网络中添加噪声关系实例, 生成伪社交关系网络, 然后将带有噪声关系的伪社交关
系网络与帖子的内容信息作为 DGAE 的输入对其进行编码, 并根据编码得到的潜在表示尝试解码重构回原始
的未添加噪声关系的社交关系网络以及帖子的原始文本内容, 从而学习识别与移除网络中噪声关系的能力. 在
测试阶段, DGAE 将真实的社交关系网络作为输入, 移除其中的噪声关系并产生可靠的帖子表示. 最终将可靠的
帖子表示输入基于稀疏重构框架的摘要抽取器, 选择满足覆盖性、重要性及多样性的帖子组成一定长度的摘要.
本文的主要贡献点如下.
(1) 基于社会学理论, 我们首次形式化地定义了社交网络环境中的两种噪声关系 (即虚假关系与潜在关系), 并
通过实验验证了两种噪声关系的存在. 这是对社会学理论的重要补充, 为理解和处理社交网络中的噪声关系提供
了新的方法.
(2) 提出了一种对噪声关系更加鲁棒的无监督社交媒体摘要模型 DSNSum. 能够缓解社交关系网络中噪声关