Page 231 - 《软件学报》2025年第5期
P. 231
贺瑞芳 等: 基于去噪图自编码器的无监督社交媒体文本摘要 2131
Key words: social media text summarization; graph representation learning; graph neural network (GNN); denoising auto-encoder (DAE)
1 引 言
社交媒体文本自动摘要 (简称社交媒体摘要) 旨在针对特定话题的大规模社交媒体短文本 (称为帖子) 产生一
段简明扼要的摘要描述. 该技术能够有效缓解社交媒体上的信息过载问题, 以帮助用户快速获取有效信息. 已有的
摘要方法总体分为两种类型: 抽取式和生成式摘要. 前者主要从输入的原文中识别并抽取重要的、有代表性的语
义单元形成摘要, 其间不涉及文本的生成与改写; 后者则是根据输入文档, 由生成模型根据词表生成摘要描述, 该
类方法需要模型改写或重新组织原文内容来形成最终的摘要.
近年来, 随着如带有注意力机制的序列到序列模型 (Seq2Seq) 、Transformer [2–4] 、对比学习 [5–7] 以及大规模预
[1]
训练模型 [8–15] 的出现, 这两种类型的摘要方法在传统长文档领域都取得了长足的发展. 然而, 目前这些方法多数需
要大规模的标注数据 (如文档-摘要对) 对模型进行训练, 而这些训练数据在除新闻领域外的其他领域通常难以构
建 [16] . 在社交媒体领域, 训练语料的构建更加困难 [17] , 原因在于标注者通常需要阅读关于特定话题的所有帖子, 然
后撰写对应的参考摘要, 而帖子的数量通常过于庞大, 阅读所有的帖子会耗费大量的时间成本. 其次, 由于社交媒
体上帖子的话题敏感性以及高度的实时性, 对某一个特定话题帖子集合的标注无法泛化到其他话题上, 因此需要
对各个不同话题的帖子独立地进行标注任务, 大大提高了数据标注的难度.
由于社交媒体上的文本与传统长文档具有许多不同的特点, 如文本内容较短、表达不规范与多样化、存在大
量噪声等, 因此, 尽管摘要技术在传统长文档上取得了较大的进展, 相关的摘要方法在迁移到社交媒体领域时, 经
常难以取得满意的效果, 这些挑战严重阻碍了社交媒体领域摘要技术的发展.
已有的社交媒体摘要研究大多将每个帖子看作独立的整体, 并根据每个帖子的文本内容独立地提取特征, 并
基于帖子的特征采用基于图排序或者聚类的算法来选择重要性较高的帖子形成摘要 [18–22] . 然而, (1) 社交媒体上的
帖子通常内容较短并且表达不规范, 充满了不正式的表达方式, 例如缩写、省略、同义词、拼写错误以及语法错
误等. 如果将每个帖子单独对待, 一个单独的帖子经常包含不完整的信息, 无法提供足够充分的信息来计算其重要
性. (2) 社交媒体依靠用户之间的社会交互来完成信息的传播, 用户之间频繁的交互有助于促进社交网络上的信息
的传播 [23] . 因此, 社交媒体上的帖子是嵌入在社交网络中的, 并且大量帖子之间具有潜在的交互关系, 而非互相独
立的. 之前的方法对帖子的独立假设导致其忽视了帖子之间的关系信息, 仅考虑帖子的文本内容特征, 导致帖子特
征的稀疏性.
一些研究证明了社交媒体上特定的社交信号对于社交媒体上内容的分析具有促进作用 [24–26] . 因此, 进一步的
研究尝试通过引入额外的社交信号 (例如帖子的点赞数、转发数、回复数以及用户的粉丝数等) 来解决单个帖子
信息不足的问题. 进一步, He 等人 [27] 从社会学理论 [28,29] 的角度验证了社交关系对帖子之间内容相关性的影响. 不
同于传统文档, 社交网络上的用户通过发布帖子来传播他们的观点, 因此, 社交媒体上的帖子具有天然的交互性,
这也导致了用户之间的交互关系会影响其帖子内容的形成. 他们在真实的社交媒体数据上进行实验, 提出并验证
了社交一致性与社交传染性理论, 即具有交互关系的用户在短时间内通常具有更加相似的特征和观点. 并将用户
间的社会关系泛化到帖子级别, 构建帖子之间的交互关系网络, 以这种社会学理论指导提升了社交媒体摘要内容
选择的性能.
上述借鉴社会学理论的方法为社交媒体文本摘要的发展提供了新的思路和方向, 但是该方法目前仍存在局限
性: (1) 真实的社交网络中, 用户之间的交互关系更为复杂. 一个用户通常会与多个用户存在交互关系, 并且不同的
交互关系类别具有不同特点. 如图 1 所示, 用户 2 与用户 3 具有交互关系, 关注的内容都是刷新率, 因此发布的内
容具有较高的相似性; 同样的, 用户 4 与用户 5 则更加关注摄像头, 其发布的内容也具有较高的相似度; 而用户 1
与用户 4 和用户 2 虽然具有交互关系, 但是这种交互关系更倾向于上下文的关系, 即用户 1 发布的内容是用户 2
与用户 4 的上文, 只有结合用户 1 发布的内容看, 才能了解用户 2 与用户 4 内容的含义. 因此在这种情况下, 用户 1
的内容对于理解用户 2 和用户 4 内容的含义是具有补充作用的. (2) 现实世界中的社交网络往往存在大量的噪声