Page 234 - 《软件学报》2025年第5期
P. 234
2134 软件学报 2025 年第 36 卷第 5 期
的信息来计算它的重要性, 因此他们在衡量帖子的重要程度时, 同时考虑了帖子的转发数量以及帖子作者的粉丝
数量等社会关系相关的特征. 其中, 作者的粉丝数量从一定程度上能够反映作者的社会影响力, 粉丝数量越多, 该
作者发布的内容就能够传播给越多的人, 从而具有越大的社会影响力. 关于作者的社会影响力, Duan 等人 [46] 对
Twitter 内容进行摘要时, 同时考虑文本内容、作者的社会影响力以及文本的质量, 并根据这些指标对文本进行排
序来选择最终的摘要. Li 等人 [47] 提出, 社交媒体上的用户在转发帖子的同时, 可以附加个人的评论与观点, 这样不
仅能进一步传播原始帖子的信息, 同时也扩展了原始帖子的内容. 他们根据帖子之间的转发与回复关系将原始帖
子集合构成了树状结构, 并对整棵树进行摘要. 通过使用条件随机场来检测树中的重要节点 (leader) 与普通节点
(follower), 从而区分帖子之间的重要性. 除上述特征以外, 许多其他社交信号例如帖子中的链接和标签以及社交网
络中的社团关系等, 也被用来作为辅助特征来促进摘要过程. 例如 Dutta 等人 [48] 提出一种基于图的推特摘要方法,
他们将每条帖子看作一个节点, 并从多个角度衡量节点之间的相似度, 例如单词共现关系、链接 (URL)、标签
(Hashtag)、用户名以及余弦相似度等. 之后在相似度图上进行社团检测来挖掘图中的社团关系信息, 并识别每个
社团中的重要推文作为最终的摘要. 这些方法通过引入社交网络中的社交信号特征来学习更加丰富的帖子表示,
此类社交信号对于识别帖子的重要性与流行度具有一定作用, 但是简单的数值信号包含的信息量有限, 并且无法
为帖子表示学习提供充足的语义信息, 因此对于帖子表示质量的提升有限. 同时, 这些工作仍然将帖子看作相互独
立的个体, 忽略了帖子之间的交互关系, 导致丢失了更加深层次的社交关系特征.
2.1.3 融合动态社交关系的社交媒体摘要
已有的研究工作指出, 社交网络中节点的网络结构与节点自身的影响力具有紧密联系 [49] . 曹玖新等人通过对
社交媒体上信息转发与传播特征的研究, 指出社交网络中用户之间的历史交互频率可能会影响用户对于信息的传
播行为 [50] . 因此, 社交网络中的交互关系与网络结构对网络中内容信息的分析同样具有指导意义. 一些研究工作
考虑引入社交网络中的社会关系来促进社交媒体摘要. 例如, Chang 等人 [51] 提出, 由于社交媒体上每个帖子的内容
都非常短, 缺乏足够丰富的语义信息, 因此仅依靠帖子本身的内容经常难以准确地理解其含义. 同时, 社交媒体上
具有丰富的用户交互关系, 因此他们提出利用用户之间的交互关系来构建帖子的上下文语境, 并结合帖子所处的
上下文语境进行摘要, 从而强化对于帖子语义的理解. 然而他们仅从用户级别考虑了社交关系信号, 忽略了帖子级
别的社会联系, 并且他们将交互关系抽象为简单的特征. He 等人 [27] 则以社会学理论中的表达传染性与表达一致性
理论为依据, 构造帖子之间的一阶关系网络, 并将帖子之间的社会关系整合到稀疏重构的框架中, 利用社会关系为
帖子内容的重构增加额外的正则项, 从而过滤相关用户产生的冗余内容, 提高摘要的多样性. 之后, He 等人 [52] 又进
一步将帖子之间的社会关系扩展到了高阶的情况, 同时将一致性理论泛化到标签共现关系上, 从社会关系与标签
共现关系两种角度来过滤冗余信息, 提升摘要的多样性. 进一步他们又将图神经网络引入到对用户之间社交关系
的挖掘过程中, 从而改善社交媒体文本表示的质量以提高摘要性能 [53] . 这些研究试图以社会学理论为依据, 通过
挖掘节点之间的社会关系来促进节点的表示学习. 但是他们忽略了在真实的社交关系网络中, 经常存在并不可信
的噪声关系, 引入这些噪声关系会为节点内容的表示带来额外的偏差, 从而影响节点表示的质量. 本文则通过采用
去噪的思想来移除网络中噪声关系带来的影响.
2.2 图神经网络
近年来, 图卷积网络 (graph convolutional network, GCN) [53–56] 由于其出色的性能与较好的可解释性受到越来越
多的关注, 它将卷积操作从欧氏空间扩展到图结构的数据中, 从而能够有效捕捉网络的拓扑结构信息. 后续的许多
研究在 GCN 的基础上提出了变种方法 [30,57,58] , 并在众多的下游任务中得了较好的性能. GCN 同样被应用于文档
摘要任务. Doan 等人 [54] 构建句子关系图结构, 其中节点表示句子, 节点之间的边用于捕捉句子之间的关系, 并在图
上利用 GCN 学习句子节点的表示, 并用于后续的重要性评估. 然而, 他们主要应用于长文档领域, 其中由句子关系
形成的图结构与在社交媒体领域中的社交网络关系具有较大的区别. Liu 等人 [53] 在社交关系网络上使用 GCN 来
整合文本内容与社交关系特征到统一的表示中, 但是他们没有区分不同邻居之间的重要性, 限制了模型的表达能
力. 本文从社交关系的角度重新考虑社交媒体摘要任务, 利用带有注意力机制的图注意力网络来动态捕捉帖子的