Page 235 - 《软件学报》2025年第5期
P. 235

贺瑞芳 等: 基于去噪图自编码器的无监督社交媒体文本摘要                                                    2135


                 社交上下文, 从而为帖子提供更丰富的背景信息, 缓解帖子信息不足的问题.

                 2.3   加噪与去噪
                    去噪自编码器      (denoising auto-encoder, DAE) 被广泛应用于众多无监督模型中, 用于解决众多下游任务如文
                 本生成   [59,60] , 句子压缩  [58] 以及观点摘要  [16] . DAE  先向数据中添加噪声并对带有噪声的数据进行编码, 然后再尝
                 试根据编码表示重构原始不带噪声的数据, 通过这种“加噪-去噪”的模式训练模型对噪声的鲁棒性. 这种学习模
                 式避免了对训练数据的依赖, 因此广泛用于训练数据不足的环境下. 同时, 这种训练模式也被应用于预训练模型                                 [8,9] .
                 例如, 掩码语言模型      [8] 也可以看作是一种“加噪-去噪”的训练模式, 其中的噪声函数即为随机屏蔽掉一些单词. 已
                 有的方法主要采取基于噪声的数据增强策略来构建或扩展训练数据. Amplayo 等人                        [16] 以一种启发式的方法向文
                 本中添加噪声并训练模型基于加噪后的数据产生摘要. 然而, 在社交媒体领域, 噪声不仅仅存在于文本内容中,
                 且同样存在于帖子之间的社交关系中. 因此, 如何移除噪声关系对社交媒体文本摘要具有重要意义. 一些研究致力
                 于通过识别网络中重要的节点和边并移除不重要的边来挖掘复杂网络的主要结构                             (称为  Network Backboning) [61,62] .
                 这些工作主要考虑网络的拓扑结构, 并没有考虑网络的属性信息. 本文提出以无监督的方式移除网络中噪声关
                 系的方法. 该方法能够融合可信社交关系特征与文本内容信息来学习鲁棒的帖子表示, 从而促进抽取式摘要.

                 3   问题定义

                    本文主要聚焦面向社交媒体的抽取式摘要任务, 即从特定话题的输入帖子集合中, 抽取出信息量大、冗余度
                 低、最具代表性的       L  个帖子形成摘要, 其中     L  决定了最终输出摘要的长度. 由于摘要任务本身可以看作是一个信
                 息压缩的过程, 在压缩过程中必然会有信息的损失, 因此该任务的根本目的就是在压缩文本长度的同时, 尽可能减
                 少信息的损失, 保留更多重要而多样化的信息. 对于本文所研究的抽取式社交媒体摘要任务的形式化定义如下.
                    给定关于特定话题的原始帖子集合             S = {s 1 , s 2 ,..., s N } , 其中帖子数量为  N; 用户集合记为  U = {u 1 ,u 2 ,...,u M } ,
                 用户数量为    M. 用户、帖子以及它们之间的关系共同构成了一个图结构                    G = {V,E} . 其中,   V = {V ∪V } 表示节
                                                                                             s
                                                                                                 u
                         s                 u                     uu  us                uu   M×M  表示用户-用
                 点集合,   V  表示帖子节点集合,      V  表示用户节点集合.      E = {E ∪E } 表示关系集合, 其中    E ∈ R
                                    E ∈ R M×N                                                      u j  在社
                                      us
                 户之间的社交关系集合,                 表示用户-帖子之间的发布关系集合. 更具体来说, 如果用户                 u i  与用户
                                                                     uu         uu               s j  是由用
                 交媒体上具有朋友关系, 那么用户节点            u i  与  u j  之间具有一条边, 即   E = 1 , 否则  E = 0 . 同时, 如果帖子
                                                                     ij         ij
                                                                              us
                                                                    us       E = 0 . 给定上述定义, 抽取式社交
                 户   u i  发布的, 那么用户节点  u i  与帖子节点   s j  之间具有边相连, 即   E = 1 , 否则
                                                                    ij        ij
                 媒体文本摘要任务的目标为: 从原始帖子集合               S 中抽取 L (L ≪ N) 个帖子组成摘要, 同时保留原始输入帖子集合
                 中尽可能全面的信息, 减小信息损失.

                 4   DSNSum  总体框架
                    本文提出的     DSNSum  模型整体结构如图       2  所示, 共包含  5  个部分: (1) 文本内容编码器; (2) 伪社交关系网络
                 构建; (3) 残差图注意力网络编码器; (4) 双重构解码器; (5) 基于稀疏重构的摘要抽取器. 其中                   (1)–(4) 共同构成去
                 噪图自编码器模块. 由于图中空间有限, 对输入输出文本进行了截断, 本文输出摘要的基本单元为帖子. 首先构
                 建帖子级别的社交关系网络, 并使用图注意力网络对社交关系网络中的帖子节点进行编码表示, 图注意力网络
                 能够收集网络中相邻节点的信息, 为当前节点提供社交上下文线索, 缓解单个帖子信息不足的问题, 同时还能够
                 为不同的邻居节点赋予不同的注意力权重, 从而在聚合上下文信息时更加关注相关信息, 忽略无关信息. 其次,
                 为了使模型对于网络中的噪声关系具有更强的鲁棒性, 我们设计了两种噪声函数以及去噪图自编码器结构. 其
                 中, 噪声函数通过向原始社交关系网络中添加噪声关系来创建伪社交关系网络, 去噪图自编码器则学习识别并
                 去除伪社交关系网络中的噪声, 这样以一种先加噪后去噪的模式进行训练, 一方面使得模型能够学习识别并移
                 除网络中噪声关系的能力, 另一方面又避免了对标注数据的依赖, 从而避免了昂贵的数据标注代价. 最终, 去噪
                 图自编码器学到融合社交上下文与可信交互关系的帖子表示, 并将其输入到基于稀疏重构的摘要抽取器中来抽
                 取最终的摘要.
   230   231   232   233   234   235   236   237   238   239   240