Page 233 - 《软件学报》2025年第5期
P. 233
贺瑞芳 等: 基于去噪图自编码器的无监督社交媒体文本摘要 2133
系的影响, 并学习可靠的社会化帖子表示, 从而改进摘要的覆盖性、重要性与多样性.
(3) 设计了去噪图自编码器模块, 能够利用噪声函数自动构造训练数据, 从而能够在缺乏标注数据的情况下学
习去除网络中的噪声关系, 缓减对标注数据的依赖, 大大扩展了模型的应用场景.
(4) 在两个真实世界的社交媒体数据上进行了实验验证. 定量地分析了真实社交网络中去噪前与去噪后噪声
关系的分布情况, 验证了去噪模块的有效性.
2 相关工作
2.1 社交媒体文本摘要
不同于传统文本摘要, 由于社交媒体上的文本具有长度短、噪声大、表达非正式化等特点, 并且缺乏相应的
标准参考摘要. 其标准参考摘要的构建需要人工进行标注, 成本高昂, 目前尚未提出较为有效的自动化构造训练数
据的方法, 导致社交媒体摘要领域的相关实验数据较为稀少. 之前的研究提出了面向社交媒体领域的短文本摘要
数据集 [31] 及相关方法 [32–35] , 但其任务目标与本文所要解决的任务并不相同, 他们尝试为给定的一条帖子生成更加
简短的摘要版本. 这种任务与前文所述单文档摘要任务比较类似, 实际上是对单个较长的帖子进行摘要, 生成一个
较短的版本. 常用方法也与前文所述传统单文档摘要方法类似, 将摘要问题转化为句子分类或者序列标注任务, 利
用已有的标注数据, 即帖子-摘要对, 训练一个基于神经网络的摘要模型. 本文的任务与这些工作的不同之处在于,
针对一个话题相关的帖子集合进行摘要, 而不是为单个帖子生成摘要. 不同于传统文档, 社交媒体上具有更加丰富
的数据形式. 从利用数据方面来说, 现有的社交媒体短文本摘要方法主要经历了 3 个阶段: 基于内容特征的摘要方
法, 考虑简单社交信号的方法以及融合社会关系的方法.
2.1.1 基于内容特征的社交媒体摘要
对于文本摘要任务来说, 最直观的方式就是基于文本内容特征来进行摘要的抽取. 该类方法需要首先从原始
文本中提取特征, 例如句子的长度、关键词、词频、短语等, 然后根据文本的特征来判断每个句子的重要程度, 从
而判断是否适合作为摘要. Chua 等人 [36] 尝试利用话题模型与帖子的时序信息, 从面向特定事件的推特帖子集合中
提取最具代表性的帖子来产生用户感兴趣的摘要. Ganesan 等人 [37] 将摘要生成任务建模为一种优化问题, 使用一
种基于修改的互信息函数来衡量句子的信息度, 使用 n 元语言模型来衡量句子的可读性, 并提出了一些启发式算
法来求解优化问题. Inouye 等人 [38] 提出利用混合 TF-IDF (term frequency inverse document frequency) 权重来衡量
句子的重要性, 并选取重要性最高的若干句子作为摘要. Sharifi 等人 [39] 则提出一种短语强化算法来寻找包含话题
短语的出现频率最高的短语, 并根据该短语选择句子来生成最终的摘要. 另外, 在社交媒体领域, 也可以采用基于
图排序的方法进行摘要, 通过将每个帖子看作一个节点, 根据帖子之间内容的相似度来构建节点之间的边, 构成一
个图结构, 然后利用图排序算法 (如 PageRank) 来对图中的节点进行重要性排序, 最终选择重要性较高同时冗余度
较低的节点作为摘要 [40,41] . Keswani 等人 [42] 最近提出对社交媒体上的内容进行摘要时, 应充分考虑来自不同方面
用户的声音, 提出从方言的角度提升摘要的多样性, 在包含不同种族和性别的社会群体使用方言撰写的帖子数据
上进行实验, 相比于传统的摘要方法取得了更好的多样性. Zogan 等人 [20] 则进一步将社交媒体摘要技术应用到社
交网络中用户抑郁症检测任务, 通过对社交媒体上用户发布的历史帖子内容进行摘要, 抽取出其中的主要内容, 据
其进行抑郁症的检测, 也体现了社交媒体摘要技术的广泛应用场景. 然而这些方法仅考虑了帖子的文本内容信息,
而社交网络中的帖子文本内容经常存在长度较短、噪声大、表达非正式的特点, 导致对文本内容的利用更加困难.
2.1.2 考虑简单社交信号的社交媒体摘要
进一步的研究发现, 社交媒体平台提供的许多具有社交意义的属性对于识别帖子的流行度以及重要性也具有
指导作用. 由于社交媒体的交互性, 平台通常会提供一些社交信号, 如帖子的点赞数、转发数、评论数等. 之前的
很多研究已经证明了帖子的转发对于识别用户的影响力 [43] , 识别帖子的信息量 [26] 以及分析网络结构 [25] 具有促进
作用. Alsaedi 等人 [44] 在计算帖子的重要性过程中, 不仅考虑帖子的文本内容, 同时还考虑了帖子的转发数量, 并认
为转发数量的多少反映了帖子本身的流行程度. Liu 等人 [45] 也提出, 社交媒体中单条帖子消息往往难以提供足够