Page 246 - 《软件学报》2025年第5期
P. 246
2146 软件学报 2025 年第 36 卷第 5 期
之间都会建立连接, 形成一个全连接网络. 然而, 相比丢失所有边来说, 连接所有节点能够取得相对较高的结果, 这
是因为图注意力网络能够学习不同关系的重要性权重, 从而根据边的权重来识别虚假关系. 理想情况下, 模型会为
虚假关系赋予较小的权重, 为真实的社交关系赋予较大的权重, 从而在一定程度上缓解噪声关系带来的偏差.
1.0 1.0
0.480
0.475
0.8 0.8
0.474 0.470
0.6 0.6
0.468 0.465
0.4 0.4
0.462 0.460
0.2 0.2
0.456 0.455
0 0
0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0
(a) Insert-then-Drop (b) Drop-then-Insert
图 5 噪声函数中两种噪声关系概率与优先级对模型 ROUGE-1 结果的影响
7 结 论
7.1 总 结
本文针对社交媒体情景中的挑战, 如帖子内容短小, 非正式表达, 以及社交网络中广泛存在的噪声关系等, 提
出了一种无监督社交媒体文本摘要模型 DSNSum, 其由去噪图自编码器 (DGAE) 和基于稀疏重构的摘要抽取器
(SRE) 组成. DGAE 通过学习和移除社交网络中的噪声关系 (包括虚假关系和潜在关系) 来提高模型的鲁棒性. 采
用社会学理论启发的噪声函数来合成训练数据, 使模型能够在缺乏标准标注数据的情况下有效识别网络中的噪声
关系, 以得到更加可靠的帖子表示. 此外, DSNSum 能够通过学习帖子之间的社交关系和文本内容信息, 从而改善
摘要的重要性、覆盖性和新颖性. 在两个真实社交媒体数据集上的实验结果证明了模型的有效性, 并通过定量和
定性分析展示了去噪过程在减少社交网络中噪声关系, 特别是虚假关系方面的成效.
7.2 未来展望
对于社交媒体短文本摘要工作, 在本文模型的基础上还有很多值得探索的方向: (1) 本文所提出的评估社交关
系网络中噪声关系阈值方法较为简单, 只能作为粗略估算的一种方式, 而难以覆盖到真实社交媒体中的复杂情况.
如何更加准确地自动识别社交网络中的噪声关系还需要进一步的探索. (2) 对于噪声函数的设计, 假设的噪声关系
分布与社交关系网络中真实的噪声关系的分布可能存在差异. 在人工增加的噪声关系分布与真实噪声关系分布差
距较大的情况下, 模型可能无法准确地识别出网络中的真实噪声关系. 因此, 探索多重不同的噪声分布设计方案,
从而更加逼近真实噪声分布的噪声函数能够有效改进去噪模型的性能. (3) 在对模型的训练过程中, 本文假设原始
的社交关系网络不包含噪声关系, 并训练模型根据伪社交关系网络去重构原始社交关系网络, 从而使模型能够以
无监督的方式进行学习. 然而真实情况中, 原始的社交关系网络中仍然存在噪声关系, 因此将其作为重构目标并不
是最优方案. 如何在缺乏标准标注数据的情况下设计出更加精准的训练目标, 将是一个有效的改进方向.
References:
[1] Gu JT, Lu ZD, Li H, Li VOK. Incorporating copying mechanism in sequence-to-sequence learning. In: Proc. of the 54th Annual Meeting
of the Association for Computational Linguistics (Vol. 1: Long Papers). Berlin: Association for Computational Linguistics, 2016.
1631–1640. [doi: 10.18653/v1/P16-1154]
[2] Aralikatte R, Narayan S, Maynez J, Rothe S, McDonald R. Focus attention: Promoting faithfulness and diversity in summarization. In:
Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int’l Joint Conf. on Natural Language
Processing (Vol. 1: Long Papers). Online: Association for Computational Linguistics, 2021. 6078–6095. [doi: 10.18653/v1/2021.acl-long.