Page 236 - 《软件学报》2025年第5期
P. 236

2136                                                       软件学报  2025  年第  36  卷第  5  期


                                                                      重构损失               重构损失

                                                                             (4) 双重构解码器
                                      噪声关系
                                                                 真实社交关系网络重构             文本内容重构
                                   关系丢失
                                   关系插入

                  帖子级别社交网络       (2) 伪社交关系网络构建
                                                             采样
                        帖子集合                                                          (5) 基于稀疏重构的摘要抽取器
                     德国队将赢得比赛的                      ...
                         胜利…
                     在 2014 世界杯半决赛                                          GAT 编码器
                          中…               BERT 编码器
                           ...
                     德国 7-1 击败东道主巴                  ...     伪社交关系网络                   在 2014 世界杯半决赛中,
                          西, ...                            前馈网络 & 激活   (3) 残差 GAT 编码器  德国队 7-1 击败东道主巴
                                          (1) 文本内容编码器                                   西队, 挺进半决赛…
                                                                                           输出摘要
                                                图 2 DSNSum  模型整体架构图

                 4.1   社交关系网络构建
                    由于帖子经常存在内容短小、噪声大等特点, 仅依靠文本内容难以获取足够的信息量. 在社交媒体环境下,
                 社会学理论和社交网络的拓扑特征已经被证明对许多下游任务有促进作用                          [53] . 例如, 相关研究  [25,63] 验证了社交一
                 致性理论在社交媒体数据中的存在, 该理论指出, 同一个用户在短时间内针对特定的话题通常保持一致的观点或
                 看法. 社交传染性理论指出, 许多社会行为以及情感               [64] 等会沿着社交网络进行传播. 受这些社会学理论的启发, 本
                 文提出一种简单的建模帖子间社会关系的方法, 并同时考虑了社交一致性与社交传染性两种社会学理论. 形式化
                                             (   )
                                                                              ˆ
                                          ˆ   ˆ ˆ                   ˆ        E , 每个节点表示一个帖子, 每条边
                 地, 构建帖子级别社交关系网络          G = V,E  , 其中包含了节点集合      V 与边集合
                                                                              uu          u i  的邻居集合, 令
                 表示帖子之间的社交关系, 构建方法如下: 对于一个用户                   u i  , 令  N (u i ) = {u k |E = 1}  表示用户
                                                                              ik
                       {      }
                          us             u i  发布的帖子集合. 基于上述定义, 按照如下两个准则构建帖子级别的社交关系
                 P(u i ) = s k |E = 1  表示由用户
                          ik
                 网络.
                    社交一致性: 如果帖子       s i ∈ P(u k ) , 且   s j ∈ P(u k ) , 则为帖子节点   s i  与  s j  之间构建一条边. 也就是说, 由同一个用
                 户发布的帖子之间建立一条边. 该关系反映了社交一致性关系                    [29,30] .
                                               ( )          ( )
                    社交传染性: 如果      s i ∈ P(u i ), s j ∈ P u j  , 并且  u i ∈ N u j  或  u j ∈ N (u i ) , 则为帖子节点   s i  与  s j  之间建立一条边.
                 也就是说, 允许由具有朋友关系的用户发布的帖子之间进行交互. 该类关系反映了社交传染性关系                               [25,63] .
                    根据上述规则, 可以构建出帖子级别社交关系网络, 其拓扑结构可以用邻接矩阵                         A ∈ R N×N  来表示, 该网络只包
                 含帖子节点和他们之间的社交关系. 帖子之间的关系允许帖子之间进行信息传播, 从而能够捕捉帖子的社交上下
                 文信息, 缓解单个帖子信息不足的问题.

                 4.2   噪声观察
                    之前的研究工作验证了社交理论在社交媒体上的存在, 并将其总结为表达一致性                           [28] 与表达传染性  [29,65] . 他们
                 假设具有社交关系相连的帖子更加倾向于具有相似的内容和观点. 然而, 真实世界中的社交网络经常包含不可靠
                 的社交关系, 本文将这些不符合社会学理论假设的关系称为噪声关系. 根据对真实数据的分析与观察, 我们将噪声
                 关系分为两类.
                    ● 虚假关系: 两个用户之间具有社交关系相连, 但是他们发布帖子的内容具有较低的相关性.
                    ● 潜在关系: 两个用户之间没有社交关系, 但是他们发布帖子的内容具有较高的相关性.
                    由于这种用户之间真实关系的标准数据难以获得, 准确地衡量这两种噪声关系在社交网络中的数量是比较困
   231   232   233   234   235   236   237   238   239   240   241