Page 167 - 《软件学报》2025年第5期
P. 167

张文跃 等: 基于高斯混合多层自编码器的情感漂移检测模型                                                    2067


                 是不稳定的, 更容易受到偶然和不可追踪的因素的影响, 例如最近的经历、个人情绪等. 这种不稳定性导致单一用
                 户、单文档级别的情感不适合指导漂移检测分析. 相反, 由于随机影响因素被中和, 基于多文档进行漂移检测能够
                 揭示群体在特定时间段内潜在的相对稳定的态度.
                    本文根据情感数据的时间戳对其进行分割并建立如图                    1  所示的多层结构. 在这种结构中, 一组情感数据属于
                 一个时间段, 几个时间段组成一个窗口, 其中时序情感文档                 (表示为  s ) 根据它们所在时间段被分割成块         (表示为   z  ),
                                                                                                      ′
                 z 表示几个时间段的集合用于表示一段时间窗口内的历史数据.

                                                             z
                                    z 1 ′                z 2 ′                      z n ′

                           (1)    (1)      (1)  (2)    (2)      (2)      (n)   (n)       (n)
                           s 1   s 2        s L 1  s 1  s 2       s L 2    s 1    s 2       s L n
                                          图 1 依据时间将时序情感文档组织为层次结构

                    相应地, GHVAE    采用  3  级层次结构来对应序列情感文档的多层潜在参数. 图                2  展示了  GHVAE  模型的结构,
                 其中  3  层分别对应于不同粒度的信息. 所有输入的群体情感都保存于最底层, 所有时段的潜在分布位于中间层并
                    ′                                        W  , 这些历史情感的元分布位于顶层并用   表示. 从下到
                 用   z  表示,   n 个历史时段的情感保存于长度为      n 滑动窗口                                   z
                 上的  3  层分别命名为文档层、时段层和窗口层. 具体而言, 窗口中第                                    s (i)  s 1:L new  是新到
                                                                     i 个时间段的情感表示为
                                                                                          1:L i   , 而
                 达的文档的集合. 模型中的所有标注都列在表              1  中.

                                           z                                 z


                                 z 1 ′           z 2 ′  ···  z n ′  z 1 ′           z 2 ′  ···  z n ′


                            (1)  (1)    (1)  (2)  (2)    (2)  (1)  (1)    (1)  (2)  (2)    (2)
                            s 1  s 2  s L 1  s 1  s 2  s L 2  s 1  s 2  s L 1  s 1  s 2  s L 1
                                       (a) 模型编码过程                         (b) 模型解码过程
                                                   图 2 GHVAE   模型结构


                                                      表 1 本文标注

                        表示符号                                          含义
                                       s表示文本情感文档, 其上标表示该文档到达时段序号,            S  代表窗口内的文档集合,     S new  是新时
                        s、S 、S new
                                                                  段内的文档集合
                           L i                              表示序号为   i 的时段内的文档数量
                          ′
                          z 、  z                           分别表示对应时段和窗口的隐藏变量
                           W                         长度为  n 的窗口, 保存着一些时段组的文档 (对应于       z )
                          θ、  φ                             分别表示解码器和编码器的参数
                    (µ ,σ )、(M ϕ ,Σ ϕ ,π ϕ )  两组参数分别表示由编码器生成的隐藏分布和元分布参数, 它们分别来自于           i 号时段和窗口   W
                        ′
                     ′
                     ϕ i  ϕ i
                          ′
                      (µ ,σ )、(µ θ ,σ θ )  两组参数分别表示由解码器生成的隐藏分布和元分布参数, 它们分别来自于              i 号时段和窗口   W
                       ′
                       θ i  θ i
                                                                     ′
                          ε、  ε ′                          分别针对  z 和  z  使用的随机采样噪声
                          α、  λ                                 漂移检测的调整参数

                    新模型包含两个过程分别由两个对应组件实现, 即编码器                   (Encoder) 和解码器  (Decoder). 在编码过程中, 首先
                                                                                      ′  z ∼ z | S  如公式
                                                                                          ′
                                                                                             ′
                 由模型文档层接收一个时段的情感文档. 然后, 时段级的潜在分布信息被编码为表示向量                           z  , 且           (1)
                 和公式   (2) 所示. 潜在分布的所有参数都是根据它们对应的输入情感生成的. 选择高斯作为潜在分布是因为输入
                 数据的独立性假设符合中心极限定理.
   162   163   164   165   166   167   168   169   170   171   172