Page 164 - 《软件学报》2021年第9期
P. 164

2788                                 Journal of Software  软件学报 Vol.32, No.9,  September 2021

             接下来,本文使用文献[31]提出的层归一化来计算隐藏层中神经元的求和输入的均差和方差,目的是稳定
         LSTM 网络中隐藏动态,防止模型过拟合.在层归一化中,本文对每个 BiLSTM 隐藏层 h t 的每一个神经元赋予它
         们自己的自适应偏差和增益.层中的所有隐藏单元共享同样的归一化项μ和σ,形式如下:
                                               ⎡  g         ⎤
                                          h′ =  t  f  ⎢  (h −  t  μ +    t ) b ⎥              (7)
                                               ⎣ σ t        ⎦
                                                     H
                                                   1
                                               μ = ∑   h                                      (8)
                                                t
                                                   H  i= 1  i t
                                                   H
                                            σ =  t  1  ∑ (h −  μ t ) 2                        (9)
                                                 H  i= 1  i t
         其中,H 为隐藏单元数量, 为两个向量之间的元素乘法,g 和 b 定义为与 h′ 相同维度的偏差和增益参数.则
                                                                      t
         BiLSTM 所有隐藏层状态的输出为公式(10),其中,V LN 维度为 n×H:
                                             V    (, ,..., )h h′ =  ′  h′                    (10)
                                              LN   1  2  n
         2.3   自注意力机制
             注意力机制最早是在图像处理领域提出来的,目的是为了在模型训练时,重点关注某些特征信息.常规的注
         意力机制做法是利用 LSTM 最后一个隐藏层的状态,或者是利用 LSTM 前一刻输出的隐层状态与当前输入的
         隐藏状态进行对齐.采用直接对当前输入自适应加权的自注意力,更合适用于情感分析任务中.
             如表 1 所示,本文以词性特征为例对句子级 MR数据集样例进行了分析.在样例中的情感词(如 impressively)
         能够体现出句子的情感倾向.为了加强这些情感词在分类时的作用,本文使用自注意力机制来学习一个句子的
         内部结构,重点加强句子中带有情感的特征信息.
                                 Table 1    Analysis of key words in MR data samples
                                        表 1   MR 数据样本关键词分析
                                      MR 数据样本                                 关键词
                   An ambitious, serious film that manages to do virtually everything wrong;   ambitious,serious,virtually,
                      Sitting through it is something akin to an act of cinematic penance.   wrong,penance
                           Because of an unnecessary and clumsy last scene,   unnecessary,clumsy,
                             ‘swimfan’ left me with a very bad feeling.       very,bad
                        The emotion is impressively true for being so hot-blooded,   impressively,true,
                                and both leads are up to the task.           hot-blooded
                    The screenplay sabotages the movie’s strengths at almost every juncture.   sabotages,almost,stereotypes,
                 All the characters are stereotypes, and their interaction is numbingly predictable.  numbingly,predictable
             图 3 是 R wt 通道的自注意力,其中,R wp 通道的 V LN2 和 R wpa 通道的 V LN3 作为额外辅助权值参与了 R wt 通道的
         自注意力权重矩阵 w att1 的计算:
                                            ⎧ P VLN  =  V LN 1
                                            ⎪ I ⎨  tpp  = Tag m                              (11)
                                            ⎪   =     ⊕
                                            ⎩ L nor  ( L V LN 2  V LN 3 )
                                            a wt1 =P VLN ⊕I tpp ⊕L nor                       (12)
                                     w att1 =softmax(L 3 (tanh(L 2 (tanh(L 1 a wt1 ))))      (13)
             在上述公式中,P VLN ,I tpp 和 L nor 为分别为自辅助矩阵、初始注意矩阵和额外辅助矩阵.L,L 1 ,L 2 和 L 3 分别是维
         度大小为 H,3×H+m+1,H+m 和 m 的权重,使用 softmax 进行归一化操作.然后,用自注意力权重 w att1 对 BiLSTM
         的隐藏状态 V LN1 进行加权,即加权后的注意力特征向量 O ve1 :
                                              O ve1 =w att1 ⊗V LN1                           (14)
             与计算 R wt 通道的注意力特征向量一样,得到 R wp 和 R wpa 通道的注意力特征向量为 O ve2 和 O ve3 .情感分析本
         质上是一个分类问题,所以在模型的最后,将 3 个通道的注意力特征向量进行融合得到 S att ,再利用 softmax 函数
         对其进行分类.如下:
   159   160   161   162   163   164   165   166   167   168   169