Page 165 - 《软件学报》2021年第9期
P. 165

李卫疆  等:基于多通道特征和自注意力的情感分类方法                                                       2789


                                            S att =[O ve1 ,O ve2 ,O ve3 ]                    (15)
                                            p=softmax(w c S att +b c )                       (16)
         其中,w c 为权重矩阵,b c 为偏置.在模型训练的过程中,本文使用交叉熵作为损失函数,且在模型参数上面使用权
         重衰减来对参数进行正则化.损失函数表示如下:
                                              D  C
                                                        k
                                        loss =−∑∑ y i k  log p +  λ || ||θ  2                (17)
                                                        i
                                              i=  1 k =  1
                                                                             2
         其中,D 为训练数据集大小,C 为数据的标签数,p 为预测的情感类别,y 为实际类别,λ||θ|| 为 L2 正则项,λ为 L2 正
         则化超参数,θ为模型中的参数集.本文中使用时序反向传播算法(back propagation)来对网络参数进行更新.
                                                                 ...
                                                        O ve1

                                                 P VLN  I tpp  L nor  L 1   w att1
                                                 h 1  W 1   W 1  W l1
                                                                    tanh Softmax
                                                 h 2  W 2   W 2  a wt1 W l2  ...
                                                 ...   ...  ...  ...          ...
                                                 h n  W n   W n  W ln
                                                 V LN2  V LN3
                                   w att1
                                                  h 1  h 1  h l1
                            softmax              h 2   h 2  h l2
                                                 ...   ...  ...
                                       L nor
                                                 h n  h n   h ln
                           a wt1
                                                            L
                                       Fig.3  Self-Attention structure of R wt
                                         图 3   R wt 通道的自注意力结构
         2.4   MFSA-BiLSTM-D模型
             在情感分类任务中,句子级文本的平均长度不超过 100(SL<100),见后文表 2.文本中的每个词可能具有一定
         的特征意义,会对分类结果产生影响.本文提出的 MFSA-BiLSTM 模型,充分学习了每个词语在句子中的语言特
         征信息,并且重点关注加强这些特征信息.因此,MFSA-BiLSTM 模型在句子级文本分类任务上效果显著(见后文
         表 4).然而,在平均长度超过 100(SL≥100)的文档级文本中,每个文本存在着多个句子,每个句子可能具有不同的
         情感倾向.所以,影响整个文档的分类效果是每个句子,而不是每个词语.
             针对这一问题,Le 等人      [32] 提出了从句子和文档中学习分布式特征表示的无监督算法;Tang 等人                    [33] 提出了
         将文档中每个用户和产品的文本偏好矩阵和表示向量引入 CNN 情感分类;Xu 等人                           [34] 提出了一种缓存 LSTM
         模型,用来捕获长文本中的整体语义信息;Chen 等人               [35] 在 LSTN 上使用了单词和句子级别的平均池层.
             在本文中,若直接用 MFSA-BiLSTM 模型对文档级文本分类,会因为无法准确地获取文档中情感特征而导
         致分类效果不好(见后文表 5).因此,本文在 MFSA-BiLSTM 模型基础上,针对文档级文本分类任务提出了
         MFSA-BiLSTM-D 模型(见图 4).与文献[32,35]一样,MFSA-BiLSTM-D 方法也是先训练得到句子表示,再得到文
         档表示.如图 4(左)所示,模型将文档 Doc.划分成为句子序列[S 1 ,S 2 ,…,S m ],其中,m 为句子个数;再将句子 S i
         (1≤i≤m)划分为一系列单词{x i1 ,x i2 ,…,x in },其中,n 表示为 S i 的长度.根据第 2.1 节对词进行特征向量化,形成 3
         个通道;然后使用 MFSA-BiLSTM 模型学习文档中每个句子的词语情感,得到文档中每个句子表达向量 S attj
         (1≤j≤m);接着,将 Doc.中的所有句子表达 D S =[S att1 ,S att2 ,…,S attm ],送入如图 4(右)所示的模型进行训练.经过层归
         一化之后,计算句子自注意力权重矩阵 w satt :
                                               s wt =V SLN ⊕D S                              (18)
                                         w satt =softmax(L 2 tanh(L 1 S wt ))                (19)
         其中,V SLN 为 BiLSTM 的隐藏输出;L 1 和 L 2 分别是维度大小为 H S +m 和 m 的权重,H S 为隐藏单元个数.最后得到
   160   161   162   163   164   165   166   167   168   169   170