Page 164 - 《软件学报》2021年第9期
P. 164
2788 Journal of Software 软件学报 Vol.32, No.9, September 2021
接下来,本文使用文献[31]提出的层归一化来计算隐藏层中神经元的求和输入的均差和方差,目的是稳定
LSTM 网络中隐藏动态,防止模型过拟合.在层归一化中,本文对每个 BiLSTM 隐藏层 h t 的每一个神经元赋予它
们自己的自适应偏差和增益.层中的所有隐藏单元共享同样的归一化项μ和σ,形式如下:
⎡ g ⎤
h′ = t f ⎢ (h − t μ + t ) b ⎥ (7)
⎣ σ t ⎦
H
1
μ = ∑ h (8)
t
H i= 1 i t
H
σ = t 1 ∑ (h − μ t ) 2 (9)
H i= 1 i t
其中,H 为隐藏单元数量, 为两个向量之间的元素乘法,g 和 b 定义为与 h′ 相同维度的偏差和增益参数.则
t
BiLSTM 所有隐藏层状态的输出为公式(10),其中,V LN 维度为 n×H:
V (, ,..., )h h′ = ′ h′ (10)
LN 1 2 n
2.3 自注意力机制
注意力机制最早是在图像处理领域提出来的,目的是为了在模型训练时,重点关注某些特征信息.常规的注
意力机制做法是利用 LSTM 最后一个隐藏层的状态,或者是利用 LSTM 前一刻输出的隐层状态与当前输入的
隐藏状态进行对齐.采用直接对当前输入自适应加权的自注意力,更合适用于情感分析任务中.
如表 1 所示,本文以词性特征为例对句子级 MR数据集样例进行了分析.在样例中的情感词(如 impressively)
能够体现出句子的情感倾向.为了加强这些情感词在分类时的作用,本文使用自注意力机制来学习一个句子的
内部结构,重点加强句子中带有情感的特征信息.
Table 1 Analysis of key words in MR data samples
表 1 MR 数据样本关键词分析
MR 数据样本 关键词
An ambitious, serious film that manages to do virtually everything wrong; ambitious,serious,virtually,
Sitting through it is something akin to an act of cinematic penance. wrong,penance
Because of an unnecessary and clumsy last scene, unnecessary,clumsy,
‘swimfan’ left me with a very bad feeling. very,bad
The emotion is impressively true for being so hot-blooded, impressively,true,
and both leads are up to the task. hot-blooded
The screenplay sabotages the movie’s strengths at almost every juncture. sabotages,almost,stereotypes,
All the characters are stereotypes, and their interaction is numbingly predictable. numbingly,predictable
图 3 是 R wt 通道的自注意力,其中,R wp 通道的 V LN2 和 R wpa 通道的 V LN3 作为额外辅助权值参与了 R wt 通道的
自注意力权重矩阵 w att1 的计算:
⎧ P VLN = V LN 1
⎪ I ⎨ tpp = Tag m (11)
⎪ = ⊕
⎩ L nor ( L V LN 2 V LN 3 )
a wt1 =P VLN ⊕I tpp ⊕L nor (12)
w att1 =softmax(L 3 (tanh(L 2 (tanh(L 1 a wt1 )))) (13)
在上述公式中,P VLN ,I tpp 和 L nor 为分别为自辅助矩阵、初始注意矩阵和额外辅助矩阵.L,L 1 ,L 2 和 L 3 分别是维
度大小为 H,3×H+m+1,H+m 和 m 的权重,使用 softmax 进行归一化操作.然后,用自注意力权重 w att1 对 BiLSTM
的隐藏状态 V LN1 进行加权,即加权后的注意力特征向量 O ve1 :
O ve1 =w att1 ⊗V LN1 (14)
与计算 R wt 通道的注意力特征向量一样,得到 R wp 和 R wpa 通道的注意力特征向量为 O ve2 和 O ve3 .情感分析本
质上是一个分类问题,所以在模型的最后,将 3 个通道的注意力特征向量进行融合得到 S att ,再利用 softmax 函数
对其进行分类.如下: