Page 165 - 《软件学报》2021年第9期
P. 165
李卫疆 等:基于多通道特征和自注意力的情感分类方法 2789
S att =[O ve1 ,O ve2 ,O ve3 ] (15)
p=softmax(w c S att +b c ) (16)
其中,w c 为权重矩阵,b c 为偏置.在模型训练的过程中,本文使用交叉熵作为损失函数,且在模型参数上面使用权
重衰减来对参数进行正则化.损失函数表示如下:
D C
k
loss =−∑∑ y i k log p + λ || ||θ 2 (17)
i
i= 1 k = 1
2
其中,D 为训练数据集大小,C 为数据的标签数,p 为预测的情感类别,y 为实际类别,λ||θ|| 为 L2 正则项,λ为 L2 正
则化超参数,θ为模型中的参数集.本文中使用时序反向传播算法(back propagation)来对网络参数进行更新.
...
O ve1
P VLN I tpp L nor L 1 w att1
h 1 W 1 W 1 W l1
tanh Softmax
h 2 W 2 W 2 a wt1 W l2 ...
... ... ... ... ...
h n W n W n W ln
V LN2 V LN3
w att1
h 1 h 1 h l1
softmax h 2 h 2 h l2
... ... ...
L nor
h n h n h ln
a wt1
L
Fig.3 Self-Attention structure of R wt
图 3 R wt 通道的自注意力结构
2.4 MFSA-BiLSTM-D模型
在情感分类任务中,句子级文本的平均长度不超过 100(SL<100),见后文表 2.文本中的每个词可能具有一定
的特征意义,会对分类结果产生影响.本文提出的 MFSA-BiLSTM 模型,充分学习了每个词语在句子中的语言特
征信息,并且重点关注加强这些特征信息.因此,MFSA-BiLSTM 模型在句子级文本分类任务上效果显著(见后文
表 4).然而,在平均长度超过 100(SL≥100)的文档级文本中,每个文本存在着多个句子,每个句子可能具有不同的
情感倾向.所以,影响整个文档的分类效果是每个句子,而不是每个词语.
针对这一问题,Le 等人 [32] 提出了从句子和文档中学习分布式特征表示的无监督算法;Tang 等人 [33] 提出了
将文档中每个用户和产品的文本偏好矩阵和表示向量引入 CNN 情感分类;Xu 等人 [34] 提出了一种缓存 LSTM
模型,用来捕获长文本中的整体语义信息;Chen 等人 [35] 在 LSTN 上使用了单词和句子级别的平均池层.
在本文中,若直接用 MFSA-BiLSTM 模型对文档级文本分类,会因为无法准确地获取文档中情感特征而导
致分类效果不好(见后文表 5).因此,本文在 MFSA-BiLSTM 模型基础上,针对文档级文本分类任务提出了
MFSA-BiLSTM-D 模型(见图 4).与文献[32,35]一样,MFSA-BiLSTM-D 方法也是先训练得到句子表示,再得到文
档表示.如图 4(左)所示,模型将文档 Doc.划分成为句子序列[S 1 ,S 2 ,…,S m ],其中,m 为句子个数;再将句子 S i
(1≤i≤m)划分为一系列单词{x i1 ,x i2 ,…,x in },其中,n 表示为 S i 的长度.根据第 2.1 节对词进行特征向量化,形成 3
个通道;然后使用 MFSA-BiLSTM 模型学习文档中每个句子的词语情感,得到文档中每个句子表达向量 S attj
(1≤j≤m);接着,将 Doc.中的所有句子表达 D S =[S att1 ,S att2 ,…,S attm ],送入如图 4(右)所示的模型进行训练.经过层归
一化之后,计算句子自注意力权重矩阵 w satt :
s wt =V SLN ⊕D S (18)
w satt =softmax(L 2 tanh(L 1 S wt )) (19)
其中,V SLN 为 BiLSTM 的隐藏输出;L 1 和 L 2 分别是维度大小为 H S +m 和 m 的权重,H S 为隐藏单元个数.最后得到