Page 161 - 《软件学报》2021年第9期
P. 161
李卫疆 等:基于多通道特征和自注意力的情感分类方法 2785
等,能够在很大程度上提高分类效果.因此,很多研究者尝试从语言知识和情感资源中设计出更好的特征来提高
情感分析的分类性能.Tang 等人 [12] 将生成具有情感特定词嵌入(SSWE)的特征拿来训练 SVM 的分类模型.
Huang 等人 [13] 将情感表情符号与微博用户性格情绪特征纳入到图模型 LDA 中实现微博主题与情感的同步推
导,并在 LDA 中加入了情感层与微博用户关系参数 [14] ,利用微博用户关系与微博主题来学习微博的情感极性.
Vo 等人 [15] 在情感词典中添加表情特征用来自动构建文本,对 Twitter 文本进行情感分析.另外,还有一些关于从
社交数据以及多种语言 [16] 中自动构建情感词典的研究.Teng 等人 [17] 提出了一种基于简单加权和上下文敏感词
典的方法,使用 RNN 来学习情感强度,强化和否定词汇情感,从而构成句子的情感价值.将方面信息、否定词、
短语情感强度、解析树及其组合应用到模型中以改进其性能.
但是众所周知,标准 RNN 会在其梯度下产生爆炸和消失状态.长短期记忆网络(LSTM) [6,7] 是一种以长短期
记忆单元为隐藏单元的 RNN 结构,能够有效地解决梯度消失和梯度爆炸问题.此外,LSTM 还考虑了词序列之间
的顺序依赖关系,可以捕捉远距离的依赖,也可以捕获近距离的依赖.Tai 等人 [18] 提出一种将记忆细胞和门引入
[9]
树形结构的神经网络模型 Tree-LSTM.Qian 等人 提出了语言规则化的 LSTM 模型(LR-Bi-LSTM),其中,情感词
汇、否定词和强度词都被认为是句级情感分析的一个模型.Zhang 等人 [19] 提出一种基于批评学习和规则优化的
卷积神经网络的情感分析,由基于特征的预测器、基于规则的预测器和批评学习网络这 3 个关键部分组成.其
中,对于负极性规则和句子结构规则,模型需要人工去整理一个额外的情感词典(否定词和转折词).
与文献[9,17]相同的是,本文提出的 MFSA-BiLSTM 模型同样是对情感词汇,否定词和强度词等语言知识进
行了建模.不同的是:MFSA-BiLSTM 模型对这些语言知识进行建模,形成不同的特征通道,让 BiLSTM 从不同的
[9]
角度去学习句子中的特征信息;并且不需要大量的人工来建立强度正则化器 和整理一个额外的情感词典(否
定词和转折词) [19] ,也不需要依赖解析树结构 [17] 以及昂贵的短语级注释的模型 [18] .
1.2 用于情感分类的注意力
目前,注意力机制已经成为一种选择重要信息以获取优异结果的有效方法.注意力机制最早是在计算机视
觉领域提出来的,目的是模仿人类的注意力机制,给图像不同的局部赋予不同的权重.
Bahdanau 等人 [20] 在机器翻译任务上使用了注意力机制,是第一个将注意力机制应用到了 NLP 领域.Ma 等
人 [21] 提出了一种基于隐藏状态的注意机制模型,该模型从上下文和方面交互式地学习注意力.Wang 等人 [22] 提
出了基于注意的 LSTM 用于方面层面的情感分类与文献[23]中提出的基于内容注意的方面情感分类模型,关键
思想都是向注意力机制添加方面信息.Liang 等人 [24] 提出一种基于多通道注意力卷积神经网络模型,用于特定
目标情感分析.Guan 等人 [25] 使用的注意力机制直接从词向量的基础上学习每个词对句子情感倾向的权重分步,
能够学习到增强情感分类效果的词语.Zhou 等人 [26] 提出的一种基于注意力的 LSTM 网络和 Vaswani 等人 [27] 提
出的自注意力和多头注意力模型,都是用来解决跨语言的情感分类任务.Lin 等人 [28] 使用自注意力机制学习
LSTM 网络中句子的词嵌入,在情感分类任务上取得了较好的结果.Wang 等人 [29] 提出一种基于 RNN 的情绪分
类胶囊,使用了注意力机制来构建胶囊表示.Liu 等人 [11] 提出了一种具有注意机制和卷积层的双向 LSTM 文本
分类模型,使用注意力对 BiLSTM 隐层输出的信息进行不同的关注,解决文本的任意序列长度问题以及文本数
据的稀疏问题.
与文献[11]中利用 LSTM 前一刻输出的隐含状态与当前时刻输入的隐藏状态进行对齐方式的注意力不同
的是,MFSA-BiLSTM 模型使用的是直接对当前输入自适应加权的自注意力机制,无视词与词之间的距离,直接
计算依赖关系,学习一个句子的内部结构.
2 基于多通道特征和自注意力的双向 LSTM 模型(MFSA-BiLSTM)
本文提出的模型总体架构如图 1 所示.形式上是以一个文本中词为单位,形成一个词序列:{x 1 ,x 2 ,…,x n },每个
词都通过已训练好的词向量映射成一个多维连续值的向量 w i ,1≤i≤n.再将句子序列中的词向量拼接,得到整
d
d
个句子序列的词向量矩阵,表示为:W =w 1 ⊕w 2 ⊕…⊕w n ,维度为 d.模型不直接使用词向量 W 作为 BiLSTM 的输
入,而是以词向量为基础分别与词性特征向量,位置值向量和依存句法向量进行组合形成不同的通道(见第 2.1