Page 173 - 《软件学报》2021年第9期
P. 173

李卫疆  等:基于多通道特征和自注意力的情感分类方法                                                       2797


         类错误(样例 2).而本文提出的 MFSA-BiLSTM 在 MF-BiLSTM 模型上增加了自注意力,通过自注意加权,加强文
         本中的情感,使情感特征信息特征更加突出.因此,本文提出的 MFSA-BiLSTM 模型可以分类成功.
         4.2   自注意力可视化
             本文在图 9 中可视化了 MR 数据的测试集中的两个案例,来解释 MFSA-BiLSTM 的多通道自注意力是如何
         工作的.颜色深度表示相应单词的重要程度.颜色越深,单词越重要.O ve1 、O ve2 、O ve3 分别表示为文本经过 3 个通
         道自注意的得分向量.其中,图 9(a)的极性是正面,MFSA-BiLSTM 模型预测为正面;图 9(b)的极性是正面,MFSA-
         BiLSTM 模型预测为负面.








                                                    (a)











                                                    (b)
                               Fig.9  Three channel features self-attention visualization
                                       图 9  3 个通道特征自注意可视化

             如图 9 所示,图 9(a)是一个带有“but”子句的样例,样例的极性由“but”引导的句子决定.可以观察到,O ve1 的注
         意力得分向量突出了“flawed”和“engrossing”两个情感比较明显的词.对于 O ve2 的注意力得分向量,借助了位置
         信息以及词性和句法信息作为辅助,突出了“engrossing”,同时没有分散无关词的注意力.对于 O ve3 的注意力得
         分,借助了句子中的句法以及词性和位置作为辅助,对“but”进行了转折加强,并影响到了“engrossing”,所以
         “engrossing”比“flawed”的颜色深一点.故 MFSA-BiLSTM 能够对样例进行正确预测.图 9(b)同样是一个带有
         “but”子句的样例.一般来说,在没指定目标词的情况下,样例的极性由“but”引导的句子决定.从整个样例来说,该
         样例的极性是负面的.但是在这个样例中,存在“film”和“book”两个目标词,以“film”为样例目标词,那么样例则
         判为正面.若以“book”为样例目标词,那么样例则判为负面.然而,该样例是属于 MR 数据集,MR 是一个电影评论
         数据集,因此,该样例要以“film”为目标词,判为正面.如图可见,MFSA-BiLSTM 并没有考虑以“film”目标词为预
         测中心,而是从句子结构出发,重点关注了“but”后面的子句,进行了错误的判断.
         4.3   错误分析
             为了更好地理解本文提出模型的局限性,本文对 MFSA-BiLSTM 模型所产生的误差进行了分析.具体来说,
         本文从 MR 电影评论数据集的测试集中随机选择了 50 个被 MFSA-BiLSTM 错误预测的实例,揭示了分类错误
         的几个原因.可以将其分为以下两种.
             •   第 1 种,MFSA-BiLSTM 无法对存在多个目标词的文本进行正确的预测.例如对于一个句子“intriguing
                and beautiful film, but those of you who read the book are likely to be disappointed.”,会因为无法确定目
                标词是“film”还是“book”,本文提出的模型会直接根据句子的结构、位置以及词性,以“but”后面的
                “book”为目标词进行预测,从而出现误判;
             •   第 2 种,当文本长短相差过大,会造成多通道特征稀疏,影响自注意力权重的分布,从而影响分类效果.
   168   169   170   171   172   173   174   175   176   177   178