Page 167 - 《软件学报》2021年第9期
P. 167

李卫疆  等:基于多通道特征和自注意力的情感分类方法                                                       2791


         3.2   数据预处理与超参数设置
             本文使用 Stanford CoreNLP 工具对表 2 的 5 个实验数据集进行分词、词性标注和依存句法分析.本文采用
         Pennington 等人 [36] 提出的 Glove 向量作为单词嵌入的初始设置,其中每个词向量为 300 维,词典大小为 1.9MB.
         本文对 5 个实验数据集中的未登录词,使用均匀分布 U(−0.05,0.05)来随机初始化.在整个实验中,词向量维度为
         300,词性特征为 30,位置特征为 25,依存句法特征为 25.训练过程本文使用 AdaDelta 梯度下降算法.所有数据集
         的 dropout rate 均设为 0.5.本文选择在测试数据集上表现最佳的结果作为最终表现.模型在不同数据集上参数
         设置见表 3.
                            Table 3    Optimal hyper-parameter configuration for five datasets
                                       表 3  5 个数据集的最佳超参数配置

                                                             YELP3      IMDB
                                参数        MR   SST-5  SST-2
                                                            W     S    W    S
                              Learning  rate  0.1  0.1  0.1  0.1  0.01  0.1  0.01
                            Hidden layer units   128   128   128   128  100  128  100
                              Weight Decay   1e−3  1e−4  1e−5  1e−4  1e−3  1e−4  1e−3
                               Batch  Size  16  64    64    25   32    28  128

         3.3   模型对比分析
             将本文提出的两个模型分别与基准方法进行了比较,以验证本文提出的方法的有效性.基准方法可以分为
         3 组,如下所示.
             1.   一般基本模型
             •   SVM [37] :支持向量机;
                    [3]
             •   CNN :使用预训练过的词嵌入的卷积神经网络模型;
                    [1]
             •   RNN :循环神经网络;
                     [2]
             •   RNTN :基于张量特征函数的情感树库上语义组合的递归深度神经网络;
             •   LSTM/BiLSTM:长短期记忆网络和双向长短期记忆网络;
             •   SSWE+SVM [12] :首先生成特定于情感的词嵌入来组成文档表示,然后训练 SVM 分类器;
             •   Paragraph-Vec [32] :从句子和文档中学习分布式特征表示的无监督算法;
             2.   句子级网络模型
             •   Tree-LSTM [18] :将记忆细胞和门引入树形结构的长期短期记忆神经网络模型;
             •   NCSL [17] :将句子的情感分数视为句子中先前得分的加权和,其中,权重由神经网络学习得到;
                           [9]
             •   LR-Bi-LSTM :语言规则化的 LSTM;
             •   RNN-capsule [29] :基于 RNN 的情绪分类胶囊模型;
             •   Capsule-B [38] :基于 CNN 的句子分类胶囊模型;
             •   AC-BiLSTM [11] :具有注意机制和卷积层的双向 LSTM 文本分类模型;
             •   CL+CNN [19] :一种基于关键学习情绪分析的正则卷积神经网络优化应用模型;
             3.   文档级网络模型
             •   RNTN+RNN:用 RNTN 表示每个句子,并将句子表示输入 RNN;然后对 RNN 的隐藏向量进行平均,得到
                用于情绪分类的文档表示;
             •   UPNN(CNN) [33] :UPNN 将每个用 户和产品的 文本偏好矩 阵和表示向 量引入 CNN 情感分类 ,
                UPNN(CNN no UP)只使用 CNN,不考虑用户和产品信息;
             •   CIFG-LSTM/CIFG-BLSTM [39] :耦合输入忘记门 LSTM 和 BLSTM,分别表示为 CIFG-LSTM 和 CIFG-
                BLSTM.结合了 LSTM 的输入和遗忘门,与标准 LSTM 相比需要更少的参数;
             •   CLSTM [34] :缓存 LSTM 模型用来捕获长文本中的整体语义信息.这两种变体包括正则型和双向
                B-CLSTM;
   162   163   164   165   166   167   168   169   170   171   172