Page 116 - 《软件学报》2020年第12期
P. 116

3782                                Journal of Software  软件学报 Vol.31, No.12, December 2020

         “I-Cent_Modi”的位置-类型复合标签以及 PAD,UNK 和 O 等 3 个单独的位置标签.本任务总共有 17 个标签,可以
         在预测类别的同时预测语块边界.
         5.1   基于ESIM的蕴含语块-类型识别方法
             ESIM 模型也适用于蕴含语块-类型识别任务,在这个任务中,我们的输入与蕴含类型识别任务中 ESIM2 模
         型没有差别,如图 4 所示.经过了输入编码层,局部推理层和推理组合层后,我们得到了 C P ,C H .由于语块-类型识别
         任务需要得到每个语块的信息,所以我们不做池化操作,如图 4(b)线路所示,直接将 C P ,C H 作为此任务的预测依
         据,整合语块的位置信息和蕴含类别,形成 17 个预测标签.

         5.2   基于BERT的蕴含语块-类型识别方法
             BERT 同样可以用于蕴含语块-类型识别任务,一般仅提供单序列标注的方法.然而,我们的蕴含语块边界识
         别研究是有关序列对的标注任务,所以我们将蕴含前件 P 和蕴含后件 H用[SEP]进行连接,再作为输入进入模型.
         如图 6 所示,除了每个词块都有对应的标签之外,其他所需输入信息与蕴含类型识别任务没有差别.由于序列标
         注任务不能舍弃除蕴含语块外的其他部分(标签为“O”的部分),所以我们将整个蕴含句对的序列串作为输入.
             在输出部分,对于序列中的每个词而言,都相当于一个分类任务,我们将词块 i 的最终隐藏层的表示 T i 作为
         分类层的输入,使得对应输出的预测不受周围其他词块预测结果的影响.
                                B-Quantity I-Quantity  O  B-Quantity I-Quantity I-Quantity  O


                             C    T 三  T 名  ⅡⅡ   T 。  T [SEP]  T 五  T 个  T 人  ⅡⅡ  T 。  T [SEP]

                                                       BERT



                  Token
                            E [CLS]  E 三  E 名  ⅡⅡ  E 。  E [SEP]  E 五  E 个  E 人  ⅡⅡ  E 。  E [SEP]
                  Embeddings
                  Segment
                  Embeddings  E P  E P  E P  ⅡⅡ  E P  E P  E H  E H  E H  ⅡⅡ    E H  E H
                  Position
                  Embeddings  E 0  E 1  E 2  ⅡⅡ  E N  E N+1  E N+2  E N+3  E N+4  ⅡⅡ  E N+M  E N+M+1

                  Input     [CLS]  三   名   ⅡⅡ    。   [SEP]  五   个     人   ⅡⅡ    。   [SEP]

                       Fig.6    Input and output representation in bert for recognizing entailment chunks
                              图 6   BERT 对蕴含语块-类型识别任务的输入和输出表示

         5.3   基于BERT+BiLSTM+CRF的蕴含语块-类型识别方法
             双向 LSTM(bi-directional long short-term  memory) [37,38] 是循环神经网络的改进版,它是双向的长短时间记
         忆网络,非常适用于对时序文本进行建模.条件随机场(conditional random fields,简称 CRF)             [39] 是一个专门针对于
         序列标注任务的模型,在做归一化的时候考虑了全局的数据分布,做到了全局最优而不是局部最优.在过去的工
         作中,BiLSTM+CRF 广泛地应用于相关的命名实体识别工作中                   [40] .命名实体识别和蕴含语块-类型识别两个任
         务具有相似之处:命名实体识别需要预测实体的头部和尾部,即实体的边界位置;蕴含语块-类型识别同样需要
         预测蕴含语块的边界,并且它们都需要预测句中每个词的标签,因此,我们也尝试将这种方法迁移到蕴含语块-
         类型识别任务上,将其作为实验的一部分.
             BERT 在大规模语料上进行预训练,得到每个字符基于上下文的表征,这优于传统 word2vec 的表示方式,因
         此,我们尝试将 BERT 引入 BiLSTM+CRF 的模型中,代替底层 word2vec 部分,得到了 BERT+BiLSTM+CRF 模型.
         在编码部分,使用 BERT 的预训练语言模型将蕴含前件 P 和后件 H 进行编码,再将编码后拥有语义信息的嵌入
   111   112   113   114   115   116   117   118   119   120   121