Page 134 - 《软件学报》2021年第12期
P. 134

3798                                Journal of Software  软件学报 Vol.32, No.12, December 2021

                步,利用公式(5)和公式(6)计算其右侧各位置的零元素分布概率,发现最后一个词“,”的概率最大,此时,
                我们认为该 EDU 已没有零元素存在,解码结束.
         4.2   基于Mask机制的零元素表征
             与传统的实体指代消歧相比,在零指代消解中,如何高效地表征零元素是一个难点.本文采用的基于 Mask
         机制的零元素表征方法,其思路来自于 BERT 模型               [45] .该模型训练时采用 Masked Language Model 的方法,即:随
         机使用 MASK 标记覆盖每个句子中约 15%的词,用其上下文来预测这些词.很自然地想到:零元素本质上可以看
         作被 MASK 掉的词,当有足够上下文可以预测这些词时,该 MASK 标记对应的向量可以看作是零元素的表征结
         果.因此,我们可以借助预训练的 BERT 模型来进行零元素的表征.具体做法是:在预处理阶段,给零元素所在的
         位置增加一个“[MASK]”标记,来显式地表示零元素(训练时已知正确的零元素位置,测试时借助零元素识别模
         块自动识别零元素).
             图 10 给出了“一是继续鼓励和支持外来投资,”示例中“继续”前的零元素表征的示意图.在获得零元素表征
         后,与原有的已经向量化的人工特征进行拼接,得到完整的表征后即可进行链接消歧.

                           CLS  s 0  s 1  s zp  s 2  ...        s l  s l+1  ...  s m  s SEP


                                        Pre‐trained BERT Encoder


                           CLS  一  是  [MASK]  继  续  鼓  励  和  支  持  外  来  投  资  ,  SEP
                                                ZP EDU tokens
                              Fig.10    Mask mechanism based zero element representation
                                      图 10   基于 Mask 机制的零元素表征
         4.3   基准平台的实验结果
             由于语料规模有限,基准平台的实验采用 5 倍交叉验证的方式进行,使用 Precision(P),Recall(R),F1-score(F)
         作为评测标准.验证集是从训练集中随机划分出的数据,占比为 15%,使用早停法(early stopping)来保存验证集
         上最好的模型,置信度设为 10.模型采用批训练的方法,训练轮次为 100,批次大小为 32,使用 adam 学习器进行参
         数迭代更新,学习率为 0.001.在 embedding 和 LSTM 层后引入 dropout 机制,dropout 大小为 0.5,LSTM 的层数为
         1,使用 BERT 的“BERT-Base-uncased”版本来生成原始的嵌入,词嵌入维度 300,词性嵌入维度 20,隐藏层维度
         128.
             表 8 给出了基于 EDU 的零元素识别的性能.从结果可以看出,主干零元素的识别性能远远高于修饰型零元
         素的识别性能.可能的原因有两方面:一是修饰型零元素占比较低,相应的训练实例缺乏;二是直觉上修饰型零
         元素更多地依赖局部的句法信息,基准平台主要考虑了词与词之间的序列信息,后续可通过句法信息的融入进
         一步改善修饰型零元素的识别性能.此外,从面向篇章理解的视角来看,主干零元素在篇章的组织、话题的演变
         等方面起着更为重要的衔接作用,高效地识别出主干型零元素,能够有助于对整个篇章的理解.
                              Table 8    Performance of EDU based Zero Element Detection
                                      表 8   基于 EDU 的零元素识别的性能
                            零元素类别           P (%)         R (%)          F (%)
                              Main          94.79         92.02          93.39
                              Modify        53.47         50.62          52.01
                              Overall       92.15         79.04          85.09

             表 9 给出了零指代消解的性能.所谓“标准实体链”,我们抽取了 OntoNotes 中标注的实体指代链作为已知信
         息,仅仅完成将零元素链接到对应实体链上的工作;而“自动实体链”则使用 Kong 和 Fu                         [26] 的系统自动获取实体
         指代链(使用 OntoNotes 语料重新训练该系统,将本语料的 325 篇文本作为测试集,使用 CoNLL 评测得到的实体
   129   130   131   132   133   134   135   136   137   138   139