Page 134 - 《软件学报》2021年第12期
P. 134
3798 Journal of Software 软件学报 Vol.32, No.12, December 2021
步,利用公式(5)和公式(6)计算其右侧各位置的零元素分布概率,发现最后一个词“,”的概率最大,此时,
我们认为该 EDU 已没有零元素存在,解码结束.
4.2 基于Mask机制的零元素表征
与传统的实体指代消歧相比,在零指代消解中,如何高效地表征零元素是一个难点.本文采用的基于 Mask
机制的零元素表征方法,其思路来自于 BERT 模型 [45] .该模型训练时采用 Masked Language Model 的方法,即:随
机使用 MASK 标记覆盖每个句子中约 15%的词,用其上下文来预测这些词.很自然地想到:零元素本质上可以看
作被 MASK 掉的词,当有足够上下文可以预测这些词时,该 MASK 标记对应的向量可以看作是零元素的表征结
果.因此,我们可以借助预训练的 BERT 模型来进行零元素的表征.具体做法是:在预处理阶段,给零元素所在的
位置增加一个“[MASK]”标记,来显式地表示零元素(训练时已知正确的零元素位置,测试时借助零元素识别模
块自动识别零元素).
图 10 给出了“一是继续鼓励和支持外来投资,”示例中“继续”前的零元素表征的示意图.在获得零元素表征
后,与原有的已经向量化的人工特征进行拼接,得到完整的表征后即可进行链接消歧.
CLS s 0 s 1 s zp s 2 ... s l s l+1 ... s m s SEP
Pre‐trained BERT Encoder
CLS 一 是 [MASK] 继 续 鼓 励 和 支 持 外 来 投 资 , SEP
ZP EDU tokens
Fig.10 Mask mechanism based zero element representation
图 10 基于 Mask 机制的零元素表征
4.3 基准平台的实验结果
由于语料规模有限,基准平台的实验采用 5 倍交叉验证的方式进行,使用 Precision(P),Recall(R),F1-score(F)
作为评测标准.验证集是从训练集中随机划分出的数据,占比为 15%,使用早停法(early stopping)来保存验证集
上最好的模型,置信度设为 10.模型采用批训练的方法,训练轮次为 100,批次大小为 32,使用 adam 学习器进行参
数迭代更新,学习率为 0.001.在 embedding 和 LSTM 层后引入 dropout 机制,dropout 大小为 0.5,LSTM 的层数为
1,使用 BERT 的“BERT-Base-uncased”版本来生成原始的嵌入,词嵌入维度 300,词性嵌入维度 20,隐藏层维度
128.
表 8 给出了基于 EDU 的零元素识别的性能.从结果可以看出,主干零元素的识别性能远远高于修饰型零元
素的识别性能.可能的原因有两方面:一是修饰型零元素占比较低,相应的训练实例缺乏;二是直觉上修饰型零
元素更多地依赖局部的句法信息,基准平台主要考虑了词与词之间的序列信息,后续可通过句法信息的融入进
一步改善修饰型零元素的识别性能.此外,从面向篇章理解的视角来看,主干零元素在篇章的组织、话题的演变
等方面起着更为重要的衔接作用,高效地识别出主干型零元素,能够有助于对整个篇章的理解.
Table 8 Performance of EDU based Zero Element Detection
表 8 基于 EDU 的零元素识别的性能
零元素类别 P (%) R (%) F (%)
Main 94.79 92.02 93.39
Modify 53.47 50.62 52.01
Overall 92.15 79.04 85.09
表 9 给出了零指代消解的性能.所谓“标准实体链”,我们抽取了 OntoNotes 中标注的实体指代链作为已知信
息,仅仅完成将零元素链接到对应实体链上的工作;而“自动实体链”则使用 Kong 和 Fu [26] 的系统自动获取实体
指代链(使用 OntoNotes 语料重新训练该系统,将本语料的 325 篇文本作为测试集,使用 CoNLL 评测得到的实体