Page 265 - 《软件学报》2021年第8期
P. 265
琚生根 等:基于关联记忆网络的中文细粒度命名实体识别 2547
深度学习的方法由于可以自动地捕获输入句子的特征,实现端到端的命名实体识别,已经成为现在的研究热点.
[2]
[8]
近年来,基于深度学习的方法在命名实体识别任务上获得了很好的应用.Rrubaa 等人 、peng 等人 使用了
双向长短期记忆网络(BiLSTM)和条件随机场网络进行命名实体标记,但 BiLSTM 编码长序列的能力有限,并且
[9]
计算速度慢.Strubell 等人 将卷积神经网络(CNN)用于命名实体识别,相比循环神经网络,卷积神经网络具有更
快的计算速度.但是卷积神经网络更多捕获的是局部信息,会造成全局信息的大量丢失.
中文命名实体识别区别于英文,由于句子中的词没有天然的边界,更具有挑战性.Yang 等人 [10] 使用分词工
具对句子序列进行分词,然后对单词序列进行标注.然而,分词工具不可避免地会出现单词的错误划分,造成实
体边界的错误识别.因此,一些工作(Liu 等人 [11] 、Lu 等人 [12] )表明,字符级别的命名实体识别的效果比单词级别
的更好.基于字符的命名实体识别存一个很明显的缺点,就是没有充分地利用单词信息.所以,中文命名识别的
研究热点是将词典信息充分融入字符模型中.Zhang 和 Yang [13] 提出了 Lattice-LSTM 模型,通过长短期神经网络
的门控机制,自动地匹配句子中每个字符对应的单词,将词典中与句子语义最匹配的单词信息融入句子表示中,
从而提升了模型识别的能力.除了字典信息可以提高命名实体识别的效果,Xu 等人 [14] 表示,中文字符部首蕴含
的特征信息能够帮助命名实体的识别.他们在模型中同时使用了字嵌入、词嵌入和部首嵌入来丰富句子中的字
符表示,并验证了部首信息的有效性.然而,这些研究都没有关注到实体类别的标签信息可能帮助命名实体的识
[4]
别.Wang 等人 连接词嵌入和标签嵌入进行文本分类,引入标签注意力机制为句子中的每个单词分配权重来生
成文本表示,通过训练,使词嵌入接近于它们对应的标签嵌入.Luo 等人 [15] 使用标签注意力机制生成全局的句子
表示,为句子中的每个位置补充全局信息.Li 等人 [16] 基于阅读理解的框架进行命名实体识别,通过编码每个类别
[5]
标签的注释构建问题,然后通过问题在文本中匹配相应的类别的实体.Guan 等人 提出了关联记忆网络的方法,
将单词级别的标签信息融入单词表示中进行语义角色标记.但是其通过双向长短期神经网络对单词表示进行
上下文编码,由于双向长短期神经网络的编码能力有限,并且无法并行,所以本文抛弃了长短期神经网络,使用
BERT 对句子中的字符进行上下文编码,从而获得更好的编码表示.
[1]
Xu 等人 构建了 CLUENER2020 中文细粒度命名实体数据集,该数据集包含大量的训练样例,同时,各实体
类别在数据集中分布平均.Xu 等人分别使用双向长短期神经网络、预训练语言模型作为该数据的基线,并在细
粒度数据集和普通数据上进行对比实验,结果表明,相同的方法在细粒度数据集上的效果要低于普通数据集.所
有的基线方法都只是对句子中的字符进行了简单的上下文编码,然后通过条件随机场层学习实体标记之间的
约束.所以本文通过关联记忆网络连接句子中字符的上下文表示和实体类别的标签嵌入,使上下文表示更接近
于实体类别的标签嵌入,来提升细粒度命名实体识别的效果.
2 本文方法
给定输入句子 s,将其表示为字符序列 s = []x ii= s l 1 ,其中,l s 表示句子的长度,x i 表示句子中的第 i 个字符.本文将
细粒度命名实体识别看成序列标注任务,将句子 s 作为输入,对 s 中的每一个字符进行标记,生成标签序列
y = []y ii= s l 1 ,其中,y i 表示句子中第 i 个字符的标签.
为了将实体类别的标签信息融入输入句子 s 的字符表示中,本文提出了一种结合预训练语言模型和关联记
忆网络的方法,将训练集中相关句子的正确实体标签信息融入输入句子的字符表示中,框架如图 1 所示.
该方法的模型自底向上包括输入层、嵌入层、关联记忆网络、多头自注意层、条件随机场层和输出层.
其中,输入层进行记忆句子的选择,计算输入句子和训练集中句子的距离,将训练集中与输入句子距离最近的几
个句子作为记忆句子;嵌入层对输入句子和记忆句子中的字符进行上下文编码,并将记忆句子的实体标签转换
成标签序列,进行标签嵌入;关联记忆网络计算输入句子中每个字符和记忆句子中每个字符的注意力矩阵,并与
记忆句子对应的标签嵌入相乘,将标签信息融入序列表示中;多头自注意力层结合句子任意位置之间的相互关
注,对融入了标签信息的序列表示进行重新编码;条件随机场层学习各实体标签之间的规则;输出层使用维特比
算法输出概率最高的标签序列.