Page 264 - 《软件学报》2021年第8期
P. 264
2546 Journal of Software 软件学报 Vol.32, No.8, August 2021
类.大多数命名实体识别任务只识别人名、组织、地点等实体类别,识别的实体类别少,并且类别划分的比较宽
泛.然而,细粒度命名实体识别更符合现实世界的知识体系,在一些常见类别的基础上做了近一步的类别划分,
需要识别的实体种类远多于一般的命名实体识别.这样,从文本中抽取的实体就拥有了一个更详细的定义,为下
游的知识图谱的构建和问答任务提供更有力的支撑.
在细粒度命名实体识别中,更细粒度的划分会造成各实体类别在语义上有更紧密的距离.模型对语义相近
类别的实体进行分类时容易发生混淆,这意味着细粒度实体类别的区分更具有挑战性.目前,中文公开的高质量
[1]
细粒度命名实体识别的数据集很少,CLUENER2020 数据集包含 10 种不同的实体类别,并对一些常见类别进
行了细粒度的划分,如从“地点”中分离出来了“景点”,从“组织”中分离出了“政府”和“公司”,这就造成“地点”和
“景点”之间,“组织”“政府”和“公司”之间的混淆程度较高.同时,存在同一实体在不同语境下属于不同类别的情
况,如“游戏”可以是一些“书籍”和“电影”的改编.如表 1 所示,实体“《黑暗之塔》”在第 1 个句子中属于“游戏”
类别,在第 2 和第 3 个句子中属于“书籍”.在这种情况下,对实体类别的区分需要结合上下文语境,同时也给“游
[2]
[3]
[1]
戏”“书籍”和“电影”实体类别之间的区分造成混淆.Xu 等人 使用 bilstm-crf 和预训练语言模型 在该数据集
上进行实验,相同的模型在其他数据集上的 F1 值可以达到 95,然而在该数据集上,最好的效果只能达到 80 左右.
这是因为细粒度数据集的句子中经常存在多个类别的实体,模型在预测时会出现一些实体类别的丢失;同时,模
型对一些类别的区分能力也存在一定的限制.因此,细粒度命名实体识别任务更具有挑战性.
Table 1 Examples of entities belonging to different categories in different contexts
表 1 实体在不同的语境属于不同类别的例子
句子 标签
《黑暗之塔》改编游戏将在 2013 年 5 月随电影版同步上市 游戏:《黑暗之塔》
斯蒂芬金的《黑暗之塔》小说共有七卷本,这个系列是斯蒂芬金最负盛名的小说 书籍:《黑暗之塔》 姓名:斯蒂芬金
蒂芬金《黑暗之塔》将改编成游戏 书籍:《黑暗之塔》 姓名:蒂芬金
[1]
Xu 等人使用 bilstm-crf、预训练语言模型作为 CLUENER 2020 数据集的基线 ,其中,预训练语言模型在该
数据集上取得了最好的效果.Xu 等人使用预训练语言模型对句子中的字符进行上下文编码,在一定程度上解决
了同一实体在不同句子中属于不同类别的问题,但模型还是存在实体类别丢失和分区类别能力不足的情况.本
[4]
文受到 Wang 等人 的启发,考虑到细粒度命名实体识别数据集中实体类别多、类别区分难的问题,通过在句子
的字符表示中融入类别的标签信息,使句子字符的上下文表示更加接近类别的标签嵌入,来提高识别效果.
[5]
为了利用标签信息,本文通过关联记忆网络 的方式,使用训练集中带标签的句子,通过捕获训练集中相关
句子的标签信息,并使用注意力机制将类别的标签信息融入句子的字符表示中.同时,结合预训练语言模型和多
头自注意力,提升模型的识别效果.最后,通过消融实验分别证明了关联记忆网络、多头自注意力和预训练语言
模型这 3 个部分在 CLUENER 2020 细粒度命名实体识别任务上的有效性.
本文的贡献主要包括:
(1) 提出了一种结合预训练语言模型和关联记忆网络的方法,利用标签类别信息辅助细粒度实体类别的区
分,并通过实验证明了模型方法的有效性,同时证明实体的标签类别信息对细粒度命名实体识别有促进作用.
(2) 针对命名实体识别任务,本文提出了一种实体类别距离的记忆句子选择方式,在实体类别距离的选择
方式上进行实验,验证了细粒度命名实体识别的挑战在于实体类别的区分,正确的实体类别的标签可以大幅度
提升模型的识别效果.
本文第 1 节介绍关于中文细粒度命名实体识别的相关工作.第 2 节详细描述本文提出的模型.第 3 节使用
本文模型在 CLUENER2020 数据集上和其他模型进行对比实验,验证本文模型的有效性.第 4 节总结全文并提
出未来的发展方向.
1 相关工作
[7]
[6]
命名实体识别任务主要的方法有 3 种:基于规则 、基于传统机器学习 和基于深度学习的方法,其中,基于