Page 264 - 《软件学报》2021年第8期
P. 264

2546                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                 类.大多数命名实体识别任务只识别人名、组织、地点等实体类别,识别的实体类别少,并且类别划分的比较宽
                 泛.然而,细粒度命名实体识别更符合现实世界的知识体系,在一些常见类别的基础上做了近一步的类别划分,
                 需要识别的实体种类远多于一般的命名实体识别.这样,从文本中抽取的实体就拥有了一个更详细的定义,为下
                 游的知识图谱的构建和问答任务提供更有力的支撑.
                    在细粒度命名实体识别中,更细粒度的划分会造成各实体类别在语义上有更紧密的距离.模型对语义相近
                 类别的实体进行分类时容易发生混淆,这意味着细粒度实体类别的区分更具有挑战性.目前,中文公开的高质量
                                                         [1]
                 细粒度命名实体识别的数据集很少,CLUENER2020 数据集包含 10 种不同的实体类别,并对一些常见类别进
                 行了细粒度的划分,如从“地点”中分离出来了“景点”,从“组织”中分离出了“政府”和“公司”,这就造成“地点”和
                 “景点”之间,“组织”“政府”和“公司”之间的混淆程度较高.同时,存在同一实体在不同语境下属于不同类别的情
                 况,如“游戏”可以是一些“书籍”和“电影”的改编.如表 1 所示,实体“《黑暗之塔》”在第 1 个句子中属于“游戏”
                 类别,在第 2 和第 3 个句子中属于“书籍”.在这种情况下,对实体类别的区分需要结合上下文语境,同时也给“游
                                                                             [2]
                                                                                             [3]
                                                               [1]
                 戏”“书籍”和“电影”实体类别之间的区分造成混淆.Xu 等人 使用 bilstm-crf 和预训练语言模型 在该数据集
                 上进行实验,相同的模型在其他数据集上的 F1 值可以达到 95,然而在该数据集上,最好的效果只能达到 80 左右.
                 这是因为细粒度数据集的句子中经常存在多个类别的实体,模型在预测时会出现一些实体类别的丢失;同时,模
                 型对一些类别的区分能力也存在一定的限制.因此,细粒度命名实体识别任务更具有挑战性.
                             Table 1    Examples of entities belonging to different categories in different contexts
                                          表 1   实体在不同的语境属于不同类别的例子
                                             句子                                         标签
                           《黑暗之塔》改编游戏将在 2013 年 5 月随电影版同步上市                         游戏:《黑暗之塔》
                    斯蒂芬金的《黑暗之塔》小说共有七卷本,这个系列是斯蒂芬金最负盛名的小说                      书籍:《黑暗之塔》  姓名:斯蒂芬金
                                   蒂芬金《黑暗之塔》将改编成游戏                            书籍:《黑暗之塔》  姓名:蒂芬金
                                                                                 [1]
                    Xu 等人使用 bilstm-crf、预训练语言模型作为 CLUENER 2020 数据集的基线 ,其中,预训练语言模型在该
                 数据集上取得了最好的效果.Xu 等人使用预训练语言模型对句子中的字符进行上下文编码,在一定程度上解决
                 了同一实体在不同句子中属于不同类别的问题,但模型还是存在实体类别丢失和分区类别能力不足的情况.本
                               [4]
                 文受到 Wang 等人 的启发,考虑到细粒度命名实体识别数据集中实体类别多、类别区分难的问题,通过在句子
                 的字符表示中融入类别的标签信息,使句子字符的上下文表示更加接近类别的标签嵌入,来提高识别效果.
                                                       [5]
                    为了利用标签信息,本文通过关联记忆网络 的方式,使用训练集中带标签的句子,通过捕获训练集中相关
                 句子的标签信息,并使用注意力机制将类别的标签信息融入句子的字符表示中.同时,结合预训练语言模型和多
                 头自注意力,提升模型的识别效果.最后,通过消融实验分别证明了关联记忆网络、多头自注意力和预训练语言
                 模型这 3 个部分在 CLUENER 2020 细粒度命名实体识别任务上的有效性.
                    本文的贡献主要包括:
                    (1)  提出了一种结合预训练语言模型和关联记忆网络的方法,利用标签类别信息辅助细粒度实体类别的区
                 分,并通过实验证明了模型方法的有效性,同时证明实体的标签类别信息对细粒度命名实体识别有促进作用.
                    (2)  针对命名实体识别任务,本文提出了一种实体类别距离的记忆句子选择方式,在实体类别距离的选择
                 方式上进行实验,验证了细粒度命名实体识别的挑战在于实体类别的区分,正确的实体类别的标签可以大幅度
                 提升模型的识别效果.
                    本文第 1 节介绍关于中文细粒度命名实体识别的相关工作.第 2 节详细描述本文提出的模型.第 3 节使用
                 本文模型在 CLUENER2020 数据集上和其他模型进行对比实验,验证本文模型的有效性.第 4 节总结全文并提
                 出未来的发展方向.

                 1    相关工作

                                                                            [7]
                                                          [6]
                    命名实体识别任务主要的方法有 3 种:基于规则 、基于传统机器学习 和基于深度学习的方法,其中,基于
   259   260   261   262   263   264   265   266   267   268   269