Page 349 - 《软件学报》2024年第6期
P. 349

闫璟辉 等: 中文医疗文本中的嵌套实体识别方法                                                         2925


                 的思想将实体识别任务看成识别首尾字的问题, 并对首尾字所形成的                       span  赋予实体类别. 其方法本质上也是对实
                 体中的“首-尾”组合进行关系抽取, 不过, Yu          等人  [14] 的方法并没有具体考虑在一些特定文本领域, 如中文医疗文本
                 中, 不同实体与实体之间存在着诸多特有的嵌套限制. 例如“药物”类型的实体不可能作为内层实体嵌套在“科室”
                 类型的实体之中, 而“微生物”类实体则不可能成为“医学检测项目”的外层嵌套实体. 类似的文本规则往往由于其
                 类型在训练数据中占比过低而无法被模型自动学习到, 因此我们提出利用层次过滤的方法, 将医疗实体的嵌套规
                 则融合进实体识别模型的解码过程中, 从而达到提升模型准确率的目的.
                    此外, 针对以往的     span-based  方法往往忽略了实体边界信息的缺点          [15] , 我们提出了对实体边界字进行序列标
                 注任务进行联合训练来提高模型对实体              span  信息的利用率. 我们将实体识别分为两部分, 首先对输入的文本进行
                 实体边界首尾字的序列识别, 然后基于已识别出的首尾字特征信息, 再进行实体首尾字之间的关系抽取任务两项
                 任务共享编码层并进行联合训练.
                    本文的主要贡献总结如下.
                    (1) 提出一种可以有效识别嵌套实体的新方法. 采用对实体边界识别和首尾字的边界关系识别的多任务联合
                 训练的方式, 强化系统对实体边界信息的利用率.
                                                提出了采用堆叠
                    (2) 提出一种基于医疗领域知识规则的过滤方法. 利用医疗文本领域中的实体嵌套规则来对实体识别结果进
                 行过滤筛查.
                    (3) 在公开的中文医疗实体识别数据集上的实验评估显示, 本文所提方法在嵌套类型实体识别性能上显著优
                 于已有的方法, 在整体准确率方面比最先进的方法提高了                  0.5%.
                    本文第   2  节对医疗嵌套实体识别的相关工作进行介绍. 第               3  节对我们所提出的模型的各个部分进行具体介
                 绍. 第  4  节对我们所进行的实验进行介绍, 并进行实验分析. 第             5  节对本文进行总结.

                  2   相关工作

                    命名实体识别      (named entity recognition, NER) 是信息抽取应用的重要上游任务, 其旨在将给定文本中所包含
                 的具有特定意义的词语进行抽取. 早期的命名实体识别系统采用统计学的方式对文本进行自动识别, 如采用支持
                 向量机   (support vector machine, SVM) [16−18] , 隐含马尔柯夫模型  (hidden Markov model, HMM) [19−21] 以及条件随机场
                 (conditional random fields, CRF) [22,23] 等方式. 近些年, 越来越多的研究开始将深度学习技术应用于命名实体识别方
                 法中并取得了不错的效果. Collobert 等人       [24] 首先提出将卷积神经网络      (convolutional neural network, CNN) 作为编
                 码器应用于    NER  系统中. Huang  等人  [10] 和  Lample 等人  [8] 采用  Bi-LSTM  和  CRF  组成编码器-解码器框架解决长距
                 离依赖问题. 语言模型技术也对          NER  研究提供了帮助. 利用预训练语言模型对不同              NER  任务进行   finetune 可以
                 得到很好地识别效果, 如       ELMo (embeddings from language models) [25] 、BERT (bidirectional encoder representations
                 from Transformers) [26] 等.
                    对嵌套实体     (nested entity) 的识别一直是  NER  研究中的一个关键问题. 早期的研究工作采用人工制定的规则
                 来辅助   NER  系统来处理嵌套实体的问题         [27−29] . 当前对于嵌套实体的识别方法主要可以分为           layer-based  和  span-
                 based  两种类型. 前者是解决嵌套实体识别最直观的方法. 根据嵌套命名实体结构的层次性质, layer-based                      模型通
                 常包含多个层级. 每一层用于标识一组特定级别或长度的命名实体. Ju 等人                   [30] 提出通过由内向外动态叠加      LSTM-CRF
                 模型的层来识别嵌套实体. Wang        等人  [31]           NER  多层结构抽取嵌套命名实体的模型, 每个层预测特
                 定长度的文本区域是否为实体, 由底向上层层聚合的方式对实体边界信息进行识别. span-based                         方法通常将嵌套
                 NER  任务视为一个多分类问题, 并设计多种策略以在分类得到实体子序列文本边界的潜在表示. Zheng                             等人  [32]
                 提出  boundary-aware 模型, 通过使用序列标注模型识别实体候选边界从而定位实体位置, 然后基于候选实体边界
                 来预测实体类别标签. Yu       等人  [13] 使用基于图的依赖解析的思想来识别命名实体. 其首先利用                Bi-LSTM  来获得上
                 下文表示, 然后应用两个独立的全连接层来表示实体边界的首尾边界信息并使用                          Bi-affine 模型来预测句子中的命
                 名实体. Su  等人  [33] 利用全局归一化的思路, 将多个实体类型的识别视为             Multi-head  机制, 将每一个  head  视为一种
   344   345   346   347   348   349   350   351   352   353   354