Page 357 - 《软件学报》2024年第6期
P. 357
闫璟辉 等: 中文医疗文本中的嵌套实体识别方法 2933
计分析, 结果如表 2 所示. 其中, “entity1”和“entity2”分别表示外层实体和内层嵌套实体. 从统计结果可以看出, 绝
大部分的外层实体的类别为“sym”, 而内层嵌套实体多由“bod”“dis”和“ite”等构成. 结合表 5 中所列的对应的“bod”
“dis”和“ite”的性能表现可以发现, 本文所提出的方法在对应实体的精确率 P 上都有着相对其他方法较大的提升.
我们分析这是由于各个类型的实体其对应的可选外层嵌套实体类型范围相对较小, 例如表 7 中所示实体类型为
“bod”“equ”“mic”“pro”和“sym”的内层实体其对应的外层嵌套实体类型只有“sym”一种类型. 因此当系统基于嵌套
规则的过滤方法在解码过程中一旦内层实体类型确定之后, 不属于其对应范围的外层噪声实体解码结果将被直接
过滤掉.
例如表 8 中例子 1 所示, 过滤之前的结果错误地将两个独立的“(肝, bod)、(肾, bod)”识别为了一组嵌套实体
“(肝、肾, bod)、(肾, bod)”, 而通过系统的嵌套规则过滤机制, 由于内层嵌套实体为“bod”类型且获得比外层实体更
高的条件概率得分, 因此别错误识别的外层嵌套实体候选“(肝、肾, bod)”就被删除, 因而提升了实体识别的准确率.
而如实体类型“sym”则由于其常和多种类型的实体都能组成嵌套实体对, 因而所受规则过滤的影响相对有限. 另一
方面, 由于原始的多头选择机制在获取条件概率时所使用的函数为 Logistic 函数, 因而在同一组识别的实体首尾字
所组成的实体可能解码出现多种实体类别. 如表 8 中的例子 2 所示, 可以看到, 原始的系统将实体“血凝块”同时识
别出了两种类型“(血凝块, bod)”和“(血凝块, dis)”, 这显然并不符合实体识别任务的实际情况. 而如第 3.4 节所介绍
的, 我们的嵌套规则过滤方法会对同组实体首尾边界组合进行排序且在非嵌套实体的情况只保留最高得分组合, 因
此在保留候选词多样性的基础上避免了 Logistic 函数带来的噪声类别问题, 从而进一步提升了模型的识别准确率.
表 8 医疗嵌套实体识别结果示例
例子 内容 Origin Filtered
1 (肝、肾, bod) (肾, bod) (肝, bod) ... (肾, bod)(肝, bod) ...
2 (血凝块, bod)(血凝块, dis) ... (血凝块, bod) ...
5 总 结
本文提出了一种融合实体嵌套规则的中文实体识别方法 MTS-NER, 将实体边界的识别任务转化为了实体的
边界识别与边界首尾关系识别的联合训练任务. 通过对实体关系抽取所常用的多头选择机制进行改进使其能够适
用于嵌套实体识别的任务. 在解码阶段, 我们提出了基于实体嵌套规则的过滤方法, 对不符合医疗实体边界嵌套规
则和实体类别嵌套规则的识别结果进行层级过滤, 从而使得识别结果能够符合真实医疗文本中的内外层实体嵌套
组合的组成规律. 我们在公开医疗实体识别数据集上的实验结果表明了该方法的有效性. 在未来我们将继续对我
们的规则方法进行优化以适用于更多不同类型的实体识别任务.
References:
[1] Cowie MR, Blomster JI, Curtis LH, Duclaux S, Ford I, Fritz F, Goldman S, Janmohamed S, Kreuzer J, Leenay M, Michel A, Ong S, Pell
JP, Southworth MR, Stough WG, Thoenes M, Zannad F, Zalewski A. Electronic health records to facilitate clinical research. Clinical
Research in Cardiology, 2017, 106(1): 1–9. [doi: 10.1007/s00392-016-1025-6]
[2] Denaxas SC, Morley KI. Big biomedical data and cardiovascular disease research: Opportunities and challenges. European Heart Journal-
quality of Care and Clinical Outcomes, 2015, 1(1): 9–16. [doi: 10.1093/ehjqcco/qcv005]
[3] Li I, Pan J, Goldwasser J, Verma N, Wong WP, Nuzumlalı MY, Rosand B, Li YX, Zhang M, Chang D, Taylor RA, Krumholz HM,
Radev D. Neural natural language processing for unstructured data in electronic health records: A review. Computer Science Review,
2022, 46: 100511. [doi: 10.1016/j.cosrev.2022.100511]
[4] Li M, Xiang L, Kang XM, Zhao Y, Zhou Y, Zong CQ. Medical term and status generation from Chinese clinical dialogue with multi-
granularity transformer. IEEE/ACM Trans. on Audio, Speech, and Language Processing, 2021, 29: 3362–3374. [doi: 10.1109/TASLP.