Page 353 - 《软件学报》2024年第6期
P. 353
闫璟辉 等: 中文医疗文本中的嵌套实体识别方法 2929
限制则视为错误匹配并将组合得分较低的一方过滤掉且将对应的条件概率赋值为 0; 如双方符合规则, 则检查所
预测的实体类别 r k 之间的关系是否存在于表 1 中所列的其实体边界规则所对应的实体类别嵌套关系的种类, 如不
存在, 则将得分较低的一方过滤掉且将对应的条件概率赋值为 0. 最终得到过滤后的所有组合的条件概率矩阵. 这
种层级式过滤方式有两种优点: (1) 避免了原多头部选择机制下同组实体边界首尾组合可能解码出多种实体类别
的问题; (2) 避免了解码过程中只对组合进行概率得分判断而忽略了与其他医疗实体是否符合嵌套规则的情况, 使
得一些得分较低但更符合实际医疗实体规则的组合可以被筛选出来.
表 1 实体之间嵌套规则表览
序号 边界位置规则 图例 实体类别嵌套关系 (e1=entity1;e2=entity2)
entity1
entity2 (el: sym, e2: bod), (el: sym, e2: ite), (el: sym, e2: dis),
1 H 1 < H 2 < T 2 < T 1 (el: sym, e2: pro), (e1: sym, e2: mic), (e1: sym, e2: dru),
H 1 H 2 T 2 T 1 (e1: sym, e2: equ), (e1: sym, e2: sym)
(e1: sym, e2: bod), (e1: sym, e2: ite), (e1: sym, e2: dis),
entity1
entity2 (e1: sym, e2: pro), (e1: sym, e2: equ), (e1: sym, e2: dru),
2
(e1: sym, e2: dru), (e1: ite, e2: dru), (e1: dru, e2: dru),
H 1 = H 2 < T 2 < T 1
H 1 T 2 T 1
(e1: sym, e2: mic), (e1: pro, e2: ite), (e1: pro, e2: dep),
entity1 (e1: sym, e2: dis), (e1: sym, e2: bod), (e1: sym, e2: ite),
entity2
3 H 1 < H 2 < T 2 = T 1 (e1: sym, e2: mic), (e1: ite, e2: dis), (e1: bod, e2: dis),
(e1: sym, e2: pro)
H 1 H 2 T 1
entity1
4 H 1 < H 2 = T 2 < T 1 entity2 (e1: sym, e2: bod), (e1: sym, e2: ite)
H 1 S 2 T 1
entity1
entity2
5 H 1 = H 2 = T 2 < T 1 (e1: sym, e2: bod), (e1: sym, e2: ite), (e1: sym, e2: dru)
S 2 T 1
entity1
entity2
6 H 1 < H 2 = T 2 = T 1 (e1: sym, e2: bod)
H 1 S 2
-
7 H 1 ⩽ T 1 < H 2 ⩽ T 2 无嵌套关系 0
表 2 CMeEE 数据集中不同实体类型之间的嵌套关系数量统计
entity1
entity2 身体和身体 疾病或 医疗检查 医学检验 微生物类 医疗检查 临床表现或
物质bod 科室dep 综合症dis 药物dru 设备equ 项目ite mic 程序pro 症状sym
身体和身体物质bod 0 0 0 0 0 0 0 0 8 226
科室dep 0 0 0 0 0 2 0 2 0
疾病或综合症dis 2 0 0 0 0 2 0 0 402
药物dru 0 0 12 2 0 4 0 0 54
医疗检查设备equ 0 0 0 0 0 0 0 0 24
医学检验项目ite 0 0 0 0 2 0 2 810
微生物类mic 0 0 0 0 0 0 0 0 46
医疗检查程序pro 0 0 0 0 0 0 0 0 112
临床表现或症状sym 0 0 0 0 0 0 0 0 4
算法 1. 基于实体嵌套规则的层级式过滤算法.
输入: C : 模型输出的所有实体组合 (x j , x i ,r k ) ; T: 嵌套实体边界限制规则表; E: 嵌套实体类别限制规则表;
输出: Pr : Pr(r k , x j |x i ) 矩阵.