Page 353 - 《软件学报》2024年第6期
P. 353

闫璟辉 等: 中文医疗文本中的嵌套实体识别方法                                                         2929


                 限制则视为错误匹配并将组合得分较低的一方过滤掉且将对应的条件概率赋值为                             0; 如双方符合规则, 则检查所

                 预测的实体类别      r k  之间的关系是否存在于表      1  中所列的其实体边界规则所对应的实体类别嵌套关系的种类, 如不
                 存在, 则将得分较低的一方过滤掉且将对应的条件概率赋值为                    0. 最终得到过滤后的所有组合的条件概率矩阵. 这
                 种层级式过滤方式有两种优点: (1) 避免了原多头部选择机制下同组实体边界首尾组合可能解码出多种实体类别
                 的问题; (2) 避免了解码过程中只对组合进行概率得分判断而忽略了与其他医疗实体是否符合嵌套规则的情况, 使
                 得一些得分较低但更符合实际医疗实体规则的组合可以被筛选出来.

                                                 表 1    实体之间嵌套规则表览

                   序号       边界位置规则                 图例                 实体类别嵌套关系 (e1=entity1;e2=entity2)
                                                   entity1
                                                   entity2         (el: sym, e2: bod), (el: sym, e2: ite), (el: sym, e2: dis),
                    1        H 1 < H 2 < T 2 < T 1                (el: sym, e2: pro), (e1: sym, e2: mic), (e1: sym, e2: dru),
                                            H 1  H 2   T 2  T 1         (e1: sym, e2: equ), (e1: sym, e2: sym)
                                                                  (e1: sym, e2: bod), (e1: sym, e2: ite), (e1: sym, e2: dis),
                                                    entity1
                                                 entity2          (e1: sym, e2: pro), (e1: sym, e2: equ), (e1: sym, e2: dru),
                    2

                                                                   (e1: sym, e2: dru), (e1: ite, e2: dru), (e1: dru, e2: dru),
                           H 1 = H 2 < T 2 < T 1
                                            H 1        T 2  T 1
                                                                  (e1: sym, e2: mic), (e1: pro, e2: ite), (e1: pro, e2: dep),
                                                  entity1         (e1: sym, e2: dis), (e1: sym, e2: bod), (e1: sym, e2: ite),
                                                     entity2
                    3        H 1 < H 2 < T 2 = T 1                 (e1: sym, e2: mic), (e1: ite, e2: dis), (e1: bod, e2: dis),
                                                                              (e1: sym, e2: pro)
                                            H 1  H 2        T 1
                                                  entity1
                    4        H 1 < H 2 = T 2 < T 1  entity2             (e1: sym, e2: bod), (e1: sym, e2: ite)
                                            H 1   S 2       T 1
                                                   entity1
                                              entity2
                    5        H 1 = H 2 = T 2 < T 1                (e1: sym, e2: bod), (e1: sym, e2: ite), (e1: sym, e2: dru)
                                            S 2             T 1
                                                   entity1
                                                           entity2
                    6        H 1 < H 2 = T 2 = T 1                            (e1: sym, e2: bod)
                                            H 1            S 2
                                                                                   -
                    7        H 1 ⩽ T 1 < H 2 ⩽ T 2  无嵌套关系  0

                                    表 2    CMeEE  数据集中不同实体类型之间的嵌套关系数量统计

                                                                  entity1
                      entity2  身体和身体             疾病或             医疗检查    医学检验    微生物类    医疗检查 临床表现或
                                 物质bod   科室dep  综合症dis   药物dru   设备equ    项目ite    mic   程序pro   症状sym
                 身体和身体物质bod        0       0       0       0       0        0       0       0      8 226
                     科室dep         0       0       0       0       0        2       0       2       0
                  疾病或综合症dis        2       0       0       0       0        2       0       0      402
                     药物dru         0       0       12      2       0        4       0       0      54
                  医疗检查设备equ        0       0       0       0       0        0       0       0      24
                  医学检验项目ite        0       0       0               0        2       0       2      810
                    微生物类mic        0       0       0       0       0        0       0       0      46
                  医疗检查程序pro        0       0       0       0       0        0       0       0      112
                 临床表现或症状sym        0       0       0       0       0        0       0       0       4


                 算法  1. 基于实体嵌套规则的层级式过滤算法.

                 输入:   C  : 模型输出的所有实体组合     (x j , x i ,r k ) ; T: 嵌套实体边界限制规则表; E: 嵌套实体类别限制规则表;
                 输出:   Pr : Pr(r k , x j |x i )  矩阵.
   348   349   350   351   352   353   354   355   356   357   358