Page 227 - 《软件学报》2025年第4期
P. 227
郁俊杰 等: 面向低资源关系抽取的自训练方法 1633
图 7 展示了 Re-TACRED 中 3 个典型模糊数据的样例, 其中左侧表示英文原句和对应中文翻译, 右侧列出了
按预测概率排序的前几个关系类别及其概率值. 第 1 个例子中由于同时提到了“was born in”和“grew up in”两种表
达, 教师模型对“出生城市”和“居住城市”两个关系类别都预测了较高的概率. 在第 2 个例子中, 由于缺少头尾实体
的类型信息, 仅基于常用于表达附属关系的“X’s Y”短语结构使得教师模型对“机构所在国家、机构所在城市和机
构隶属于”3 种关系都预测了较高的概率. 对于第 3 个例子, 虽然看起来很简单: Richard Lindzen 的头衔是
Professor, 但是, 由于短语“MIT Professor Richard Lindzen”不仅受到 Richard Lindzen 与 MIT 之间是“就职于”关系
的影响, 而且鉴于 MIT 的学校属性, 它经常会与人物构成“就读学校”的关系. 因此, 教师模型最终无法给出确切的
预测. 在上述 3 个例子中, 最高预测概率对应的关系类别并非正确答案, 而答案分别是各自预测概率第 2 高的关系
类别. 因此, 在自训练框架下, 若无视阈值, 直接选取最高概率对应的类别作为标签 (硬标注模式), 则将引入 3 个错
误数据. 若设定较高的概率阈值来筛选可靠数据 (比如 0.9), 则这 3 个句子都会被弃用. 显然上述两种方法都无法
利用这类数据. 但在本文基于概率累加的部分标注模式下, 图 7 中所示例子都会被添加到模糊数据集中, 对应标签
则是满足条件的前几个关系类别组成的候选标签集合, 而剩余关系类别则均被认为是负标签. 最终, 基于负向训练
针对自训练方法在低资源关系抽取任务中无法充分利用大量低置信度数据的问题, 本文提出一种有效利用低
方法可以充分利用这 3 个句子中的负标签信息来训练关系抽取系统.
per:city_of_birth
出生城市 0.55
[Mrs Gude] e1 was born in Baltimore and grew up in
[Rockville] e2 , Md.
[Mrs Gude] e1 出生在巴尔的摩, 在马里兰州的 [Rockville] e2 长大. per:city_of_residence
居住城市 0.39
org:country _of _branch 0.51
机构所在国家
A statement carried by [Pyongyang] e2 ’s official [Korean
Central News Agency] e1 that ... org:city_of branch 0.30
[Pyongyang] e2 官方的 [Korean Central News Agency] e1 发表的 机构所在城市
一份声明说...
org:member of
机构隶属于 0.12
per:employee_of 0.47
就职于
Last year MIT [Professor] e2 [Richard Lindzen] e1 published
an amazing expose in the Wall Street Journal editorial Page. per:title
去年, 麻省理工学院 [Professor] e2 [Richard Lindzen] e1 在 头衔 0.33
《华尔街日报》的社论版上发表一篇惊人的揭露文章.
per:school_attended
就读学校 0.15
图 7 模糊数据样例
6 总 结
置信度数据的方法来改进自训练. 该方法首先基于大语言模型的复述生成能力扩充未标注数据的表达多样性, 进
而提出基于复述增强的预测方法来加强可靠数据的筛选能力. 其次, 针对大量难以利用的低置信度数据, 提出基于
概率累加的部分标注方法将其转化为可利用的模糊数据, 进而提出基于负标签集合的负向训练方法, 使用模糊数
据训练关系抽取系统. 最终, 关系抽取系统的训练融合了可靠数据和模糊数据. 在两个关系抽取任务上的实验结果
表明, 本文方法能够有效解决自训练方法在低资源场景下教师模型泛化能力差和低置信度数据利用率低的问题,
并最终提升关系抽取系统的性能.