Page 226 - 《软件学报》2025年第4期
P. 226
1632 软件学报 2025 年第 36 卷第 4 期
5 000 2 000
基准 基准
3 750 复述增强 1 500 复述增强
句子数 2 500 句子数 1 000
1 250 500
0 0
1 5 9 13 17 21 25 29 33 1 3 5 7 9 11 13 15 17
正标签集中的类别数 正标签集中的类别数
(a) Re-TACRED (b) SemEval
图 5 自动标注数据分布情况
5.3 样例分析
图 6 展示了 Re-TACRED 中 3 个典型复述增强预测的例子, 其中每个例子包括一个原句和一个复述句子. 左
ᄝ০ପᇜ۬սغ֥ࡅᇏಀൗ
侧展示原始英文句和对应中文翻译, 并以“[] e1 ”和“[] e2 ”标识出头、尾实体词, 右侧则是教师模型预测原句和复述句
分别为正确关系类别的概率. 第 1 个例子中原句与复述句的主要不同在于, “was in business from”被替换为“was
established in”. 相比于前者, 后者显示地表达“公司被建立”的含义, 因此, 教师模型将其预测为正确关系“成立日期”
的概率从 37% 提升至 92%. 在第 2 个例子中, 原句中的头尾实体相距甚远, 且使用了后置定语“his youngest
daughter”的形式来表达头尾实体间的关系; 复述句中头尾实体紧密相连且使用简单结构“Mona Kempfer, Herry’s
youngest daughter”来体现两实体之间的关系. 因此, 教师模型预测其为“子女关系”的概率从 40% 提升至 93%. 第 3
个例子是句式结构的变化, 将用于表达出生含义的“was born in”短语直接连接头尾实体, 使得预测其为“出生城市”
的概率从 41% 提升至 94%. 最终, 若设定概率阈值为 0.9, 则 3 个句子受益于其复述句子的预测结果, 都能够被选
为可靠数据.
Her firm, [Pamela Martin & Associates] e1 , was in business from [1993] e2 until last year. 0.37
她的公司 [Pamela Martin & Associates] e1 从 [1993] e2 年开始营业, 直到去年.
复 org: founded
述 成立日期
[Pamela Martin & Associates] e1 , a renowned consulting firm, was established in
[1993] e2 and operated until the present. 0.92
[Pamela Martin & Associates] e1 是一家著名咨询公司, 成立于 [1993] e2 年, 一直经营至今.
[Herrera] e1 died Monday of age-related causes at his home in Glendale, Ariz., said
[Mona Kempfer] e2 , his youngest daughter . 0.40
周一, [Herrera] e1 在亚利桑那州格伦代尔的家中因年龄原因去世. 他最小的女儿
[Mona Kempfer] e2 说.
复 per: children
述 子女关系
[Mona Kempfer] e2 , [Herrera] e1 ’s youngest daughter, announced on Monday that her
father passed away due to age-related causes at his home in Glendale, Arizona. 0.93
Чᇛ၂, [Herrera] e1 ቋཬ֥୯ظ [Mona Kempfer] e2 ࿆҃, ෲ֥ڳၹ୍ਭჰၹ
Born in 1950 in the northeastern city of [Basel] e2 , [Ospel] e1 left school at 15. 0.41
出生于东北部城市 [Basel] e1 , [Ospel] e1 15 岁时离开学校.
per: city_of_
复
述 birth
In 1950, [Ospel] e1 was born in [Basel] e2 , the northeastern city. At 15, he left school. 出生城市
0.94
1950 年, [Ospel] e1 是出生于东北部城市 [Basel] e2 . 15 岁时, 他离开了学校.
图 6 复述增强预测样例