Page 294 - 《软件学报》2025年第12期

P. 294

张明韬等: 基于嵌入模型的知识图谱准确性评估 5675

搜索引擎基于 Freebase 数据增强搜索. 随着对海量、时变信息高效分析处理需求的日益凸显, 知识图谱自动化构
[4]
建技术成为一个重要的研究方向. 相比于人工构建, 自动化构建技术可大幅提升知识图谱的规模、效率和时效性,
但也面临着严重的质量问题. 原始网络文本抽取产生的三元组集合可信程度往往较低, 例如 NELL 数据集在迭代
抽取网络信息进行扩充的过程中, 整体正确率一度降至 71%, 其中 25% 的类型实体相关的抽取正确率低至 60%
以下 (见 NELL 官网, http://rtw.ml.cmu.edu/rtw/overview). 表 1 显示了几种典型的知识图谱错误. 其中, 下划线部分
是对错误三元组修正的部分.

表 1 知识图谱质量问题示意

序号错误三元组来源数据集正确三元组
(Gene Stupnitsky, Awards on Ceremony, Writers Guild of
(Gene Stupnitsky, Awards on Ceremony, FB15K-237
1 America Awards 2007), 或 (Gene Stupnitsky, Nomination on
Writers Guild of America Awards 2006) (Freebase)
Ceremony, Writers Guild of America Awards 2006)
2 (Dimitri Marick, has Child, Erica Kane) YAGO (Dimitri Marick, is Married To, Erica Kane)
(Washington, is Taller than, two million NELL-995 (two million people, Enrolled in, Health Insurance Plans), 及
3
people) (NELL) (Washington, Report in News, Information about Insurance Plans)

(1) 三元组结构错误: 实体混淆了相似的实体或关系导致错误链接, 例如表 1 中的错误 1, 根据 IMDb (https://
www.imdb.com/name/nm1969144/awards/), Gene 赢得 2007 年美国作家协会奖, 在 2006 年典礼上仅获得提名, 可能
[5]
的错误原因是混淆了 2006 年典礼与 2007 年典礼, 或混淆了“获奖”与“提名”两类关系. 错误 2 在 KGEval 提供的
YAGO 样本数据 (见文献 [5] 附件 https://aclanthology.org/D17-1183/) 中被人工标注为错误三元组, 头尾实体人物
事实上为婚姻关系, 可能的错误原因是文本描述中以整个家庭为单位, 信息整合时混淆了“结婚”与“子女”两类关系.
(2) 三元组语义错误: 由于语句解析和理解错误导致提取的三元组语义错误, 例如表 1 中错误 3, 根据相关文
献 [6] 的追溯, 此三元组来源于新闻稿: “WASHINGTON, Dec 31 (Reuters)—Over two million people have enrolled
in health insurance plans”, 模板将“Over”识别为关系词, 错误理解语句导致出现完全无含义的信息
知识图谱质量严重影响下游任务的可信性, 错误信息可能导致存在歧义的推理或搜索结果. 准确性评估可为
知识图谱选择、取信、优化提供定量和定性的依据, 是一项具有重要意义和挑战性的任务. 评估过程通常包括样
本三元组选取、样本正确率评估和知识图谱准确性评估这 3 个环节, 采样阶段抽取一定数量三元组样本, 以其正
确率代表知识图谱整体的准确性, 样本评估阶段将样本与人工标注判断、其他可信知识库等信息进行匹配, 将匹
配结果按照一定标准划分为正确/错误三元组, 统计样本正确率, 最终以样本正确率度量知识图谱整体准确性. 整
体流程如图 1 所示, 其中特殊标记的深色区域表示可能需要人工标注或其他可信知识的部分, 可见需要此类信息
的环节集中在样本评估阶段, 成为准确性评估问题的瓶颈.
知识图谱准确性评估现有工作主要存在以下两方面的问题. 一是现有的评估方法严重依赖外部信息, 如人工
标注数据、专家知识、规则等. 例如 DeFacto 或 [7] TAA 验证三元组依赖于互联网文本或其他知识图谱, 基于嵌入
[8]
[9]
模型判断错误的方法中, KGTtm 需要人工标注数据训练分类器, ACTC [10] 等阈值标定方法也需要人工动态标注确
定正误三元组的划分阈值. 二是现有准确性评估方法常以正确三元组比例作为衡量知识图谱准确性的唯一量化指
标, 忽略了三元组在不同领域、关注程度、访问频率上的差异. NELL 系统抽取的初始知识中, 正确率在不同领域
之间存在严重失衡现象, 接近 3/4 实体类型的信息有 90% 以上能够被正确抽取, 而剩余的实体类型该比例仅在
25%–60% (见 NELL 官网: http://rtw.ml.cmu.edu/rtw/overview). 不同领域之间三元组正确比例差别显著, 而在查询
者角度, 三元组的分布与查询同样存在长尾分布的倾向 [11] . 以正确率平均值难以有效反映知识图谱整体的准确率.
针对上述问题, 本文提出采用基于嵌入模型的评估方法, 定义多种阈值选择策略, 并结合了三元组重要性度
量. 嵌入模型在知识图谱补全、错误发现等领域受到广泛应用 [12–18] , 其将三元组实体、谓词嵌入隐式空间, 通过调
整嵌入向量使之与知识图谱对齐. 在验证阶段, 通过嵌入模型对三元组的评分评估三元组与知识图谱的匹配程度,
作为对其合理性表示 [10,17] . 在此基础上构建分类器, 通过阈值设定判断三元组正误. 在阈值设计上, 结合不同嵌入
模型的损失函数, 提出固定阈值、动态阈值、修正阈值这 3 种选择策略, 提升判定的合理性和鲁棒性. 进而依据每

289 290 291 292 293 294 295 296 297 298 299