Page 307 - 《软件学报》2025年第12期

P. 307

5688 软件学报 2025 年第 36 卷第 12 期

4 相关工作

准确性是重要的知识图谱质量维度, 正确率是评估准确性的重要指标 [28–31] . 知识图谱准确性相关方法分为
5 类, 包括随机抽样检测、规则辅助抽样、外部数据验证、图依赖关系验证、嵌入模型衍生方法. 本节围绕图 1
中知识图谱准确性评估流程各环节的实现, 对相关方法的代表性工作进行了调研分析.
4.1 随机抽样检测
随机抽样检测法主要包括简单随机抽样方法、多阶段加权抽样方法等.
简单随机抽样检测方法将知识图谱视作三元组集合, 基于人工核验判断三元组正误. 根据抽样检测的理论分
析, 采用有放回随机抽样时, 最终评估的置信区间只与样本大小以及样本的标注结果相关, 不受知识图谱整体三元
组数量的影响, 证明了抽样检测方法对于大规模知识图谱的可行性.
多阶段加权抽样方法 [26] 针对知识图谱准确性评估问题提出将三元组按照头实体分组后、按照分组三元组数
量作为权重进行抽样检测, 避免了多次重复识别头部实体, 进而优化了以人工核验标注作为判断依据时样本评估
的效率. 该工作首次从人工标注三元组用时的角度定义了高效准确性评估任务的优化目标, 并比较了大量抽样方
法在统计学意义上理论要求的最低样本数量, 说明了 TWCS 理论上的高效. 除 TWCS 方法及其误差分析外, 该工
作同时优化了知识图谱内容动态增加情况下的增量抽样检测方法.
4.2 规则辅助抽样
规则辅助下的抽样法主要包括 KGEval 方法、人工-机器协同工作方法等.
KGEval 方法: Ojha 等人 [5] 提出 KGEval 方法, 以人工核验、外部规则 (该方法中采用实体类型约束、形如
(h 1 ,r 1 ,t 1 )∧(t 1 ,r 2 ,t 2 ) → (h 1 ,r 3 ,t 2 ) 的霍尔语句) 以及已有的标注结果为判断依据, 利用三元组之间可能存在的依赖关
系, 减少人工标注的数量. KGEval 针对整体知识图谱进行三元组正误判断, 在单个三元组判断过程中, 若已标注三
元组结果满足外部规则中的推理前提, 则该规则的推理结果即可证明另一三元组的正误, 从而减少额外的人工标
注数量, 因此验证阶段三元组选择的顺序为方法整体效率的重要影响因素. KGEval 利用启发式规则进行待标注三
元组的选取, 降低了人工标注的数量.
人工-机器协同工作方法: Qi 等人 [32] 综合 TWCS、KGEval 两种方法的优势, 提出利用基于最优化问题的人工-
机器协同工作方法. 方法以人工核验及外部规则作为判断语句, 以存在推理关系的三元组分为一组, 以分组中三元
组数量进行加权采样; 在匹配验证阶段, 该方法利用蒙特卡洛算法进行搜索, 选择下一步人工标注的三元组, 从而
尽可能先标注外部规则的推理前提中的三元组, 推理出更多的未标注三元组, 减少人工标注的数量.
4.3 外部数据验证
外部数据验证下的准确性评估法主要包括 TAA 方法、ProVe 方法等.
TAA 方法: Liu 等人 [8] 提出利用其他的知识图谱与当前待评测知识图谱之间实体的 SameAs 链接, 完成其他
知识图谱到当前知识图谱的验证. 该方法以其他若干知识图谱作为判断依据, 在匹配验证阶段将当前三元组中的
头尾实体通过 SameAs 链接找到其他知识图谱当中的对应实体, 并利用字符串匹配程度衡量其他知识图谱中三元
组与当前待验证三元组的一致程度; 分类阶段, 通过人工预设阈值, 将上阶段中多个外部知识图谱的匹配程度进行
综合, 在匹配数量满足阈值要求时, 判断三元组为正确三元组.
ProVe 方法 [33] : 该方法以网络信息作为判断依据进行事实验证, 在匹配验证阶段, 以三元组为关键词搜索获取
对应网页, 并基于字符串匹配策略衡量该网页是否支持待验证三元组; 在分类阶段, 通过预设阈值, 筛选得到足够
网页数量支持的三元组为正确三元组.
4.4 图依赖关系验证
图依赖关系验证法, 即利用知识图谱规则等条件进行验证. Fan 等人 [34,35] 通过对一般的属性依赖增加其所需
要满足的子图结构, 将一般知识库中各列属性的依赖关系迁移至知识图谱结构上, 从而进行规则发现、矛盾发现.
该方法以三元组实体关系、属性值等方面的依赖关系作为判断依据 (在实验中该依赖关系源于对知识图谱内部三

302 303 304 305 306 307 308 309 310 311 312