Page 304 - 《软件学报》2025年第12期
P. 304
张明韬 等: 基于嵌入模型的知识图谱准确性评估 5685
ACC opt , 图 ACC 1 , ERR 1 指标 (图 4(c), (d)).
(记作 4(b)), 平均基于动态阈值 λ 1 的
整体而言, 如图 5 所示, 各个指标相对于知识图谱真实正确率呈现明显的分层现象. 通过图 4 数据整体分析可
见, 基于平移的模型与 CKRL 等相对于基于乘法的方法存在优势, 例如其 ROC-AUC 指标相对其余模型提升 8%.
在相关实验 [22,25] 中, 最为简单的 TransE 相对其他模型性能也具有竞争力, 本文中, TransE 性能与 TransH, TransD
接近, 这与现有其他工作的实验结果可能存在不同. 整体上模型建模能力与其实验性能的关系分析如下.
TransE
0.85 TransE
CAGED 0.80 TransH
CAGED 0.85 TransH
0.75
0.70 0.75
CKRL 0.65 TransD 0.65 TransD
0.60 CKRL
0.55
RotatE SimplE
RotatE SimplE
DistMult ComplEx
DistMult ComplEx
(a) ROC-AUC (b) ACC opt
TransE TransE
0.25
0.85
CAGED TransH CAGED 0.20 TransH
0.75 0.15
0.01
0.65
CKRL TransD CKRL 0.05 TransD
0.55 0
RotatE SimplE RotatE SimplE
DistMult ComplEx DistMult ComplEx
(c) ACC 1 (d) ERR 1
60% 80% 90%
图 5 不同模型评估性能对比
1) 模型能否建模 1-N、N-N 关系不会显著影响模型性能, 与知识图谱补全问题、错误发现问题不同 (例如补
全中常采用的指标 Hits@K 等, 侧重于排序后分数排名更靠前的部分三元组是否正确判断), 准确性评估任务不关
注三元组评分的相对大小关系, 在三元组正误判断中允许 1-N 关系对应的多个三元组都满足设定阈值条件, 一定
程度上降低了对建模此类关系的需求.
2) 模型能否建模关系的传递性可能显著地影响了模型的判断是否合理, 直观上看, 利用嵌入模型进行三元组
正误判断即为衡量头尾实体之间路径所代表的多种关系的复合是否与当下询问的三元组中关系相匹配, 基于平移
思想的模型大多满足该条件, 而基于乘法的方法中的 ComplEx 等模型不能建模关系传递性, 可能导致判断时出现
更多的错误. 本文认为这导致了基于乘法的嵌入模型评估 ACC 指标较低.
3) 为了防止对称关系的干扰, 本文采用的 FB15K-237 数据集等有意识地去除了此类三元组, 可能导致难以建
模对称关系的嵌入模型 (如 TransE) 评估性能高于其他知识图谱中的表现, 但由于实际情况中对称关系容易通过
规则识别, 而增加对称关系则可能导致模型指标不合理的提升 [25] , 因此本文认为该简化是合理的.
在模型评估误差能力之外, 不同嵌入模型涉及运算不同在评估过程中所用时间存在区别, 图 6 展示了在
FB15K-237 上不同模型的运行时间以及人工评估 200 个三元组大致所用时间 [26] . 可见, 此规模下大部分模型所用
时间低于人工评估所用时间, 考虑不同 w, 人工方法所需样本规模会进一步扩大. 但 CKRL, KGTtm 等应用图结构
特征的模型往往因为预处理计算量大、采用 CPU 等原因, 耗时多于人工评测用时. 尽管目前其他大部分嵌入模型
自动化处理方法评估效率优于人工用时, 但知识图谱规模增大导致批处理的数据数量至少线性增大, 对于大规模

