Page 301 - 《软件学报》2025年第12期

P. 301

5682 软件学报 2025 年第 36 卷第 12 期

伦敦
英国首都

首都巴黎
法国
首都

图 4 数据集错误样例构造示意图

3.2 实验环境设置
由于嵌入模型的内存占用一般随知识图谱实体、关系数量线性增长, 本文提供了模型运行的条件要求: 由于
训练所用时间或内存至少随着知识图谱大小线性增长, 因此本文设定 GPU 内存限制大小为 4 GB, 时间限制为 5 h.
在嵌入模型的实现以及超参数设定上, 本文对 OpenKE [22] 中的实现进行一定修改, 利用原有的超参数设定 (按
第 2.1 节框架中讨论, 训练轮次降低为原 1/10), 对于 KGTtm , CKRL [16] , CAGED [23] , KGClean [24] 等未在 OpenKE
[9]
库中实现的方法, 本文根据文章描述进行了方法整合以实现对比. 其余模型的定义可参见相关综述 [18] 以及已有实
验 [25] .
根据问题定义, 知识图谱准确性评估存在如下指标 ( ERR 和 ACC 的定义与前文相同, 为主要参考指标).
● ERR 代表最终评估的误差情况, 反映评估结果的优劣, 计算公式为:

ERR = |µ w (G)− ˆµ w (G)| abs (9)
其中, |· | abs 表示计算数值的绝对值.
● ACC 代表标签正确率, 即在输出三元组标签中, 与事实一致的标签的占比 (本文使用 µ w (G), ˆµ w (G) 表示知识
图谱真实的正确率和评估所得正确率, 此处 ACC 表示输出正误标签中, 与事实一致的标签比例 (即被正确判断的
三元组比例), 请注意三者的含义以及符号表示), 反映 f ˆ (t) := Label λ ◦ Func θ (t) 的优劣, 计算公式如下:

{ } /

ˆ (10)
ACC = t ∈ S 2 (G) : f (t) = f (t) |S 2 (G)| w
w
∑
其中, |· | w 代表结合 w 权重计算集合大小, 即 |S | w = w(t).
t∈S
● ROC-AUC 代表评分对于正确和错误三元组评分的区分程度, 直接反映 Func θ 的优劣. 它的定义为 ROC 曲
线 (receiver operating characteristic curve, 受试者工作特征曲线) 下的面积, 曲线表示了评分模型分类结果随阈值选
择的变化, 指标可被解释为:

1 ( )
ROC-AUC =Pr(Func θ (t 1 ) > Func θ (t 0 )|t 1 ∈ G T ,t 0 ∈ G F )+ Pr Func θ (t 1 ) = Func θ (t 0 )|t 1 ∈ G T ,t 0 ∈ G F (11)
2
其中, Func θ 代表嵌入模型, G T , G F 分别代表正确的三元组集和错误的三元组集.
● COST 代表评估所用的成本, 包括时间成本、人工投入、计算资源等, 记为 COST. 其中时间成本用评估所
用时间表示, 计算资源用评估所需要的内存等表示, 该指标反映了评估方法在多个角度的评估成本, 进而限制了评
估方法对于一定规模的知识图谱是否可用.
整体上, 本文实验既包括对于评估框架可行性的探讨, 又包括对不同条件下嵌入模型、数据集之间的对比, 同
时包括结合重要性的准确性评估, 与其他补全任务/错误识别任务的实验相比, 有以下特点.
(1) 实验针对知识图谱准确性评估问题, 评估误差是评估方法的重要指标, 而其他任务中一般以排序中前 K 位
的命中比例 (Hits@K) 为指标.
(2) 嵌入学习过程中在知识图谱训练集增加错误, 并针对常见知识图谱情况设计了相对极端的错误比例.
(3) 知识图谱准确性评估任务要求针对整体知识图谱进行评估, 考虑到知识图谱规模以及人工评估所需时间
成本, 本文在训练中增加了额外的评估时间限制.
(4) 本文将多个嵌入模型应用于三阶段框架中, 对嵌入模型各阶段的评估结果、针对准确性评估问题的适配

296 297 298 299 300 301 302 303 304 305 306