Page 296 - 《软件学报》2025年第12期
P. 296
张明韬 等: 基于嵌入模型的知识图谱准确性评估 5677
样的方法需要成倍提升其样本所需规模以保证评估结果在不同权重下仍然形成无偏近似, 进一步降低了评估效率.
对于准确性评估问题, 记方法判断三元组 t 的结果为 f ˆ (t) ∈ {0,1}, 则知识图谱正确率估计值如下, 可见此时评
估误差主要受到 f ˆ 的影响.
(∑ )/ ∑
f
ˆ µ w (G) = w(t) ˆ (t) w(t) (3)
t∈G t∈G
本文目标为通过 ˆ µ w (G) 近似 µ w (G), 即最小化 ERR := |ˆµ w (G)−µ w (G) | abs , 其中, |· | abs 表示取绝对值.
图 2 给出了知识图谱准确性评估示例, 共 5 个三元组中存在一个虚线边, 代表该信息存在错误, 整体正确率为
4/5 = 80% . 若用户搜索 e2 相关的信息时, (e3,r3,e4) 的正误并不重要, 此时用户访问的正确率结果为 3/4=75%; 若
用户在该图上进行随机游走, 从某一实体访问其相邻实体, 则过程中访问 e2 的可能性高于其余实体, 包含 e2 的三
元组其重要性同样高于其他三元组, 该示例说明结合重要性进行准确性评估的重要性.
e1
r1
e2 r4 e4
r2 r3
e3
r5
e5
图 2 知识图谱示例
2 基于嵌入模型的评估方法
本文应用嵌入模型进行自动化的知识图谱准确评估. 嵌入模型整体可表示为函数 Func θ : E ×R×E → K, Func θ
( )
Func
(s, p,o) = [ e s ,e p ,e o .
实体嵌入层: EntEmbed θ : E → K , 关系嵌入层: RelEmbed θ : R → K . 嵌入层将实体 s, o 或关系 p 分别映射成
d 2
d 1
d 2
为向量 e s , e o ∈ K d 1 或 e p ∈ K .
[ : K ×K ×K → R, 作用于嵌入层输出向量, 其结果衡量该三元组是否可能成立, 记为该三
嵌入函数: Func d 1 d 2 d 1
元组评分. 该函数既可以基于建模方式定义为简单的向量运算结果 (例如 TransE 模型 [12] 、ComplEx 模型 [13] ), 也
可以基于参数的反向传播习得 (例如 ConvE 模型 [14] ).
嵌入模型根据其建模方式可分为基于平移的嵌入模型 (例如 TransE 模型 [12] , 其嵌入函数形如向量之间的距
离), 基于乘法的嵌入模型 (例如 ComplEx 模型 [13] , 其嵌入函数形如双线性函数), 以及其他类型模型 (例如定义在
旋转意义下的 RotatE [15] , 增加了其他特征的 CKRL [16] 等).
2.1 基于嵌入模型的准确性评估框架
基于嵌入模型的准确性评估流程如图 3 所示, 整体分为 3 个阶段.
(1) 选择训练集与测试集 S 1 (G) 和 S 2 (G), 其中测试集即为进行准确性评估所用样本.
(2) 选择训练集后, 为减少错误三元组影响, 仅对嵌入模型 Func θ 进行少量轮次训练, 并对测试集中的三元组
Func θ (t), 称其为三元组评分, 作为在无可对照真实数据情况下
进行评估, 嵌入模型分别对三元组返回模型函数值
三元组合理性表示.
(3) 根据三元组评分选择合理阈值 λ, 进而利用标签映射函数 Label λ 将三元组评分转化为正误标签 (即
f ˆ (t) = Label λ (Func θ (t))), 根据定义计算加权平均值.
其中, 第 1 阶段需满足测试集 S 2 (G) 的评估结果与整体知识图谱一致, 因此 S 2 (G) 选择中首先根据 w(t) 选择
三元组中的主要部分, w(t) 即为前文所述的任意某种三元组重要性, 随后采用抽样方式选取样本测试集, 即 S 2 (G) =

