Page 298 - 《软件学报》2025年第12期
P. 298
张明韬 等: 基于嵌入模型的知识图谱准确性评估 5679
处沿用了相关文献 [10] 中的命名) 满足:
( )
(5)
λ
λ opt = argmax |Score T ⩾ λ| ineq +|Score F < λ| ineq
{s ∈ S |s OPT λ} 的元素个数. 在未给定具体标签的情况
|S OPT λ| ineq 表示 S 集合中满足不等式的元素个数, 即
{ }
下, 阈值选择问题相对具有挑战性, 本文采用负采样策略生成负例集 S Neg , 满足 Score Neg = Func θ (t),t ∈ S Neg 与 Score F
数值分布上相似, 则 λ opt 也可根据新生成的错误三元组评分集合进行选择:
( )
λ opt ≈ argmax |Score T ⩾ λ| ineq +|Score F < λ| ineq +|Score Neg < λ| ineq
λ
( )
= argmax |Score T ⩾ λ| ineq +|(Score F ∪Score Neg ) < λ| (6)
λ ineq
由于 Score G = Score T ∪Score F , 则近似 λ opt 有:
( )
λ opt ≈ argmax |Score G ⩾ λ| ineq −|Score F ⩾ λ| ineq +|Score F < λ| ineq +|Score Neg < λ| ineq
λ
( )
= argmax |Score G ⩾ λ| ineq +|Score Neg < λ| −2×|Score F ⩾ λ| ineq (7)
λ ineq
由于 |Score F ⩾ λ| ineq ⩽ |G F |, 在 |G F | 占较小比例时, 模型评分的相对大小关系反映了三元组的合理性, 进一步降
低了 |Score F ⩾ λ| ineq 的数量, 因此忽略该部分以近似 λ opt , 记作动态阈值 :
λ 1
( )
λ 1 := argmax |Score G ⩾ λ| ineq +|Score Neg < λ| ≈ λ opt (8)
λ ineq
可见, S Neg 过大会导致 |Score G ⩾ λ| ineq +|Score Neg < λ| ineq 中 λ 1 更容易受到 Score Neg 集合的支配, 反之同理, 实验
设定 |S Neg | = |G|, 降低集合大小对阈值选择的影响.
h(λ) = |Score G ⩾ λ| ineq +|Score Neg < λ| ineq , 根据公式 (7) 和
(3) 修正阈值: 根据定义可见 λ opt 与 λ 1 之间大小关系: 定义
公式 (8), 有 |Score G ⩾ λ| ineq +|Score Neg < λ| ineq −2×|Score F ⩾ λ| ineq = h(λ)−2×|Score F ⩾ λ| ineq , 由于已知 |Score F ⩾ λ| ineq
(8) 取得极值时, 公式 λ 1 ⩽ λ opt , 证明当前近似方法相对真实的
随 λ 增加而递减, 因此当公式 (7) 中函数仍在上升, 故
最优阈值存在一定偏差, 忽略了 |Score F ⩾ λ| ineq 的影响.
值得注意的, λ 1 ⩽ λ opt 仅为理论分析的结果, 在特殊情况下, 稀疏的知识图谱 (关系或实体的数量较多, 整体三
元组数量较少的知识图谱) 在嵌入模型训练时易过拟合错误三元组, 导致计算动态阈值中同分布假设有误, 该大小
关系自然不成立. 而当符合假设要求时, 可利用 λ 1 与 λ opt 的关系对 |Score F ⩾ λ 1 | ineq 进一步近似, 从而对 λ 1 进行优化.
,
具体而言, 由于 λ 1 ⩽ λ opt , 本文假设 Score F1 = {s ∈ Score G , s < λ 1 } ⊂ Score F Score F 近似于正态分布. 利用最大似
然法算法最大化 Score F 的似然概率, 可近似补全 Score F1 中大于等于 λ 1 的部分. 但采用最大似然法估算高斯分布
,
的参数时有 µ gauss = Mean(Score F ), σ gauss = Std(Score F ) µ gauss , σ gauss 为分布的参数, Mean, Std 代表集合的平均值与
µ gauss 存在偏差, 因此本文将分数平均划分为若
标准差. 由于 Score F1 为 Score F 中相对更小的一部分, 其平均值近似
干区间, 将 µ gauss 设置为含有最多集合元素的区间的中点. 通过 Score F 的预测高斯分布可计算修正后的错误三元组
λ
′
数量, 进而计算修正后的三元组正误判断阈值. 记 λ 1 调整后阈值为 , 即修正阈值, 相对于 λ 1 运用了更强的假设进
1
行修正.
λ
′
本文将在后续知识图谱准确性评估实验中分析对比 λ 0 (即上述固定阈值), (即上述动态阈值), (即上述修
λ 1
1
正阈值) 三者性能.
2.3 三元组重要性定义
由于目前缺少三元组重要性相关工作, 本文主要借鉴了实体重要性衡量的模式与定义. 实体重要性可通过实
体被访问概率直观反映, 由于开源知识图谱中一般缺少访问的历史记录信息, GENI 方法 [19] 将三元组中的实体/关
系映射到互联网网页, 利用网页被访问频率构建真实重要性度量. PageRank 分数基于拓扑结构进行随机游走, 衡
量节点的重要性, PPR (personalized PageRank) [20] 允许用户自定义节点游走权重, 增强灵活度. HAR [21] 在 PR 和
PPR 基础上扩展, 利用图拓扑结构以及自定义输入的同时, 区分知识图谱中的不同关系. GENI [19] 同时考虑图的拓
扑结构以及对于每个实体而言不同谓词的作用, 利用深度学习对标准集进行拟合.
借鉴实体重要性的度量要素可从以下两个方面定义三元组重要性: 一是网络结构信息, 由于相邻实体彼此交
互, 并且它们倾向于共享共同特征, 因此受关注的实体, 其相邻的实体、关系也倾向被关注; 二是关系语义信息, 知

