Page 298 - 《软件学报》2025年第12期
P. 298

张明韬 等: 基于嵌入模型的知识图谱准确性评估                                                         5679


                 处沿用了相关文献       [10] 中的命名) 满足:

                                                      (                      )
                                                                                                      (5)
                                                     λ
                                           λ opt = argmax |Score T ⩾ λ| ineq +|Score F < λ| ineq
                                                              {s ∈ S |s OPT λ} 的元素个数. 在未给定具体标签的情况
                      |S OPT λ| ineq   表示   S  集合中满足不等式的元素个数, 即
                                                                                   {            }
                 下, 阈值选择问题相对具有挑战性, 本文采用负采样策略生成负例集                  S Neg , 满足   Score Neg = Func θ (t),t ∈ S Neg  与   Score F
                 数值分布上相似, 则     λ opt  也可根据新生成的错误三元组评分集合进行选择:

                                               (                                    )
                                     λ opt ≈ argmax |Score T ⩾ λ| ineq +|Score F < λ| ineq +|Score Neg < λ| ineq
                                              λ
                                               (                               )
                                       = argmax |Score T ⩾ λ| ineq +|(Score F ∪Score Neg ) < λ|       (6)
                                              λ                              ineq
                    由于  Score G = Score T ∪Score F , 则近似  λ opt  有:

                                         (                                                )
                               λ opt ≈ argmax |Score G ⩾ λ| ineq −|Score F ⩾ λ| ineq +|Score F < λ| ineq +|Score Neg < λ| ineq
                                        λ
                                         (                                      )
                                 = argmax |Score G ⩾ λ| ineq +|Score Neg < λ|  −2×|Score F ⩾ λ| ineq  (7)
                                        λ                      ineq
                    由于   |Score F ⩾ λ| ineq ⩽ |G F |, 在  |G F | 占较小比例时, 模型评分的相对大小关系反映了三元组的合理性, 进一步降
                 低了  |Score F ⩾ λ| ineq   的数量, 因此忽略该部分以近似  λ opt , 记作动态阈值  :
                                                                       λ 1

                                                   (                       )
                                         λ 1 := argmax |Score G ⩾ λ| ineq +|Score Neg < λ|  ≈ λ opt   (8)
                                                  λ                      ineq

                    可见,    S Neg  过大会导致  |Score G ⩾ λ| ineq +|Score Neg < λ| ineq  中  λ 1  更容易受到  Score Neg  集合的支配, 反之同理, 实验

                 设定  |S Neg | = |G|, 降低集合大小对阈值选择的影响.
                                                               h(λ) = |Score G ⩾ λ| ineq +|Score Neg < λ| ineq , 根据公式  (7) 和
                    (3) 修正阈值: 根据定义可见     λ opt  与   λ 1  之间大小关系: 定义
                 公式  (8), 有  |Score G ⩾ λ| ineq +|Score Neg < λ| ineq −2×|Score F ⩾ λ| ineq = h(λ)−2×|Score F ⩾ λ| ineq  , 由于已知  |Score F ⩾ λ| ineq
                                       (8) 取得极值时, 公式                      λ 1 ⩽ λ opt , 证明当前近似方法相对真实的
                 随  λ 增加而递减, 因此当公式                      (7) 中函数仍在上升, 故
                 最优阈值存在一定偏差, 忽略了         |Score F ⩾ λ| ineq  的影响.
                    值得注意的,    λ 1 ⩽ λ opt  仅为理论分析的结果, 在特殊情况下, 稀疏的知识图谱          (关系或实体的数量较多, 整体三
                 元组数量较少的知识图谱) 在嵌入模型训练时易过拟合错误三元组, 导致计算动态阈值中同分布假设有误, 该大小
                 关系自然不成立. 而当符合假设要求时, 可利用             λ 1  与   λ opt  的关系对  |Score F ⩾ λ 1 | ineq   进一步近似, 从而对  λ 1  进行优化.
                                                                           ,
                    具体而言, 由于    λ 1 ⩽ λ opt , 本文假设  Score F1 = {s ∈ Score G , s < λ 1 } ⊂ Score F Score F  近似于正态分布. 利用最大似
                 然法算法最大化      Score F  的似然概率, 可近似补全    Score F1  中大于等于  λ 1  的部分. 但采用最大似然法估算高斯分布
                                                          ,
                 的参数时有    µ gauss = Mean(Score F ), σ gauss = Std(Score F ) µ gauss , σ gauss  为分布的参数,  Mean, Std  代表集合的平均值与
                                                                     µ gauss  存在偏差, 因此本文将分数平均划分为若
                 标准差. 由于   Score F1  为  Score F  中相对更小的一部分, 其平均值近似
                 干区间, 将  µ gauss  设置为含有最多集合元素的区间的中点. 通过          Score F  的预测高斯分布可计算修正后的错误三元组
                                                                    λ
                                                                     ′
                 数量, 进而计算修正后的三元组正误判断阈值. 记              λ 1  调整后阈值为  , 即修正阈值, 相对于      λ 1  运用了更强的假设进
                                                                     1
                 行修正.
                                                                                              λ
                                                                                               ′
                    本文将在后续知识图谱准确性评估实验中分析对比                  λ 0  (即上述固定阈值),   (即上述动态阈值),   (即上述修
                                                                             λ 1
                                                                                               1
                 正阈值) 三者性能.
                  2.3   三元组重要性定义
                    由于目前缺少三元组重要性相关工作, 本文主要借鉴了实体重要性衡量的模式与定义. 实体重要性可通过实
                 体被访问概率直观反映, 由于开源知识图谱中一般缺少访问的历史记录信息, GENI 方法                         [19] 将三元组中的实体/关
                 系映射到互联网网页, 利用网页被访问频率构建真实重要性度量. PageRank                    分数基于拓扑结构进行随机游走, 衡
                 量节点的重要性, PPR (personalized PageRank) [20] 允许用户自定义节点游走权重, 增强灵活度. HAR           [21] 在  PR 和
                 PPR  基础上扩展, 利用图拓扑结构以及自定义输入的同时, 区分知识图谱中的不同关系. GENI                        [19] 同时考虑图的拓
                 扑结构以及对于每个实体而言不同谓词的作用, 利用深度学习对标准集进行拟合.
                    借鉴实体重要性的度量要素可从以下两个方面定义三元组重要性: 一是网络结构信息, 由于相邻实体彼此交
                 互, 并且它们倾向于共享共同特征, 因此受关注的实体, 其相邻的实体、关系也倾向被关注; 二是关系语义信息, 知
   293   294   295   296   297   298   299   300   301   302   303