Page 297 - 《软件学报》2025年第12期
P. 297

5678                                                      软件学报  2025  年第  36  卷第  12  期


                      (           )
                 Sample Filter ξ (G,w(t)) ,Filter ξ  表示满足三元组重要性大于  ξ  的三元组集合,  Sample 为预定义的随机抽样方法, 本
                 文采用简单随机抽样方法. 附录          A  中证明   S 2 (G) 以高概率近似  G 的评估结果, 其评估误差与      Sample 样本的数量相
                 关.   S 1 (G) 为满足  S 1 (G) ⊆ G −S 2 (G) 的三元组集合, 用于进行嵌入模型的训练. 由于  |S 1 (G)| 过大会导致更多计算复
                 杂度, 过小则导致训练信息不足, 本文令           S 1 (G) = G −S 2 (G) 使得训练集最优.


                                               基于嵌入模型的知识图谱准确性评估流程


                                             训练集
                                       选择               θ           三元组
                                 知识           S 1 (G)    嵌入模型        评分       三元组
                                 图谱                                           正误标签     正确率
                                                           Func    {Func θ (t)}  Label λ (s),
                                 G           测试集
                                       选择                           t  S 2 (G)  s  {Func θ (t)}
                                              S 2 (G)


                                                                三元组重要性
                                                                   w(t)

                                          图 3 基于嵌入模型的知识图谱准确性评估框架

                    第  2  阶段进行嵌入模型的训练. 由于正确三元组联系紧密, 更容易被模型表示, 为减少训练集中错误三元组影
                 响, 进行少量轮次训练以保证正确三元组表示的同时, 减少对错误三元组的过拟合, 便于后续在测试集中分离正确
                 三元组与错误三元组. 考虑到更改训练集样本的损失权重可能忽略某些实际正确的三元组, 本文未采用通过调整
                 某些样本的损失权重       [16] 等缓解三元组错误影响的方法.
                    第  3  阶段,  Label λ  将输入评分转化为三元组正误标签, 其形式为在阈值           λ 发生突变的跳跃函数, 本文假定正确
                 三元组评分大于错误三元组          (由于此处只涉及三元组评分的相对大小关系, 可通过取相反数使得三元组评分满足
                 统一形式, 此处借鉴相关文献         [18] 的形式化), 则:

                                                             {
                                                              0, s < λ
                                                    Label λ (s) =                                     (4)
                                                              1, s ⩾ λ
                  2.2   三元组正误判断阈值优化
                    阈值  λ 的选择是自动化评估中最具挑战之处, 现有方法往往需人工标注数据构建分类器, 本文借助嵌入模型
                 的定义以及负采样策略下的优化策略, 提出              3  种不同阈值选择策略以实现自动化评估.
                                                                    λ 0 λ 0 := 0. 对于基于乘法的嵌入模型, 知 识图
                    (1) 固定阈值: 对于基于乘法的嵌入模型, 定义固定阈值, 记为  ,
                 谱中的关系被表示为双线性函数            (将该线性函数表示为矩阵         M r  , 则嵌入函数即为   h M r t), 模型评分  h M r t  可解释
                                                                                               T
                                                                                 T

                                                      (  T  )    T   ⟨  T  ⟩
                 为头实体与关系表示与尾实体向量之间的内积                 M h,t = M h|t|cos M h,t , 该解释中评分的正负反映了向量的
                                                                        r
                                                               r
                                                        r
                 同向/反向, 因而存在可解释的固定阈值           λ 0 := 0. 对于其他类型的嵌入模型该阈值并不适用.
                                                                                                    λ (记
                    (2) 动态阈值: 正确、错误三元组数量未知时, 由于利用已有信息无法直接表示                       ERR, 能使   ERR 最小的
                 为  argmin ERR) 难以直接作为最优化目标. 由附录        B  中证明,   ERR 的上界为  ACC (定义为   f  与   f ˆ  判断相同的比例
                        λ
                                  }  /
                  {

                         ˆ                                                           ACC  的最优阈值, 记为
                  t ∈ S 2 (G) : f (t) = f (t)  |S 2 (G)| w , 其中   |· | w   表示按权重   w 计算加权和) 控制, 本文通过近似
                                   w
                                                                                              ,
                 λ opt = argmax ACC  实现阈值选择. 形式上, 由于知识图谱    G 中存在一定比例错误, 因此有         G = G T ∪G F G T , G F  代表
                           λ
                 正确/错误的三元组集合, 令        Score T = {Func θ (t), t ∈ G T }, Score F = {Func θ (t), t ∈ G F }, 则  Score G = {Func θ (t), t ∈ G} =
                 Score T ∪Score F .
                                                                 λ opt  (实验中可通过  GlobalOpt [17] 等方式进行标定,
                    若采用均匀加权       w u  (其他加权同理), 则选择的最优阈值
                 GlobalOpt 即为根据所有三元组的标注结果, 在一系列阈值中根据某指标                   (原文选择   ACC) 选择统一最优阈值, 此
   292   293   294   295   296   297   298   299   300   301   302