Page 301 - 《软件学报》2025年第12期
P. 301

5682                                                      软件学报  2025  年第  36  卷第  12  期




                                                               伦敦
                                                    英国    首都

                                                          首都   巴黎
                                                    法国
                                                          首都


                                               图 4 数据集错误样例构造示意图

                  3.2   实验环境设置
                    由于嵌入模型的内存占用一般随知识图谱实体、关系数量线性增长, 本文提供了模型运行的条件要求: 由于
                 训练所用时间或内存至少随着知识图谱大小线性增长, 因此本文设定                      GPU  内存限制大小为     4 GB, 时间限制为    5 h.
                    在嵌入模型的实现以及超参数设定上, 本文对               OpenKE [22] 中的实现进行一定修改, 利用原有的超参数设定            (按
                 第  2.1  节框架中讨论, 训练轮次降低为原        1/10), 对于  KGTtm , CKRL [16] , CAGED [23] , KGClean [24] 等未在  OpenKE
                                                                [9]
                 库中实现的方法, 本文根据文章描述进行了方法整合以实现对比. 其余模型的定义可参见相关综述                               [18] 以及已有实
                 验  [25] .
                    根据问题定义, 知识图谱准确性评估存在如下指标                (  ERR 和  ACC  的定义与前文相同, 为主要参考指标).
                    ●  ERR 代表最终评估的误差情况, 反映评估结果的优劣, 计算公式为:

                                                   ERR = |µ w (G)− ˆµ w (G)| abs                      (9)
                 其中,   |· | abs  表示计算数值的绝对值.
                    ●  ACC 代表标签正确率, 即在输出三元组标签中, 与事实一致的标签的占比                    (本文使用   µ w (G), ˆµ w (G) 表示知识
                 图谱真实的正确率和评估所得正确率, 此处              ACC  表示输出正误标签中, 与事实一致的标签比例              (即被正确判断的
                 三元组比例), 请注意三者的含义以及符号表示), 反映              f ˆ (t) := Label λ ◦ Func θ (t) 的优劣, 计算公式如下:

                                                    {              }  /

                                                            ˆ                                      (10)
                                             ACC =  t ∈ S 2 (G) : f (t) = f (t)  |S 2 (G)| w
                                                                     w
                                                        ∑
                 其中,   |· | w   代表结合   w 权重计算集合大小, 即  |S | w =  w(t).
                                                          t∈S
                    ●  ROC-AUC 代表评分对于正确和错误三元组评分的区分程度, 直接反映                    Func θ  的优劣. 它的定义为  ROC  曲
                 线  (receiver operating characteristic curve, 受试者工作特征曲线) 下的面积, 曲线表示了评分模型分类结果随阈值选
                 择的变化, 指标可被解释为:

                                                                 1   (                          )
                        ROC-AUC =Pr(Func θ (t 1 ) > Func θ (t 0 )|t 1 ∈ G T ,t 0 ∈ G F )+ Pr Func θ (t 1 ) = Func θ (t 0 )|t 1 ∈ G T ,t 0 ∈ G F  (11)
                                                                 2
                 其中,  Func θ  代表嵌入模型,  G T , G F  分别代表正确的三元组集和错误的三元组集.
                    ●  COST 代表评估所用的成本, 包括时间成本、人工投入、计算资源等, 记为                    COST. 其中时间成本用评估所
                 用时间表示, 计算资源用评估所需要的内存等表示, 该指标反映了评估方法在多个角度的评估成本, 进而限制了评
                 估方法对于一定规模的知识图谱是否可用.
                    整体上, 本文实验既包括对于评估框架可行性的探讨, 又包括对不同条件下嵌入模型、数据集之间的对比, 同
                 时包括结合重要性的准确性评估, 与其他补全任务/错误识别任务的实验相比, 有以下特点.
                    (1) 实验针对知识图谱准确性评估问题, 评估误差是评估方法的重要指标, 而其他任务中一般以排序中前                               K  位
                 的命中比例    (Hits@K) 为指标.
                    (2) 嵌入学习过程中在知识图谱训练集增加错误, 并针对常见知识图谱情况设计了相对极端的错误比例.
                    (3) 知识图谱准确性评估任务要求针对整体知识图谱进行评估, 考虑到知识图谱规模以及人工评估所需时间
                 成本, 本文在训练中增加了额外的评估时间限制.
                    (4) 本文将多个嵌入模型应用于三阶段框架中, 对嵌入模型各阶段的评估结果、针对准确性评估问题的适配
   296   297   298   299   300   301   302   303   304   305   306