Page 309 - 《软件学报》2025年第12期
P. 309

5690                                                      软件学报  2025  年第  36  卷第  12  期


                 元组正误判断中匹配验证、分类两阶段进行对比. 此处“+”数量仅反映了某一成本在各方法之间定性估计的相对
                 大小, 因此不代表实际比例, 同时标注时间成本与计算成本之间存在数量级的差距, 无法直接对比.

                                                 表 8 不同方法评估效率对比

                                                  匹配验证阶段                             分类阶段
                        方法类型
                                          标注时间成本          计算时间成本           标注时间成本          计算时间成本
                      I. 随机抽样检测              +++              +                -                +
                      II. 规则辅助抽样              ++              ++               -                +
                      III. 外部数据验证             -               ++               +                +
                     IV. 图依赖关系验证              -               +++              +                +
                    V. 嵌入模型衍生方法               -               +++              ++               +

                    根据表   8, 规则辅助抽样的方法相对于随机抽样检测利用额外的计算机计算以降低人工标注时间成本; 外部
                 数据验证方法在分类阶段需要人工设定正确三元组需满足的匹配比例, 因此存在较少的标注时间成本与计算时间
                 成本; 基于图依赖关系验证的方法与嵌入模型衍生方法均需要对知识图谱整体三元组进行信息挖掘, 因此拥有更
                 高的计算时间成本; 现有嵌入模型衍生的方法在分类阶段需要更多人工标注, 因此其标注时间成本更高. 一般情况
                 下, 人工评估时间成本相对于计算时间成本影响更大, 嵌入模型衍生方法需借助少量人工标注完成分类阶段, 使得
                 标注时间成本成为嵌入模型衍生方法评估效率上的瓶颈.
                    最后比较各类方法灵活性如表            9  所示. 整体上, 方法的灵活性取决于其是否能够简单地迁移到另一个知识图
                 谱、另一个领域, 不需要额外进行调整, 针对方法在验证阶段、分类阶段是否需要额外人工核验、是否需要特定
                 领域信息、是否需要人工调整参数进行衡量, 以对比方法灵活性.

                                                    表 9 方法灵活性对比

                                              匹配验证阶段                               分类阶段
                     方法类型         需要人工核验/ 需要特定额外领 需要额外人工设             需要人工核验/ 需要特定额外领 需要额外人工设
                                     标注         域信息         定参数          标注         域信息         定参数
                   I. 随机抽样检测          √           √           -           -           -           -
                   II. 规则辅助抽样         √           √           -           -           -           -
                   III. 外部数据验证        -           √           √           -           -           √
                  IV. 图依赖关系验证         -           -           √           -           -           √
                 V. 嵌入模型衍生方法          -           -           -           √           -           -

                    随机抽样检测、规则辅助抽样的方法在验证阶段需要人工标注以及部分规则, 因此对于新的知识图谱或领域
                 需要重新获取领域信息与人工标注, 灵活性较差; 外部数据验证方法在验证阶段需要用于匹配的外部领域信息, 并
                 在匹配验证、分类阶段根据外部信息的数量修改匹配策略, 其灵活性也有一定损失; 图依赖关系验证方法与之类
                 似, 在匹配验证阶段调整图依赖关系挖掘中的参数, 在分类阶段需要根据依赖关系数量调整分类阈值; 嵌入模型衍
                 生方法基于知识图谱内部信息进行建模, 验证阶段不需要人工标注或特定领域信息, 但在分类阶段, 为将三元组按
                 照嵌入模型评分进行分类, 需要进行额外人工标注以确定分类阈值, 存在一定灵活性损失.
                    整体上看, 基于嵌入模型的方法满足自动化的要求, 平衡了各个维度的性能, 本文将其作为匹配验证的主体,
                 然而现有具体方法在分类阶段均要求人工标注信息, 成为其评估过程中的一大瓶颈, 对相关工作的分析说明了本
                 文阈值选择策略在嵌入模型衍生方法中分类阶段的重要性.
                  5   总 结

                    目前的知识图谱正确率定义往往仅考虑了正确三元组的比例, 忽略了不同三元组的重要程度对知识图谱整体
                 使用的影响, 本文结合三元组重要性, 提供更为丰富的知识图谱质量信息评估策略, 但任务要求的提高需要高效而
                 自动化的评估策略. 考虑到当前评估方法大多基于人工, 结合三元组重要性时评估低效的问题进一步凸显, 本文提
   304   305   306   307   308   309   310   311   312   313   314