Page 220 - 《软件学报》2025年第12期
P. 220

郑修林 等: 知识图谱补全技术及应用                                                              5601


                 方法及其应用. 彭晏飞等人        [25] 概述了少样本  KGC  模型, 但未涉及零样本和多样本的           KGC  模型及应用, 更没对新
                 兴技术大模型的补全技术进行探讨. Wang            等人  [26] 和  Cai 等人  [27] 梳理了动态时序  KGC  技术以及应用, 但没有囊括
                 非时序特征的     KGC  技术及其应用. 也有工作       [28,29] 简单陈述了  KGC  相关的研究, 但既未详细介绍具体的         KGC  技
                 术, 也未涵盖主要的      KGC  方法. 与上述工作相比, 本文首次根据模型构建过程中所需样本数量对                      KGC  模型进行
                 归类, 并分别从零样本、少样本以及多样本这               3  类  KGC  技术的理论研究、实验分析和具体应用等方面对现有的
                 KGC  技术进行了全面综述, 并着重介绍了           KGC  技术在现实中的运用和具体实现, 如华谱系统. 同时, 总结了当下
                 包括大模型在内的       KGC  技术所面临的挑战和未来可能的研究方向.
                  1.2   符号定义
                                                                                                 |E| 种不同
                    本节定义几种基本符号, 定义任一不完整的知识图谱为                  G = (E,R,T), 其中   E = {e 1 ,e 2 ,...,e |E| } 是含有
                 实体的事实集合;      R = {r 1 ,r 2 ,...,r |R| } 是有  |R| 种不同关系的关系集合; 而  T ⊆ E ×R× E  表示事实三元组的集合, 一般
                                    t
                                                               t
                                                      r
                 格式为   (h,r,t), 其中  h 和   分别表示头、尾实体,   表示  h 和   间的关系. 例如三元组     (Beijing, CapitalOf, China) 表
                 示  Beijing  和  China 之间存在关系  CapitalOf. 表  1  列举了一些基本符号及相关描述.

                                                    表 1 基本符号及描述

                               符号                 描述                符号               描述
                                G          任一不完整的知识图谱              (h, r, t)     任一事实三元组
                                T             事实三元组集合              (h, r, t)     三元组嵌入表示
                                R               关系集合                 E             实体集合
                              s(h, r, t)        评分函数                 L             损失函数
                                ◦             Hadamard乘积             ⊗           Hamilton乘积
                  2   知识图谱补全概述


                  2.1   知识图谱补全形式化定义
                    给定一个不完整的知识图谱          G = (E,R,T) 和知识图谱补全技术支持样本         S r , 其中  |S r | = K  为样本的数量. 对于
                                                                        ∗      ∗               ∗
                 任一缺失的三元组, 基于评分函数找到一个潜在缺失三元组的候选集                       T , 满足  T = {(h,r,t)|h,t ∈ E或E (实体超集),
                 r ∈ R,(h,r,t) < T}, 其中用评分最高的元组取代缺失的元组对知识图谱进行补全. 当                K  很小时, 称为少样本     KGC
                 (few-shot knowledge graph completion, FKGC). 在极端情况下,  K  为  0, 称为零样本  KGC (zero-shot knowledge graph
                                   K  很大时, 称为多样本    KGC (multiple-shot knowledge graph completion, MKGC). 表  2  总结
                 completion, ZKGC). 在
                 了零样本、少样本和多样本          KGC  的特点.

                                                   表 2 知识图谱补全总结

                  KGC类型               优点                           缺点                     适用场景
                          训练模型样本数据要求低; 稀疏图谱补全 对实体描述依赖; 复杂关系处理不好; 动态KG有新实体或新关系出现;
                 零样本KGC
                          效果较好; 新实体凸现情形                受文本长短噪音影响大; 测试数据匮乏 稀疏、连通性较差的知识图谱
                          样本数要求少; 训练代价小; 稀疏图补全 邻域噪音干扰; 少样本复杂关系学习较 训练样本不足; 随时间连续变
                 少样本KGC
                          效果好                          差; 路径稀疏查询困难                 化的; 稀疏的知识图谱
                                                       训练数据要求较高, 训练代价较大; 不
                          连通性好的知识图效果好; 学习更加丰富                                      静态的、连通性好的、语义信
                 多样本KGC                                适应稀疏知识图; 复杂关系处理能力较
                          的语义和结构信息; 知识表示精度更高                                       息丰富的知识图谱
                                                       弱

                  2.2   知识图谱补全技术研究
                    基于关键字“知识图谱补全”“knowledge graph completion”等在      DBLP、Web of Science 等数据库检索筛选了
                 100  余篇  KGC  相关文献. 根据模型构造所需样本的数量, 本文将已有的               KGC  模型分为零样本      KGC  模型、少样
                 本  KGC  模型和多样本    KGC  模型. 其中, 零样本   KGC  模型分为基于描述信息以及大模型的模型, 少样本                KGC  模
                 型分为基于度量学习、元学习、优化学习以及大模型相关模型, 而多样本                      KGC  模型分为张量分解、神经网络、Trans
   215   216   217   218   219   220   221   222   223   224   225