Page 220 - 《软件学报》2025年第12期
P. 220
郑修林 等: 知识图谱补全技术及应用 5601
方法及其应用. 彭晏飞等人 [25] 概述了少样本 KGC 模型, 但未涉及零样本和多样本的 KGC 模型及应用, 更没对新
兴技术大模型的补全技术进行探讨. Wang 等人 [26] 和 Cai 等人 [27] 梳理了动态时序 KGC 技术以及应用, 但没有囊括
非时序特征的 KGC 技术及其应用. 也有工作 [28,29] 简单陈述了 KGC 相关的研究, 但既未详细介绍具体的 KGC 技
术, 也未涵盖主要的 KGC 方法. 与上述工作相比, 本文首次根据模型构建过程中所需样本数量对 KGC 模型进行
归类, 并分别从零样本、少样本以及多样本这 3 类 KGC 技术的理论研究、实验分析和具体应用等方面对现有的
KGC 技术进行了全面综述, 并着重介绍了 KGC 技术在现实中的运用和具体实现, 如华谱系统. 同时, 总结了当下
包括大模型在内的 KGC 技术所面临的挑战和未来可能的研究方向.
1.2 符号定义
|E| 种不同
本节定义几种基本符号, 定义任一不完整的知识图谱为 G = (E,R,T), 其中 E = {e 1 ,e 2 ,...,e |E| } 是含有
实体的事实集合; R = {r 1 ,r 2 ,...,r |R| } 是有 |R| 种不同关系的关系集合; 而 T ⊆ E ×R× E 表示事实三元组的集合, 一般
t
t
r
格式为 (h,r,t), 其中 h 和 分别表示头、尾实体, 表示 h 和 间的关系. 例如三元组 (Beijing, CapitalOf, China) 表
示 Beijing 和 China 之间存在关系 CapitalOf. 表 1 列举了一些基本符号及相关描述.
表 1 基本符号及描述
符号 描述 符号 描述
G 任一不完整的知识图谱 (h, r, t) 任一事实三元组
T 事实三元组集合 (h, r, t) 三元组嵌入表示
R 关系集合 E 实体集合
s(h, r, t) 评分函数 L 损失函数
◦ Hadamard乘积 ⊗ Hamilton乘积
2 知识图谱补全概述
2.1 知识图谱补全形式化定义
给定一个不完整的知识图谱 G = (E,R,T) 和知识图谱补全技术支持样本 S r , 其中 |S r | = K 为样本的数量. 对于
∗ ∗ ∗
任一缺失的三元组, 基于评分函数找到一个潜在缺失三元组的候选集 T , 满足 T = {(h,r,t)|h,t ∈ E或E (实体超集),
r ∈ R,(h,r,t) < T}, 其中用评分最高的元组取代缺失的元组对知识图谱进行补全. 当 K 很小时, 称为少样本 KGC
(few-shot knowledge graph completion, FKGC). 在极端情况下, K 为 0, 称为零样本 KGC (zero-shot knowledge graph
K 很大时, 称为多样本 KGC (multiple-shot knowledge graph completion, MKGC). 表 2 总结
completion, ZKGC). 在
了零样本、少样本和多样本 KGC 的特点.
表 2 知识图谱补全总结
KGC类型 优点 缺点 适用场景
训练模型样本数据要求低; 稀疏图谱补全 对实体描述依赖; 复杂关系处理不好; 动态KG有新实体或新关系出现;
零样本KGC
效果较好; 新实体凸现情形 受文本长短噪音影响大; 测试数据匮乏 稀疏、连通性较差的知识图谱
样本数要求少; 训练代价小; 稀疏图补全 邻域噪音干扰; 少样本复杂关系学习较 训练样本不足; 随时间连续变
少样本KGC
效果好 差; 路径稀疏查询困难 化的; 稀疏的知识图谱
训练数据要求较高, 训练代价较大; 不
连通性好的知识图效果好; 学习更加丰富 静态的、连通性好的、语义信
多样本KGC 适应稀疏知识图; 复杂关系处理能力较
的语义和结构信息; 知识表示精度更高 息丰富的知识图谱
弱
2.2 知识图谱补全技术研究
基于关键字“知识图谱补全”“knowledge graph completion”等在 DBLP、Web of Science 等数据库检索筛选了
100 余篇 KGC 相关文献. 根据模型构造所需样本的数量, 本文将已有的 KGC 模型分为零样本 KGC 模型、少样
本 KGC 模型和多样本 KGC 模型. 其中, 零样本 KGC 模型分为基于描述信息以及大模型的模型, 少样本 KGC 模
型分为基于度量学习、元学习、优化学习以及大模型相关模型, 而多样本 KGC 模型分为张量分解、神经网络、Trans

