Page 219 - 《软件学报》2025年第12期

P. 219

5600 软件学报 2025 年第 36 卷第 12 期

number of samples used: zero-shot KGC, few-shot KGC, and multi-shot KGC. To investigate and provide a first-hand reference for the
core concepts and current status of KGC research, this study offers a comprehensive review of the latest research advancements in KGC
from theoretical research, experimental analysis, and practical applications, such as the Huapu system. The problems and challenges faced
by the current KGC technologies are summarized, and potential research directions for the future are discussed.
Key words: knowledge graph (KG); knowledge graph completion (KGC); large language model (LLM); Huapu system

知识图谱 (knowledge graph, KG) 自首次被谷歌提出以来, 很多领域都能见其活跃的身影, 如智能问答 [2–5] 、
[1]
自动推荐 [6,7] 和实体对齐 [8,9] 等. KG 是一种有向的语义信息网络, 包含实体、概念以及实体对象间的各种语义关系.
伴随着人工智能 (AI) 的快速发展, KG 的作用日益凸显, 逐渐成为 AI 发展的重要驱动力量. KG 是将客观世界的
实体对象及其相互之间的关系以结构化的形式进行展现, 模仿人类认识世界的方式, 提高了人们对海量、多源、
异构数据信息的组织管理、理解和访问能力.
尽管 KG 在现代科学和工程领域扮演的角色越来越重要, 但是由于构建算法及演变复杂特征. 现有的 KG 质
量仍然不够完美, 影响下游任务的效果, 如在不完整的 KG 上执行知识问答任务, 则很难得到准确的答案. 另外,
KG 中有数以亿级的节点和边, 单纯依靠人工检索所有的事实元组去完善 KG, 则需要投入大量的人力和时间成
本, 且效果不一定明显. 因而, 人们寄希望于一种能够自动识别和预测事实三元组的技术来改善 KG 的质量. 知识
图谱补全 (knowledge graph completion, KGC) [10–12] 由此应运而生, 其目的是通过各种智能算法检索识别事实三元
组, 对缺失的信息 (如: 头实体或尾实体或关系) 进行预测完善, 从而以较低的人力成本来实现 KG 质量的改善, 进
而提高下游任务的效果, 如知识问答的准确性. KGC 技术是知识发现和获取的重要应用, 目前主要途径是将整个
KG, 包括实体及其相互关系, 映射到低维的连续向量空间中 (知识图谱嵌入或表示学习), 简化操作的同时保留 KG
固有结构, 然后对低维嵌入式实体和关系进行预测, 通过评分函数来表征其在该空间中的合理性, 以提高 KG 的质
量, 使其内容更加丰富、信息更加完备.
近年来, 尽管研究者们提出了大量的 KGC 模型, 但是目前多数仍然是通过 KG 中观察到的事实进行嵌入式学
习, 再执行补全操作. 具体地说, 给定一个不完整的 KG, 首先对 KG 的实体和关系进行嵌入式学习得到相应的嵌
入式向量, 且给每个三元组设计一个评分函数衡量其在相应空间中的合理性. 由于整个过程学习的嵌入式仅在每
个单独的事实中兼容, 因此对下游任务的预测性不够强 [13] . 为此, 越来越多的学者也开始探索进一步使用 KG 以外
的其他辅助信息, 如关系路径、逻辑规则、邻居信息等来学习更多的预测嵌入信息.
本文第 1 节介绍相关调研与一些符号定义. 第 2 节形式化定义了 KGC 及本文对已有 KGC 模型分类的规则.
第 3–5 节主要从基于零样本知识图谱补全、少样本知识图谱补全以及多样本知识图谱补全 3 个方面对已有的
KGC 模型进行了全面的综述, 包括模型优缺点以及适应性进行了探讨. 第 6 节通过实验比较分析当前 KGC 模型
的性能, 并梳理现有 KGC 模型的不足和所面临的挑战. 第 7 节介绍 KGC 技术的一些典型应用, 包括一般应用和
华谱系统中的具体实现. 第 8 节对 KGC 未来可能的研究方向进行了探讨. 最后, 第 9 节对全文工作进行总结.

1 相关调研与符号定义

1.1 相关调研
有关 KGC 综述性文章主要包括知识图谱嵌入 [14,15] , 知识图谱补全 [9,16–18] , 中文知识图谱构建 [19] 以及知识表示
学习 [20,21] 等方面. Wang 等人 [14] 总结了 2012–2016 年间的 KGC 模型, 根据输入数据 (仅包括事实或辅助信息) 对
KGE (knowledge graph embedding) 模型进行粗略分组, 但该工作不是对 KGC 模型的具体概述, 而是作为 KGE 下
游任务的补充. Rossi 等人 [15] 只总结了 16 个基于嵌入的 KGC 的链接预测方法. 然而, 该项工作未提及 KGC 的其
他任务. Shen 等人 [16] 对多样本 KGC 模型进行了综述, 但内容未涉及零样本和少样本 KGC 相关模型及具体应用.
Gesese 等人 [22] 对 KGC 模型做了简单总结, 该工作主要集中在与文字信息相关的 KGE 技术, 其文字信息包括文本
描述、图像或其组合. 杜雪盈等人 [17] 、吴国栋等人 [18] 、Chen 等人 [23] 和 Zamini 等人 [24] 总结了已有的 KGC 模型,
但只关注多样本 KGC 模型中的图结构有关的方法, 忽视了其他辅助信息的作用, 更没提到零样本和少样本 KGC

214 215 216 217 218 219 220 221 222 223 224