Page 219 - 《软件学报》2025年第12期
P. 219

5600                                                      软件学报  2025  年第  36  卷第  12  期


                 number  of  samples  used:  zero-shot  KGC,  few-shot  KGC,  and  multi-shot  KGC.  To  investigate  and  provide  a  first-hand  reference  for  the
                 core  concepts  and  current  status  of  KGC  research,  this  study  offers  a  comprehensive  review  of  the  latest  research  advancements  in  KGC
                 from  theoretical  research,  experimental  analysis,  and  practical  applications,  such  as  the  Huapu  system.  The  problems  and  challenges  faced
                 by the current KGC technologies are summarized, and potential research directions for the future are discussed.
                 Key words:  knowledge graph (KG); knowledge graph completion (KGC); large language model (LLM); Huapu system

                    知识图谱    (knowledge graph, KG) 自首次被谷歌提出以来, 很多领域都能见其活跃的身影, 如智能问答                   [2–5] 、
                                              [1]
                 自动推荐   [6,7] 和实体对齐  [8,9] 等. KG  是一种有向的语义信息网络, 包含实体、概念以及实体对象间的各种语义关系.
                 伴随着人工智能      (AI) 的快速发展, KG   的作用日益凸显, 逐渐成为        AI 发展的重要驱动力量. KG       是将客观世界的
                 实体对象及其相互之间的关系以结构化的形式进行展现, 模仿人类认识世界的方式, 提高了人们对海量、多源、
                 异构数据信息的组织管理、理解和访问能力.
                    尽管  KG  在现代科学和工程领域扮演的角色越来越重要, 但是由于构建算法及演变复杂特征. 现有的                             KG  质
                 量仍然不够完美, 影响下游任务的效果, 如在不完整的                 KG  上执行知识问答任务, 则很难得到准确的答案. 另外,
                 KG  中有数以亿级的节点和边, 单纯依靠人工检索所有的事实元组去完善                       KG, 则需要投入大量的人力和时间成
                 本, 且效果不一定明显. 因而, 人们寄希望于一种能够自动识别和预测事实三元组的技术来改善                             KG  的质量. 知识
                 图谱补全    (knowledge graph completion, KGC) [10–12] 由此应运而生, 其目的是通过各种智能算法检索识别事实三元
                 组, 对缺失的信息     (如: 头实体或尾实体或关系) 进行预测完善, 从而以较低的人力成本来实现                     KG  质量的改善, 进
                 而提高下游任务的效果, 如知识问答的准确性. KGC               技术是知识发现和获取的重要应用, 目前主要途径是将整个
                 KG, 包括实体及其相互关系, 映射到低维的连续向量空间中                 (知识图谱嵌入或表示学习), 简化操作的同时保留               KG
                 固有结构, 然后对低维嵌入式实体和关系进行预测, 通过评分函数来表征其在该空间中的合理性, 以提高                                KG  的质
                 量, 使其内容更加丰富、信息更加完备.
                    近年来, 尽管研究者们提出了大量的            KGC  模型, 但是目前多数仍然是通过         KG  中观察到的事实进行嵌入式学
                 习, 再执行补全操作. 具体地说, 给定一个不完整的              KG, 首先对  KG  的实体和关系进行嵌入式学习得到相应的嵌
                 入式向量, 且给每个三元组设计一个评分函数衡量其在相应空间中的合理性. 由于整个过程学习的嵌入式仅在每
                 个单独的事实中兼容, 因此对下游任务的预测性不够强                 [13] . 为此, 越来越多的学者也开始探索进一步使用           KG  以外
                 的其他辅助信息, 如关系路径、逻辑规则、邻居信息等来学习更多的预测嵌入信息.
                    本文第   1  节介绍相关调研与一些符号定义. 第          2  节形式化定义了     KGC  及本文对已有     KGC  模型分类的规则.
                 第  3–5  节主要从基于零样本知识图谱补全、少样本知识图谱补全以及多样本知识图谱补全                             3  个方面对已有的
                 KGC  模型进行了全面的综述, 包括模型优缺点以及适应性进行了探讨. 第                    6  节通过实验比较分析当前        KGC  模型
                 的性能, 并梳理现有      KGC  模型的不足和所面临的挑战. 第         7  节介绍  KGC  技术的一些典型应用, 包括一般应用和
                 华谱系统中的具体实现. 第 8 节对 KGC         未来可能的研究方向进行了探讨. 最后, 第 9 节对全文工作进行总结.

                  1   相关调研与符号定义

                  1.1   相关调研
                    有关  KGC  综述性文章主要包括知识图谱嵌入            [14,15] , 知识图谱补全  [9,16–18] , 中文知识图谱构建  [19] 以及知识表示
                 学习  [20,21] 等方面. Wang  等人  [14] 总结了  2012–2016  年间的  KGC  模型, 根据输入数据  (仅包括事实或辅助信息) 对
                 KGE (knowledge graph embedding) 模型进行粗略分组, 但该工作不是对       KGC  模型的具体概述, 而是作为       KGE  下
                 游任务的补充. Rossi 等人    [15] 只总结了  16  个基于嵌入的  KGC  的链接预测方法. 然而, 该项工作未提及           KGC  的其
                 他任务. Shen  等人  [16] 对多样本  KGC  模型进行了综述, 但内容未涉及零样本和少样本             KGC  相关模型及具体应用.
                 Gesese 等人  [22] 对  KGC  模型做了简单总结, 该工作主要集中在与文字信息相关的            KGE  技术, 其文字信息包括文本
                 描述、图像或其组合. 杜雪盈等人          [17] 、吴国栋等人   [18] 、Chen  等人  [23] 和  Zamini 等人  [24] 总结了已有的  KGC  模型,
                 但只关注多样本      KGC  模型中的图结构有关的方法, 忽视了其他辅助信息的作用, 更没提到零样本和少样本                          KGC
   214   215   216   217   218   219   220   221   222   223   224