Page 185 - 《软件学报》2025年第4期
P. 185

陈强 等: 融合任务知识的多模态知识图谱补全                                                          1591


                 Key words:  knowledge graph completion (KGC); multimodal; knowledge fusion; multimodal fusion

                    知识图谱, 如    FreeBase 和 [1]  WordNet , 已被广泛应用到人工智能领域中, 包括智能问答        [3] 、信息抽取  [4] 、推荐
                                                [2]
                 系统  [5] 等, 因而其重要性不言而喻. 众所周知, 知识图谱中结构化的知识通常表示为事实三元组                        (头实体、 关系、
                 尾实体). 但是, 现存的知识图谱通常是稀疏的, 并且大多数是不完整的                    (两个实体之间缺少对应的关系). 因此, 在
                 知识图谱研究领域, 知识图谱补全           (knowledge graph completion, KGC) 是一项非常重要的工作. KGC  任务是利用
                 现有知识图谱中的事实三元组, 将实体和关系的表示映射到低维向量表示空间中, 通过实体向量和关系向量来评
                 估每个预测出的三元组的合理性.
                    然而, 以往大部分的研究        [6−8] 都专注于使用知识图谱的结构信息进行建模, 通过知识图谱中的有效事实三元组
                 来不断更新随机初始化的实体向量和关系向量. 实际上, 这些方法都忽视了知识图谱中与实体相关的语义信息, 例
                 如实体对应的文本描述和图像信息. 如图              1  所示, 单纯地通过已有的三元组信息很难判断实体“Joe Biden”和
                 “Donald John Trump”之间的关系, 但是根据图片中两者类似的背景、年龄、装扮, 以及文本描述中重复的相关词
                 汇“46th”“45th”“president of the United States”, 我们可以很容易预测出两者存在“竞争”关系. 受此启发, 我们可以利
                 络的多模态融合过滤模块, 保留与任务相关的多模态特征信息.
                 用图像和描述信息来建模实体的多模态向量表示, 从而进一步提升多模态知识图谱补全的完整度和正确度.

                                            实体: Joe Biden
                                            描述: an American politician who is the 46th
                                                       president of the United States.


                                                          竞争




                                            实体: Donald John Trump
                                            描述: a businessman who served as the 45th
                                                      president of the United States.
                                                 图 1 实体的多模态信息表示

                    虽然已有一些研究       [9−11] 开始考虑将文本模态信息或者图像模态信息应用到知识图谱补全任务中, 但是他们依
                 然存在一些缺陷. 一方面, 这些方法在预抽取文本和图像特征的过程中使用的是两个通用且独立的文本和图像编
                 码器. 在预抽取特征过程中, 通用的特征编码器无法自动适应知识图谱补全任务的特征特点, 并且无法很好地综合
                 多模态特征, 进而导致各模态之间的特征无法根据任务进行动态调整. 另一方面, 由于知识图谱中实体的数量很
                 大, 在匹配相关图片的过程中, 很容易引入过多不相关信息, 造成辅助知识图谱补全的信息质量下降, 也影响到知
                 识图谱补全任务的发展.
                    因此, 为了解决上述挑战, 本文提出了一种融合任务知识的多模态知识图谱补全方法. 具体而言, 首先本文使
                 用一个基于多模态知识图谱补全            (multimodal knowledge graph completion, MMKGC) 任务的多模态编码器来获取
                 实体的文本向量表示和图像向量表示. 通过这种方式, 与知识图谱补全任务相关的信息已经被融合进文本和图像
                 的向量表示中. 其次为了进一步增强结构向量、文本向量和图像向量的表征能力, 本文使用一个基于循环神经网


                    在此基础上, 为了更好地使用图卷积网络             [12] 来聚合邻居节点和边的信息, 本文使用多种不引入额外参数的聚
                 合算子来聚合邻居节点和边, 从而将异构图网络转换为同构图网络, 简化图网络结构. 接着使用图卷积算法更新节
                 点的多模态融合向量表示, 从而将知识图谱三元组之间的结构信息融入到实体的向量表示当中.
                    实验结果表明, 本文提出的融合任务知识的多模态知识图谱补全方法在性能上要显著优于最先进的基线方
                 法, 包括一些基于结构特征的知识图谱补全方法和一些最新的基于多模态特征的知识图谱补全方法. 其中, 在指
   180   181   182   183   184   185   186   187   188   189   190