Page 239 - 《软件学报》2025年第12期
P. 239
5620 软件学报 2025 年第 36 卷第 12 期
● 人物分布地址补全
华谱系统中特色模块下的家谱人物分布功能, 旨在寻找任意家谱人物在地图板块的位置分布情况 (https://
www.zhonghuapu.com/index.php/datamgr/tozhuigensuyuan), 根据家谱名称、家谱 ID 以及祖先姓名搜索家谱信息,
包括字辈、住址等. 有些人物的地址、来源不详. 该模块使用知识图谱中邻居节点信息之间语义相似性特征, 对缺
失的人物分布地址进行补全, 如父亲地址和孩子地址或配偶地址具有一定的相似性, 用父亲地址补全孩子地址或
配偶地址, 或者配偶地址补全丈夫/妻子地址、爷爷地址补全孙子/女地址. 同时, 通过字辈信息溯源对应家谱, 对个
体人物和家谱之间建立联系, 帮助个体人物认祖归宗.
● 超点融合 [134] 补全
华谱系统中碎片化人物信息的来源不同, 可能存在错误或信息不全. 超点模块使用 KGC 技术中的智能融合技
术对稀疏碎片化的人物信息补全. 对人物属性向量化, 通过向量间的相似度对不同来源的同名人物信息进行融合
(如图 5 所示管理员权限进入华谱可查看融合效果), 对缺失属性的人物进行补全, 从而得到信息更加完备、内容
更加精确的人物信息.
图 5 华谱系统超点碎片化信息融合展示
8 知识图谱补全技术未来可能的研究方向
● 复杂关系处理研究: 已有的模型对实体和关系的处理多数是单一的向量化, 仅依赖嵌入式向量的简单运算
去表示实体对象之间各种语义关系, 虽然降低了模型训练的复杂度, 但复杂关系处理不够充分, 导致现有模型在复
杂关系处理方面能力受限.
● 语义信息有效获取: 传统多数 KGC 模型是线性变换的, 表现力不强, 同时也难以保证有效获取不同元素之
间的交互信息, 因此需要非线性的处理方式, 神经网络弥补了该缺憾. ConvE 使用传统的卷积模型, 仅对三元组向
量化拼接成新的张量, 因而对 KG 的实体关系特征语义信息获取不够充分连贯, 进而影响表现力.
● 可扩展性通用性: 现实世界中数据是纷繁复杂的, KG 中各种问题挑战可能同时出现. 经典的 KGC 模型或
多或少都存在着一定的不足, 单一的模型只能在某个方面表现较强, 将多种单一的基模型通过一定的集成策略有
效集成在一起, 形成功能强大的集成模型, 可以弥补单一模型的不足, 以提高 KGC 模型的可扩展性通用性.
● 可解释性问题: 大模型在零样本和少样本 KGC 中表现出较好的性能, 但大模型类似于黑匣子, 对捕获和获
取事实知识缺乏一定的可解释性. 虽然用思维链来解释 LLM 的预测, 也时常存在幻觉问题.
● 大模型和传统 KGC 技术结合: LLM 因其涌现能力和泛化能力, 在自然语言处理和人工智能领域取得了很

