Page 239 - 《软件学报》2025年第12期
P. 239

5620                                                      软件学报  2025  年第  36  卷第  12  期


                    ● 人物分布地址补全
                    华谱系统中特色模块下的家谱人物分布功能, 旨在寻找任意家谱人物在地图板块的位置分布情况 (https://
                 www.zhonghuapu.com/index.php/datamgr/tozhuigensuyuan), 根据家谱名称、家谱  ID  以及祖先姓名搜索家谱信息,
                 包括字辈、住址等. 有些人物的地址、来源不详. 该模块使用知识图谱中邻居节点信息之间语义相似性特征, 对缺
                 失的人物分布地址进行补全, 如父亲地址和孩子地址或配偶地址具有一定的相似性, 用父亲地址补全孩子地址或
                 配偶地址, 或者配偶地址补全丈夫/妻子地址、爷爷地址补全孙子/女地址. 同时, 通过字辈信息溯源对应家谱, 对个
                 体人物和家谱之间建立联系, 帮助个体人物认祖归宗.
                    ● 超点融合   [134] 补全
                    华谱系统中碎片化人物信息的来源不同, 可能存在错误或信息不全. 超点模块使用                          KGC  技术中的智能融合技
                 术对稀疏碎片化的人物信息补全. 对人物属性向量化, 通过向量间的相似度对不同来源的同名人物信息进行融合
                 (如图  5  所示管理员权限进入华谱可查看融合效果), 对缺失属性的人物进行补全, 从而得到信息更加完备、内容
                 更加精确的人物信息.
























                                             图 5 华谱系统超点碎片化信息融合展示

                  8   知识图谱补全技术未来可能的研究方向

                    ● 复杂关系处理研究: 已有的模型对实体和关系的处理多数是单一的向量化, 仅依赖嵌入式向量的简单运算
                 去表示实体对象之间各种语义关系, 虽然降低了模型训练的复杂度, 但复杂关系处理不够充分, 导致现有模型在复
                 杂关系处理方面能力受限.
                    ● 语义信息有效获取: 传统多数         KGC  模型是线性变换的, 表现力不强, 同时也难以保证有效获取不同元素之
                 间的交互信息, 因此需要非线性的处理方式, 神经网络弥补了该缺憾. ConvE                    使用传统的卷积模型, 仅对三元组向
                 量化拼接成新的张量, 因而对         KG  的实体关系特征语义信息获取不够充分连贯, 进而影响表现力.
                    ● 可扩展性通用性: 现实世界中数据是纷繁复杂的, KG                中各种问题挑战可能同时出现. 经典的            KGC  模型或
                 多或少都存在着一定的不足, 单一的模型只能在某个方面表现较强, 将多种单一的基模型通过一定的集成策略有
                 效集成在一起, 形成功能强大的集成模型, 可以弥补单一模型的不足, 以提高                      KGC  模型的可扩展性通用性.
                    ● 可解释性问题: 大模型在零样本和少样本             KGC  中表现出较好的性能, 但大模型类似于黑匣子, 对捕获和获
                 取事实知识缺乏一定的可解释性. 虽然用思维链来解释                 LLM  的预测, 也时常存在幻觉问题.
                    ● 大模型和传统     KGC  技术结合: LLM   因其涌现能力和泛化能力, 在自然语言处理和人工智能领域取得了很
   234   235   236   237   238   239   240   241   242   243   244