Page 192 - 《软件学报》2025年第12期
P. 192
吴信东 等: 华谱通: 基于知识推理的家谱问答大语言模型 5573
reasoning within complex genealogy information. To address this issue, Huaputong, a genealogy Q&A system based on LLMs with
knowledge graph reasoning, is proposed. A knowledge graph reasoning framework, suitable for LLM-based genealogy Q&A, is constructed
from two aspects: logic reasoning completeness and information filtering accuracy. In terms of the completeness of logic reasoning,
knowledge graphs are used as the medium for genealogy knowledge, and a comprehensive set of genealogy reasoning rules based on the
Jena framework is proposed to improve the retrieval recall of genealogy knowledge reasoning. For information filtering, scenarios
involving name ambiguity and multiple kinship relations in genealogy are considered. A multi-condition matching mechanism based on
problem-condition triples and a Dijkstra path ranking algorithm using a max heap are designed to filter redundant retrieval information,
thus ensuring accurate prompting for LLMs. Huaputong has been deployed on the Huapu platform, a publicly available intelligent
genealogical website, where its effectiveness has been validated using real-world genealogical data.
Key words: genealogy Q&A; knowledge graph reasoning; large language model (LLM); multi-condition matching; path ranking
一套家谱记载了一个姓氏族群的基本情况、家族起源变迁和家族文化等信息. 家谱与正史、地方志并列为我
国历史研究的 3 大基石 [1] , 是中华文化多样性和延续性的重要依据. 随着互联网的发展, 电子家谱资源不断增多,
为大众了解古往今来的中华家族文化提供了便捷的窗口. 然而, 家谱信息的碎片化往往使得人们难以从中获取所
需的信息. 为了应对上述问题, 现有的研究 [2,3] 以知识图谱 (knowledge graph, KG) 作为家谱信息的管理工具, 并基
[4]
于大数据知识工程 BigKE 框架构建家谱服务系统 (https://www.zhonghuapu.com/), 以便实现智能化的家谱知识处
理与展示.
近年来, 随着计算机算力的爆发式增长, 以 OpenAI、Facebook 和 Google 为首的人工智能科技公司先后发布
[6]
[5]
了 GPT 、LLaMA 和 Gemini 系列大语言模型 (large language model, 下文简称大模型或 LLM), 将生成式人工
[7]
智能的热潮推上了新的高度. 作为在大规模语料库上预训练的大型神经网络, LLM 能够通过 Transformer 架构 [8]
较为充分地捕获文本内容中的上下文信息, 同时拥有强大的人机对话能力. 因此, 相较于基于 KG 检索的家谱信息
查询系统, 面向生成式大模型的家谱知识问答系统在人机交互方面往往更受用户青睐, 具有较高的研究意义和潜
在社会价值.
然而, 由于预训练数据集的内容时效性和语料局限性, LLM 在处理特定领域的知识问答时仍显得力不从心.
以图 1 为例, 未在特定的家谱数据上做微调处理的 LLM 通常难以正确回答用户的问题, 一个常见的情况是生成难
[9]
以理解的错误答案, 或称为“大模型幻觉” . 该缺陷表明在没有额外保障的情况下, 将 LLM 部署在垂直领域是不
切实际的 [10] . 为此, 现有的研究提出了检索增强生成式 (retrieval-augmented generation, RAG) 框架 [11] , 通过从外部
知识库中检索的相关信息, 实现对 LLM 答案生成的提示与约束. 然而, 在大数据环境下, 家谱数据存在 HACE 特
性 [2,12] , 即异构性 (heterogeneity)、自治性 (autonomy)、复杂性 (complexity) 和演化性 (evolution), 该特性导致现有
的 RAG 框架难以实现对家谱知识的全面检索和精准筛选, 这限制了 LLM 在家谱知识问答场景中的表现. 具体而
言, 当前的 RAG 框架在家谱知识检索中面临着推理逻辑完备性和信息筛选精准性两方面的挑战.
图 1 大模型幻觉案例 (孙媳妇不是儿子的妻子)
● 推理逻辑完备性挑战: 由于语义相似度匹配缺乏逻辑性, 基于文档检索的 RAG 框架 [13] 会受到各种家谱格式
(水平、垂直, 甚至树形) 和语义噪声的干扰. 此外, 受限于家族图谱中缺失的关系信息 (家族图谱通常只包含父母
子女关系, 而不存储叔伯、祖先、后代等关系), 基于图推理机制的 RAG 框架很难通过 Text2Query [14] 或节点上下

