Page 192 - 《软件学报》2025年第12期
P. 192

吴信东 等: 华谱通: 基于知识推理的家谱问答大语言模型                                                    5573


                 reasoning  within  complex  genealogy  information.  To  address  this  issue,  Huaputong,  a  genealogy  Q&A  system  based  on  LLMs  with
                 knowledge graph reasoning, is proposed. A knowledge graph reasoning framework, suitable for LLM-based genealogy Q&A, is constructed
                 from  two  aspects:  logic  reasoning  completeness  and  information  filtering  accuracy.  In  terms  of  the  completeness  of  logic  reasoning,
                 knowledge  graphs  are  used  as  the  medium  for  genealogy  knowledge,  and  a  comprehensive  set  of  genealogy  reasoning  rules  based  on  the
                 Jena  framework  is  proposed  to  improve  the  retrieval  recall  of  genealogy  knowledge  reasoning.  For  information  filtering,  scenarios
                 involving  name  ambiguity  and  multiple  kinship  relations  in  genealogy  are  considered.  A  multi-condition  matching  mechanism  based  on
                 problem-condition  triples  and  a  Dijkstra  path  ranking  algorithm  using  a  max  heap  are  designed  to  filter  redundant  retrieval  information,
                 thus  ensuring  accurate  prompting  for  LLMs.  Huaputong  has  been  deployed  on  the  Huapu  platform,  a  publicly  available  intelligent
                 genealogical website, where its effectiveness has been validated using real-world genealogical data.
                 Key words:  genealogy Q&A; knowledge graph reasoning; large language model (LLM); multi-condition matching; path ranking

                    一套家谱记载了一个姓氏族群的基本情况、家族起源变迁和家族文化等信息. 家谱与正史、地方志并列为我
                 国历史研究的     3  大基石  [1] , 是中华文化多样性和延续性的重要依据. 随着互联网的发展, 电子家谱资源不断增多,
                 为大众了解古往今来的中华家族文化提供了便捷的窗口. 然而, 家谱信息的碎片化往往使得人们难以从中获取所
                 需的信息. 为了应对上述问题, 现有的研究            [2,3] 以知识图谱  (knowledge graph, KG) 作为家谱信息的管理工具, 并基
                                     [4]
                 于大数据知识工程       BigKE 框架构建家谱服务系统 (https://www.zhonghuapu.com/), 以便实现智能化的家谱知识处
                 理与展示.
                    近年来, 随着计算机算力的爆发式增长, 以             OpenAI、Facebook  和  Google 为首的人工智能科技公司先后发布
                                [6]
                      [5]
                 了  GPT 、LLaMA 和   Gemini 系列大语言模型      (large language model, 下文简称大模型或  LLM), 将生成式人工
                                         [7]
                 智能的热潮推上了新的高度. 作为在大规模语料库上预训练的大型神经网络, LLM                          能够通过   Transformer 架构  [8]
                 较为充分地捕获文本内容中的上下文信息, 同时拥有强大的人机对话能力. 因此, 相较于基于                            KG  检索的家谱信息
                 查询系统, 面向生成式大模型的家谱知识问答系统在人机交互方面往往更受用户青睐, 具有较高的研究意义和潜
                 在社会价值.
                    然而, 由于预训练数据集的内容时效性和语料局限性, LLM                  在处理特定领域的知识问答时仍显得力不从心.
                 以图  1  为例, 未在特定的家谱数据上做微调处理的            LLM  通常难以正确回答用户的问题, 一个常见的情况是生成难
                                                 [9]
                 以理解的错误答案, 或称为“大模型幻觉” . 该缺陷表明在没有额外保障的情况下, 将                        LLM  部署在垂直领域是不
                 切实际的   [10] . 为此, 现有的研究提出了检索增强生成式         (retrieval-augmented generation, RAG) 框架  [11] , 通过从外部
                 知识库中检索的相关信息, 实现对           LLM  答案生成的提示与约束. 然而, 在大数据环境下, 家谱数据存在                 HACE  特
                 性  [2,12] , 即异构性  (heterogeneity)、自治性  (autonomy)、复杂性  (complexity) 和演化性  (evolution), 该特性导致现有
                 的  RAG  框架难以实现对家谱知识的全面检索和精准筛选, 这限制了                  LLM  在家谱知识问答场景中的表现. 具体而
                 言, 当前的  RAG  框架在家谱知识检索中面临着推理逻辑完备性和信息筛选精准性两方面的挑战.












                                          图 1 大模型幻觉案例       (孙媳妇不是儿子的妻子)

                    ● 推理逻辑完备性挑战: 由于语义相似度匹配缺乏逻辑性, 基于文档检索的                      RAG  框架  [13] 会受到各种家谱格式
                 (水平、垂直, 甚至树形) 和语义噪声的干扰. 此外, 受限于家族图谱中缺失的关系信息                        (家族图谱通常只包含父母
                 子女关系, 而不存储叔伯、祖先、后代等关系), 基于图推理机制的                    RAG  框架很难通过    Text2Query [14] 或节点上下
   187   188   189   190   191   192   193   194   195   196   197