Page 193 - 《软件学报》2025年第12期
P. 193

5574                                                      软件学报  2025  年第  36  卷第  12  期


                 文获取  [15] 实现准确的知识推理. 上述问题导致目前的           RAG  框架难以利用完备的推理逻辑对家谱知识进行全面检
                 索, 进而难以充分收集目标信息用于提示             LLM  回答问题.
                    ● 信息筛选精准性挑战: 在家谱知识问答中, 同名人物                (找人/属性) 和多关系路径       (找人物关联) 问题尤为常
                 见, 这使得  RAG  框架必须从众多的候选检索结果中筛选出最优信息. 现有的                   RAG  框架大多使用重排序技术         [16] 筛
                 选候选信息, 但当用户意图不明确或候选信息量过大时, 该方法的排序效率和质量都会被限制, 进而无法精准地筛
                 选出合适的提示信息来启发          LLM  生成答案.
                    为了应对上述挑战, 本文提出一种基于知识图谱推理的大模型家谱问答系统——华谱通. 具体而言, 为了实现
                 家谱知识推理逻辑的完备性, 本文将知识图谱作为家谱数据的存储载体, 并构建以                          Jena 框架为核心的知识图谱推
                 理机. 在此基础上, 通过专业化定制的          Jena 推理规则, 保证系统在家谱知识推理方面的完备性. 相较于在数据库端
                 开发复杂的查询脚本, 在       Jena 推理机中定义的推理规则具有语义清晰、逻辑完备和扩展便利的优势. 此外, 为应
                 对同名人物和多关系路径场景下出现家谱知识推理结果冗余的问题, 本文提出一种基于问题-条件三元组抽取的
                 多条件匹配机制和基于大根堆的            Dijkstra 路径排序法, 以便系统从大量的候选结果中精准筛选有效的提示信息,
                 协助  LLM  准确地回答问题.
                    本文的贡献点如下.
                    1) 提出一种基于     Jena 框架的家谱知识图谱推理机制, 通过专业化定制的推理规则, 完善系统在复杂家谱问答
                 场景中的知识推理逻辑完备性, 从而保障推理结果的完整性.
                    2) 针对冗余的推理结果, 提出一种基于多条件匹配和路径排序的信息筛选机制, 这有助于系统根据用户意图
                 为  LLM  提供准确的家谱信息, 以此协助        LLM  问答.
                    3) 开发了“华谱通”系统 (https://www.zhonghuapu.com/index.php/datamgr/huaputong), 并将其成功部署到公开
                 的中华谱网站, 并用现实世界的家谱数据验证了华谱通在家谱问答领域的有效性.
                  1   相关工作

                    本节将首先从大语言模型和           RAG  框架的发展现状入手, 介绍当前基于知识检索增强的                 LLM  问答技术路线.
                 之后, 通过分析当前的家谱知识研究现状, 指出现有               RAG  框架在家谱知识检索方面的局限性, 进而说明华谱通的
                 技术先进性.
                  1.1   大型语言模型发展现状
                    近年来, 自   Transformer 框架  [17] 被提出之后, 大量高效的自然语言处理      (natural language processing, NLP) 模型
                 被提出, 其中尤以大型语言模型 (LLM)         [18] 最令人瞩目. 总体而言, LLM   通常指具有十亿量级参数的大型           NLP  模型,
                 它们在海量数据上进行预训练, 并被大量研究与实践证明了理解和生成文本的能力, 进而推动了各种自然语言处
                 理研究的进展, 如文本分类        [19] 、人机协同  [20] 和信息检索  [21] . 一般而言, 现有的  LLM  大多可以根据模型架构被划分
                 为  3  大类: 编码器模型、解码器模型和编码-解码器模型.
                    以  BERT (bidirectional encoder representations from Transformers) [22] 系列为代表的编码器语言模型通过将输入
                 的文本编码到高维空间来处理文本信息. 这类大模型在预训练时通常采用基于掩码学习的自编码操作, 对关键特
                 性进行双向编码处理, 这意味着它们在编码时可以同时考虑每个词缀的上下文信息, 进而使模型更好地理解每个
                 词语在上下文中的含义, 这对于情感分析            [23] 、实体匹配  [24] 和完形填空  [25] 等自然语言理解任务至关重要.
                    与编码器语言模型相比, 基于解码器的语言模型仅依赖上文的信息实现对下文内容的生成与补全, 即以自回
                 归的方式从左到右地生成文本. 因此, 基于解码器的               LLM 适合于有条件的生成式自然语言任务, 例如聊天对话                 [26] 、
                 自动化文章撰写      [27] 、图文交互  [28] 等. 由于具有强大的文本生成能力, 诸如       ChatGPT [29] 、InstructGPT [30] 和  PaLM [31]
                 等基于解码器的大语言模型如今已经被广泛地应用于各大智能问答系统中, 以便实现更加灵活的人机互动.
                    基于编码-解码器的       LLM  吸收了前两类方法的优点, 在文本理解和生成上都有较好的表现, 例如                      T5 (text-to-
                 text transfer Transformer) [32] 系列的编码-解码  LLM  能够将各种  NLP  任务转换为文本生成问题. 具体而言, T5    中的
   188   189   190   191   192   193   194   195   196   197   198