Page 194 - 《软件学报》2025年第12期
P. 194
吴信东 等: 华谱通: 基于知识推理的家谱问答大语言模型 5575
编码器处理输入文本序列以捕获其意义, 而解码器则基于所编码的信息生成输出序列. T5 架构非常适合语言翻译 [33]
这类将一个序列转换为另一个序列的任务.
随着近几年国内各大人工智能企业对大模型自主研发热情的提升, 大量国产的优质 LLM 被相继提出. 例如,
由清华大学所提出的 GLM (general language model) [34] 大模型利用自回归技术实现大模型的掩码预训练, 使其拥有
强大的上下文理解能力和文本生成能力, 其商用版本 ChatGLM 已经成为一款备受关注的智能问答系统. 此外, 诸
如阿里巴巴发布的 Qwen [35] 、华为提出的盘古大模型 [36] 和科大讯飞提出的星火大模型 (https://xinghuo.xfyun.cn/)
等, 都为大模型前沿技术在众多领域的落地提供了实际案例.
然而, 尽管当前国内外的 LLM 在日常人机问答中表现出了优异的性能, 但考虑到预训练语料库的局限性, 当
前的 LLM 依旧难以应对特殊领域的问答场景. 因此, 将 LLM 实施任务领域的迁移成为一个极具挑战性的研究方向.
1.2 基于 RAG 的大模型领域迁移研究
为实现大模型在特定领域的落地, 早期的研究基于预训练-微调技术 [37] , 将特定领域的语料以文本或结构化知
识 [38] 的形式注入 LLM 的预训练参数中. 尽管这种方法能够让 LLM 在特定的下游任务中保持良好的问题求解能
力, 但高昂的算力和数据标注成本却限制了 LLM 在特定领域的部署效率. 为了实现高效的 LLM 领域迁移, 研究
者们引入 RAG 框架, 通过问答的方式将外部领域知识库中的信息实时传输给 LLM, 以协助其完成开放域的下游
任务.
检索过程是 RAG 框架的重中之重, 其决定着导入 LLM 的提示信息是否精准有效. 因此, 大量研究对 RAG
的检索过程提出了有建设性的改进方案. 例如, 在检索类型上, 一些稀疏检索方式 [39] 被直接用于 RAG 框架 [40] ,
以提升系统的检索时效性. 但稀疏检索难以匹配问题和外部知识库中语义相关的内容, 因此, 现有的 RAG 框架
大多采用基于语义相似度匹配的密集检索策略, 即利用预训练语言模型首先为问题和知识库做向量化处理, 再
通过向量相似度选择与问题相关度高的知识片段. 然而, 相似度检索却容易因为缺乏逻辑性而造成检索不精准
的问题.
为实现精准的知识检索, 基于知识图谱 (KG) 的 RAG 框架 [41] 被引入 LLM 问答领域, 这些方法大多通过 LLM
来生成与问题匹配的知识检索路径 [42] 或数据库查询语句 [43] , 进而实现对知识库的结构化检索. 然而, 基于 KG 的
RAG 框架需要基于完备的知识库才能实现精准的检索, 但大多数 KG 存在信息缺失或信息冗余的问题, 且维护成
本较大, 这导致基于 KG 的 RAG 框架在复杂知识场景 (如家谱知识问答) 中难以通过检索完整的信息来提升 LLM
所生成答案的准确性.
为了应对因 KG 自身缺陷而导致的 RAG 检索质量下降问题, 本文通过 Jena 推理机的自定义推理规则来增强
RAG 框架在复杂知识中的推理逻辑完备性, 从而实现对不完整 KG 的全面检索, 并在家谱知识问答的场景中验证
了所提出方法的有效性.
1.3 基于知识图谱的家谱知识研究进展
家谱反映了家族人物详细的个人信息和盘根错节的亲属关系, Wu 等人 [2] 认为, 家谱数据是互联网时代数据
HACE 原理 [12] 的典型案例, 即家谱数据存在异构性、自治性、复杂性和演化性这 4 大特点. 因此, 由家谱数据所构
建的知识库是检验数据挖掘算法和知识工程系统有效性的一个经典场景.
现有专门针对家谱知识管理和分析的研究还普遍停留在“从数据到知识”的层面, 即通过数据获取与融合的方
式, 将异构自治的家谱信息转化成统一的结构化知识形式, 以便于家谱信息的存储与管理 [44] . 然而, 这种信息管理
方式并不利于将家谱知识以自然语言的形式传递给一般用户. 此外, 在复杂数据分析方面, 受限于家谱中存在的信
息缺失或内容冗余问题, 当前的知识挖掘算法 [45,46] 往往难以根据已有的家谱知识表示构建完备的推理逻辑, 进而
限制了相关方法对家谱知识的精准挖掘.
由于上述问题的存在, 将繁杂的家谱知识以通俗易懂的自然语言形式展现在用户面前是极具挑战的. 因此, 本
文拟结合完备的 Jena 推理逻辑框架与 LLM 强大的对话能力, 在实现精准的家谱信息检索的前提下, 构建一个具
有人机交互能力的家谱知识问答系统.

