Page 147 - 《软件学报》2025年第9期
P. 147
4058 软件学报 2025 年第 36 卷第 9 期
训练评价模型 [20] 来实现, 存在精度低、标注成本高等问题. 针对上述问题, 本文设计了 LLM-Score 评价指标, 利用
大语言模型从答案语义的角度实现零样本评估. 最终, 实验结果表明, 本文提出的方法在两个垂直领域的数据集上
均有出色表现.
本文的主要贡献包括 3 个方面.
(1) 提出了一个机械制造领域的知识图谱与问答数据集. 据我们调查所知, 该数据集是机械领域较早的知识图
谱问答相关的工作, 主要包含两个子领域: 传统机械制造和增材制造.
(2) 提出了一种知识相关性增强大模型在垂直领域知识图谱问答的方法. 该方法考虑了检索到的知识与问题
之间的相关性, 采用“检索-相关性评估-问答”的框架, 提升 LLM 检索知识进行问答的能力. 此外, 该方法可兼容不
同类型 (开源模型 (如 ChatGLM-6B 等) 与未开源模型 (如 ChatGPT 等)) 的 LLM.
(3) 本文在机械制造领域数据集 Mecha-QA 与航空航天领域的数据集 Aero-QA 上进行实验, 在图谱问答任务
上对比其他基线模型, 均取得了较好的效果. 本文的数据集和代码均已开源至 github (https://github.com/reml-group/
Mecha-QA).
1 相关工作
在自然语言处理领域, 近年来涌现了一系列强大的通用语言模型, 如 ChatGPT、百度文心一言 (https://yiyan.
baidu.com/)、阿里通义千问 (https://qianwen.aliyun.com/)、ChatGLM [4,5] 、LLaMA [21] 等. 这些模型在通用开放领域
展现出出色的语义理解和知识问答能力, 引发了学术界和工业界的广泛兴趣.
然而, 在垂直专业领域问答任务上, 它们往往由于缺乏专业知识而表现出巨大的局限性, 常常出现“幻觉”现象.
这一局限性限制了模型在处理领域特定问题时的准确性和可靠性.
为了应对这一挑战, 学术界和工业界的研究人员正致力于探索使大型语言模型更好地适应特定专业领域的方
法. 主流方法可以分为两类: 基于数据微调的方法和基于知识检索增强的方法 [22,23] . 基于数据微调的方法通常涉及
使用特定领域的标注数据对通用语言模型进行微调. 通过在特定领域的数据集上训练, 模型可以学习到领域特定
的语言模式和知识. 这种方法的关键在于收集足够多的、高质量的领域特定数据, 以便模型能够从中学习到有用
的信息. 微调后的模型在处理与训练数据相似的领域问题时, 可以提供更加准确和专业的回答. 基于知识检索的垂
直领域问答涉及将知识检索与语言模型相结合, 以提高模型在特定领域的知识问答能力. 知识检索的目的是从大
量的非结构化或结构化知识库中检索出与问题相关的信息. 这些知识库可能包括百科全书、专业文献、知识图谱
等. 当模型接收到一个问题时, 它首先使用检索系统找到最相关的知识片段, 然后利用这些知识来生成回答. 这种
方法可以有效地提高模型在处理领域特定问题时的准确性和可靠性, 因为它可以直接利用已有的专业知识来辅助
回答. 下面将对两种方法的相关工作进行具体介绍.
1.1 基于数据微调的垂直领域问答
在垂直领域, 通过 LoRA [24] 、p-tuning [25] 、p-tuning v2 [26] 等参数高效微调的方法构建任务相关数据集, 微调
LLM, 实现基于数据微调的垂直领域问答. HuaTuo [27] 、DISC-MedLLM [15] 在 CMeKG 等中医药数据集的基础上进
行整合与处理, 微调本地 LLM, 得到可以用于医药领域问答的领域大模型. FinGPT [17] 收集了金融领域的媒体数据
以及公开数据集, 利用 LoRA 和人类反馈强化学习 (RLHF) [28] 进行微调, 得到金融领域大模型, 可以实现智能投资
顾问、量化交易等相关工作.
在数据微调的框架下, 可以训练得到对领域知识了解程度较高的 LLM, 从而实现垂直领域的问答. 然而, 尽管
可以使用参数高效微调的方法来减少训练模型需要的资源, 但这种方法对数据规模的依赖性依旧较大, 且对于知
识无法做到及时更新. 本文采取基于知识检索的垂直领域问答方法.
1.2 基于知识检索的垂直领域问答
1.2.1 基于非结构化知识增强的垂直领域问答
通过引入外部知识, 可以使模型生成更准确的回复 [29,30] , 有效减少“幻觉”现象. 对非结构化文本, 目前通用的

