Page 154 - 《软件学报》2025年第9期
P. 154
马杰 等: 基于相关性提示的知识图谱问答 4065
设定下, 答案由生成式语言模型输出, 无法直接与标准答案进行匹配, 计算准确率以进行评估, 因此, 需要从语义的
角度对待评估答案与标准答案进行比较并进行量化; 另一方面, 以 ChatGPT 为代表的 LLM 在对话、问答等领域
表现出色, 展示出强大的语义理解能力. 越来越多的研究使用 ChatGPT 作为生成式问答的评估者, 并取得了与人
类专家一致的效果 [15,50,51] . 因此, 本文采用 ChatGPT 作为评估者, 构建合适的 prompt 提示词, 对待评估的答案进行
评估, 得到范围为 1–5 的 LLM-Score 指标. 答案评估时使用的提示词如表 4 所示.
表 4 答案评估的提示词模板
提示 提示词文本
你是一位专业、公正且严格的评分员. 以下是用户和AI助手在{domain}领域的问答对话. 根据下面的标准, 根据
问答和参考答案, 对助手的表现在1–5的范围内进行评分. 只需要提供分数, 不需要解释.
Accuracy: 助手提供的答案准确无误, 根据参考答案没有事实错误. 请确保你不受文本长度的影响, 努力保持客观.
你的评分应该足够严格, 不要轻易给出满分. 请按照以下格式输出评分结果: Accuracy: x
P [start of question-answering]
{问题}
{答案}
{参考答案}
[end of question-answering]
此外, 本文额外引入两个评价指标, 以更全面、可信地评估模型性能. (1) 为了提升可复现性, 本文参考文献 [10]
的做法, 计算知识图谱问答的准确率 (Accuracy), 即: 计算模型在测试集上生成的答案中, 包含问题对应的答案实
体的比例; (2) 为了全面地评估系统性能, 本文引入用户满意度 (customer satisfaction score, CSAT) [52] . 具体计算方
式为: 抽取 100 条测试问答对, 由两名人类专家进行评估, 并给出 1–5 的评分. 计算 4 分或 5 分的占比, 作为 CSAT,
如公式 (10)、(11) 所示.
score i = min(expert1 i ,expert2 i ) (10)
∑ 100
I (score i ⩾ 4)
CSAT = i (11)
100
其中, expert# i 为专家 # 对第 i 个问题对应答案的分数, 1 ⩽ expert# i ⩽ 5 I(·) 为指示函数.
,
参考文献 [8,9] 中的实验设置, 本文使用以下基线模型设置进行对比实验.
(1) m3e: 基于 RoBERTa 的预训练句子编码模型, 使用 m3e 模型匹配与问题最接近的三元组的头实体或尾实
体作为问题的答案.
(2) GPT 3.5-turbo: 将问题直接输入给 GPT 3.5-turbo 得到对应的答案.
(3) LLM + KG-Triples: 将问题中实体对应的一阶子图输入给 LLM, 在本文中采用 ChatGLM-6B、p-tuning v2
微调后的 ChatGLM-6B、GPT 3.5-turbo 这 3 种 LLM (采用不同的 LLM 以验证本文方法在不同 LLM 为基座模型
的条件下的有效性).
4.3 主要实验结果与分析
在相同的实验数据集、实验设置和评估指标下, 模型对比实验结果如表 5 所示. 从实验结果可以看出: 在机械
制造领域与航空航天领域, 本文提出的知识图谱融入 LLM 的方法在 LLM-Score 和 Accuracy 的指标上, 对比相同
设置的基线实验, 均取得了最优的结果.
具体地, 在 Mecha-QA 数据集上, 本文提出的方法在 LLM-Score 指标上相较于基线实验取得了最优结果. 当
使用未微调的 ChatGLM-6B 与 p-tuning v2 微调后的 ChatGLM-6B 作为基座模型时, LLM-Score 相较于基线分别
提升了 0.056 和 0.028, Accuracy 分别提升了 8.18% 和 1.4%; 而使用 GPT 3.5-turbo 作为基座模型时, LLM-Score
和 Accuracy 的提升达到了 0.190 和 5.64%. 这表明, 通过将检索到的三元组与问题的相关程度输入 LLM, 可以有
效地帮助模型更好地利用证据三元组, 从而提高其回答准确性. 另一个测试集 Mecha-QA-3D 上取得了相似的效果
提升.

