Page 154 - 《软件学报》2025年第9期
P. 154

马杰 等: 基于相关性提示的知识图谱问答                                                            4065


                 设定下, 答案由生成式语言模型输出, 无法直接与标准答案进行匹配, 计算准确率以进行评估, 因此, 需要从语义的
                 角度对待评估答案与标准答案进行比较并进行量化; 另一方面, 以                    ChatGPT  为代表的   LLM  在对话、问答等领域
                 表现出色, 展示出强大的语义理解能力. 越来越多的研究使用                   ChatGPT  作为生成式问答的评估者, 并取得了与人
                 类专家一致的效果      [15,50,51] . 因此, 本文采用  ChatGPT  作为评估者, 构建合适的  prompt 提示词, 对待评估的答案进行
                 评估, 得到范围为     1–5  的  LLM-Score 指标. 答案评估时使用的提示词如表       4  所示.


                                                 表 4 答案评估的提示词模板

                   提示                                        提示词文本
                         你是一位专业、公正且严格的评分员. 以下是用户和AI助手在{domain}领域的问答对话. 根据下面的标准, 根据
                         问答和参考答案, 对助手的表现在1–5的范围内进行评分. 只需要提供分数, 不需要解释.
                         Accuracy: 助手提供的答案准确无误, 根据参考答案没有事实错误. 请确保你不受文本长度的影响, 努力保持客观.
                         你的评分应该足够严格, 不要轻易给出满分. 请按照以下格式输出评分结果: Accuracy: x
                    P    [start of question-answering]
                         {问题}
                         {答案}
                         {参考答案}
                         [end of question-answering]

                    此外, 本文额外引入两个评价指标, 以更全面、可信地评估模型性能. (1) 为了提升可复现性, 本文参考文献                           [10]
                 的做法, 计算知识图谱问答的准确率            (Accuracy), 即: 计算模型在测试集上生成的答案中, 包含问题对应的答案实
                 体的比例; (2) 为了全面地评估系统性能, 本文引入用户满意度 (customer satisfaction score, CSAT)       [52] . 具体计算方
                 式为: 抽取  100  条测试问答对, 由两名人类专家进行评估, 并给出             1–5  的评分. 计算  4  分或  5  分的占比, 作为  CSAT,
                 如公式   (10)、(11) 所示.

                                                 score i = min(expert1 i ,expert2 i )                (10)

                                                         ∑ 100
                                                             I (score i ⩾ 4)
                                                  CSAT =   i                                         (11)
                                                              100
                 其中,   expert# i  为专家  # 对第  i 个问题对应答案的分数,  1 ⩽ expert# i ⩽ 5 I(·) 为指示函数.
                                                                      ,
                    参考文献    [8,9] 中的实验设置, 本文使用以下基线模型设置进行对比实验.
                    (1) m3e: 基于  RoBERTa 的预训练句子编码模型, 使用       m3e 模型匹配与问题最接近的三元组的头实体或尾实
                 体作为问题的答案.
                    (2) GPT 3.5-turbo: 将问题直接输入给  GPT 3.5-turbo  得到对应的答案.
                    (3) LLM + KG-Triples: 将问题中实体对应的一阶子图输入给          LLM, 在本文中采用     ChatGLM-6B、p-tuning v2
                 微调后的   ChatGLM-6B、GPT 3.5-turbo  这  3  种  LLM (采用不同的  LLM  以验证本文方法在不同     LLM  为基座模型
                 的条件下的有效性).

                 4.3   主要实验结果与分析
                    在相同的实验数据集、实验设置和评估指标下, 模型对比实验结果如表                        5  所示. 从实验结果可以看出: 在机械
                 制造领域与航空航天领域, 本文提出的知识图谱融入                 LLM  的方法在   LLM-Score 和  Accuracy 的指标上, 对比相同
                 设置的基线实验, 均取得了最优的结果.
                    具体地, 在   Mecha-QA  数据集上, 本文提出的方法在        LLM-Score 指标上相较于基线实验取得了最优结果. 当
                 使用未微调的     ChatGLM-6B  与  p-tuning v2  微调后的  ChatGLM-6B  作为基座模型时, LLM-Score 相较于基线分别
                 提升了   0.056  和  0.028, Accuracy 分别提升了  8.18%  和  1.4%; 而使用  GPT 3.5-turbo  作为基座模型时, LLM-Score
                 和  Accuracy 的提升达到了   0.190  和  5.64%. 这表明, 通过将检索到的三元组与问题的相关程度输入              LLM, 可以有
                 效地帮助模型更好地利用证据三元组, 从而提高其回答准确性. 另一个测试集                        Mecha-QA-3D  上取得了相似的效果
                 提升.
   149   150   151   152   153   154   155   156   157   158   159